- IRISA PI-1592: A Hierarchical Checkpointing Protocol for Parallel Applications in Cluster Federations

PDA

View Full Version : IRISA PI-1592: A Hierarchical Checkpointing Protocol for Parallel Applications in Cluster Federations


Anne Jaigu
07-25-2004, 02:49 AM
PI-1592: A Hierarchical Checkpointing Protocol for Parallel Applications
in Cluster Federations
Sébastien Monnet, Christine Morin, Ramamurthy Badrinath
http://www.irisa.fr/bibli/publi/pi/2004/1592/1592.html
24 pages - janvier 2004

Abstract
Code coupling applications can be divided into communicating modules,
that may be executed on different clusters in a cluster federation. As a
cluster federation comprises of a large number of nodes, there is a high
probability of a node failure. We propose a hierarchical checkpointing
protocol that combines a synchronized checkpointing technique inside
clusters and a communication-induced technique between clusters. This
protocol fits to the characteristics of a cluster federation (large
number of nodes, high latency and low bandwidth networking technologies
between clusters). A preliminary performance evaluation performed using
a discrete event simulator shows that the protocol is suitable for code
coupling applications.

Résumé
Les applications de type couplage de codes peuvent être divisées en
modules communicants pouvant s'exécuter sur différentes grappes d'une
fédération. Une fédération de grappes de calculateurs comportant un
grand nombre de noeuds, la probabilité de défaillance d'un noeud est
très élevée. Nous proposons un protocole de sauvegarde de points de
reprise hiérarchique qui combine une technique de sauvegarde coordonnée
de points de reprise au sein d'une grappe et une technique de sauvegarde
de points de reprise induits par les communications entre les grappes.
Ce protocole convient aux caractéristiques d'une fédération de grappes
de calculateurs (grand nombre de noeuds, latence élevée et faible débit
de communication entre les grappes). Les premières évaluations réalisées
à l'aide d'un simulateur à événements discrets montrent que le protocole
est adapté aux applications de type couplage de codes.

Keywords: Cluster Federation, Checkpointing and Recovery,
Fault-tolerance, Parallel Application, Code Coupling

Mots clefs: Fédération de grappes, points de reprise, tolérance aux
fautes, applications parallèles, couplage de codes