Anne Jaigu
07-25-2004, 02:49 AM
PI-1580: Hybrid Checkpointing for Parallel Applications in Cluster
Federations
Sébastien Monnet, Christine Morin, Ramamurthy Badrinath
http://www.irisa.fr/bibli/publi/pi/2003/1580/1580.html
15 pages - novembre 2003
Abstract
Cluster federations are very useful for applications like large scale
code coupling. Faults may appear very frequently, so we want to use
checkpoints to be able to restart applications. To take into account the
constraints introduced by clusters federation architecture, we propose a
hierarchical checkpointing protocol. It uses synchronization inside
clusters but only quasi-synchronous methods between clusters. Our
protocol has been evaluate by simulation and fits well for applications
that can be divided in modules with a lot of communications inside
modules but few between them.
Résumé
Les fédérations de grappes de calculateurs sont très utiles pour des
applications comme le couplage de codes à très grande
échelle. Toutefois, dans ce type d'achitecture, les fautes peuvent
survenir très fréquemment. Il est donc souhaitable d'établir des points
de reprise permettant de redémarrer l'application. Peu de protocoles
prennent en compte les contraintes introduites par l'architecture de
fédération de grappes de calculateurs, nous proposons donc un protocole
de points de reprises hiérarchique. Il utilise une méthode de points de
reprise coordonnée au seins des grappes, et une méthode quasi-synchrone
entre les grappes. Notre protocole a été évalué par simulation et se
comporte bien avec des applications qui peuvent être divisées en
modules, avec de nombreuses communications au sein de chaque module,
mais peu entre modules.
Keywords: Hybrid checkpointing, parallel applications,
quasi-synchronous, code coupling, fault tolerance
Mots clefs: Points de reprise hybrides, applications parallèles,
quasi-synchrone, couplage de code, tolérance aux fautes
Federations
Sébastien Monnet, Christine Morin, Ramamurthy Badrinath
http://www.irisa.fr/bibli/publi/pi/2003/1580/1580.html
15 pages - novembre 2003
Abstract
Cluster federations are very useful for applications like large scale
code coupling. Faults may appear very frequently, so we want to use
checkpoints to be able to restart applications. To take into account the
constraints introduced by clusters federation architecture, we propose a
hierarchical checkpointing protocol. It uses synchronization inside
clusters but only quasi-synchronous methods between clusters. Our
protocol has been evaluate by simulation and fits well for applications
that can be divided in modules with a lot of communications inside
modules but few between them.
Résumé
Les fédérations de grappes de calculateurs sont très utiles pour des
applications comme le couplage de codes à très grande
échelle. Toutefois, dans ce type d'achitecture, les fautes peuvent
survenir très fréquemment. Il est donc souhaitable d'établir des points
de reprise permettant de redémarrer l'application. Peu de protocoles
prennent en compte les contraintes introduites par l'architecture de
fédération de grappes de calculateurs, nous proposons donc un protocole
de points de reprises hiérarchique. Il utilise une méthode de points de
reprise coordonnée au seins des grappes, et une méthode quasi-synchrone
entre les grappes. Notre protocole a été évalué par simulation et se
comporte bien avec des applications qui peuvent être divisées en
modules, avec de nombreuses communications au sein de chaque module,
mais peu entre modules.
Keywords: Hybrid checkpointing, parallel applications,
quasi-synchronous, code coupling, fault tolerance
Mots clefs: Points de reprise hybrides, applications parallèles,
quasi-synchrone, couplage de code, tolérance aux fautes