- IRISA PI-1579: Locks and Barriers in Checkpointing and Recovery

PDA

View Full Version : IRISA PI-1579: Locks and Barriers in Checkpointing and Recovery


Anne Jaigu
07-25-2004, 02:49 AM
PI-1579: Locks and Barriers in Checkpointing and Recovery
Ramamurthy Badrinath, Christine Morin
http://www.irisa.fr/bibli/publi/pi/2003/1579/1579.html
14 pages - novembre 2003

Abstract
Dependency tracking between communicating tasks is an important concept
in backward error recovery for parallel applications. One can extend the
traditional dependence tracking model for message passing systems to
track dependencies between shared memory and task private states for
shared memory applications. The objective of this paper is to analyze
the issues generated by locks and barriers in parallel applications so
that we can checkpoint tasks at any time (even when holding or waiting
for locks and barriers). In particular we attempt to extend earlier
dependency tracking mechanisms to locks and barriers. We address both
coordinated and uncoordinated checkpointing schemes.

Résumé
La détection des dépendances entre des tâches communicantes est un
concept important dans les protocoles de recouvrement arrière pour les
applications parallèles. Il est possible d'étendre le modèle de
détection de dépendances traditionnel dans les systèmes à échange de
messages afin de détecter les dépendances entre les états privés des
tâches et la mémoire partagée pour les applications parallèles fondées
sur le paradigme de communication par mémoire partagée. L'objectif de
cet article est d'analyser les problèmes soulevés par les verrous et les
barrières dans les applications parallèles lorsqu'il s'agit de pouvoir
sauvegarder un point de reprise à tout momemnt (même pendant qu'une
tâche détient un verrou ou que des tâches sont bloquées sur une
barrière). En particulier, nous tentons d'étendre les mécanismes de
détection de dépendances existants pour prendre en compte les verrous et
les barrières. Nous nous intéressons aux stratégies de sauvegarde
coordonnée et non coordonnée de points de reprise de processus.

Keywords: Lock, barrier, synchronization, checkpointing, backward error
recovery, dependency tracking, cluster

Mots clefs: Verrou, barrière, synchronisation, point de reprise,
recouvrement arrière, détection de dépendances, grappe