Sujet de thèse 2009 LIP/INRIA: Traitement intensif de données sur les grilles d'ordinateurs personnels.
Les systèmes de grilles de PC permettent de valoriser l'infrastructure
informatique existante (PC et réseau) d'une entreprise, d'une
université ou d'une communauté virtuelle sur Internet; en permettant
d'obtenir à moindre frais de grandes capacités de calcul et de
stockage. Ces systèmes ont démontré qu'ils pouvaient fournir une
gigantesque puissance de calcul (par exemple plus de 450 TeraFlops
pour SETI@Home) à partir de centaines de milliers de d'ordinateurs
domestiques prétés par des utilisateurs volontaires. Néanmoins, les
capacités de stockage de ces systèmes sont peu exploitées alors
qu'elles pourraient bénéficier aux classes d'applications parallèles
de traitements de grandes données ! Ces applications concernent
différents domaines scientifiques (bio-informatique, physique,
traitement d'images etc...), et sont de première importance pour la
communauté scientifique et ont de nombreuses applications dans
l'industrie.
Cette thèse s'appuie l'environnement de gestion des données à grande
échelle BitDew (http://www.bitdew.net). BitDew est un
environnement d'exécution programmable qui peut être intégré dans les
systèmes de Grid ou de Desktop Grid et qui implémente la distribution
et l'indexation de
façon centralisées ou distribuées (pair-à-pair). Le principe est le
suivant : l'utilisateur définit pour chacune des données des attributs
(placement, affinité, ordonnancement, réplication, tolérance aux
pannes, distribution, cycle de vie), que l'environnement va
interpréter dynamiquement de façon transparente. L'utilisateur n'a
donc pas à prendre en charge la tolérance aux pannes et la
localisation des données, ce qui est primordial dans les grands
systèmes distribués composés de ressources volatiles.
Le sujet de thèse que nous proposons consiste en l'étude d'un certain
nombre de points permettant le traitement intensif de données sur les
grilles de PC :
-
Un premier axe de recherche est d'implémenter les
communications collectives classiques (broadcast, réduction,
gather/scatter, all-to-all) permettant une expression de haut niveau
des mouvements de données. Ceci est réalisable avec BitDew en
utilisant les directives de placement des données, et il existe déjà
plusieurs travaux proches visant à faire des communications
collectives sur une plate-forme P2P de calcul (P3, P2P-MPI). Cependant,
l'implémentation d'opérations collectives au-dessus de protocole de
transferts de fichiers client/serveur et P2P est nouveau et il sera très
intéressant d'évaluer ces approches dans un contexte réel de
l'Internet ADSL. Pour cela nous utiliserons la plate-forme DSL-lab et
comparerons les différentes approches, en simulant la volatilité des
noeuds par des crashs.
-
Le second axe de recherche est l'exécution en parallèle de traitement
sur des segments différents de données. Pour ce faire nous
implémenterons les opérations de MapReduce et nous
évaluerons cette approche sur une véritable application de traitement
intensif de données. Typiquement, des applications telles que BLAST,
qui consistent en la recherche de courtes séquences d'ADN dans des
banques de gènes de plusieurs GigaBytes peuvent bénéficier de ce type
d'approche.
-
Le troisième axe de recherche conciste en l'étude de la disponibilité
des données
sur les grilles de PC.
Les applications de traitement intensif de données se caractérisent
par le traitement en parallèle sur de grands ensembles de données. Il
faut donc pouvoir découper les données, distribuer le stockage des
morceaux de données sur les noeuds et répartir le traitement des
données. Puisque les noeuds sont volatiles, il faut pouvoir assurer
la disponibilité des
données à cours terme, lors des calculs, et à long terme en cas d'archivage
des données. Les méthodes que nous étudierons reposerons pour une part
sur la prédiction
de disponibilité des noeuds de stockage et d'autre part sur la
réplication et l'application
de code de redondance sur les données distribuées.
Last modified: Mon Dec 1 14:27:14 CET 2008