Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Données et Connaissances Massives et Hétérogènes

Traitement efficace de requêtes sparql avec extensions olap pour entrepôts RDF

Début le 01/09/2011
Direction : MANOLESCU-GOUJOT, Ioana
[GOASDOUE François]

Financement :
Etablissement d'inscription : Université Paris-Sud
Lieu de déroulement : LRI

Soutenue le 22/09/2014 devant le jury composé de :
Directrice de la thèse :
- Mme. Ioana Manolescu, Directrice de Recherche, Inria et Université Paris-Sud

Co-encadrant :
- M. François Goasdoué, Professeur, Université Rennes 1

Rapporteurs :
- M. Alon Halevy, Professeur, Google Research
- M. Frank van Harmelen, Professeur, Vrije Universiteit Amsterdam
- M. Frank van Harmelen, Professeur, Vrije Universiteit Amsterdam

Examinateurs :
- M. Serge Abiteboul, Directeur de Recherche, Inria et ENS Cachan
- Mme. Christine Froidevaux, Professeur, Université Paris-Sud
- M. Philippe Rigaux, Professeur, Conservatoire National des Arts et Métiers

Activités de recherche :

Résumé :
L'utilité et la pertinence des données se trouvent dans l'information qui peut en être extraite. Le taux élevé de publication des données et leur complexité accrue, par exemple dans le cas des données du Web sémantique autodescriptives et hétérogènes, motivent l'intérêt de techniques efficaces pour la manipulation de données. Dans cette thèse, nous utilisons la technologie mature de gestion de données relationnelles pour l'interrogation des données du Web sémantique.

La première partie se concentre sur l'apport de réponse aux requêtes sur les données soumises à des contraintes RDFS, stockées dans un système de gestion de données relationnelles. L'information implicite, résultant du raisonnement RDF est nécessaire pour répondre correctement à ces requêtes. Nous introduisons le fragment des bases de données RDF, allant au-delà de l'expressivité des fragments étudiés précédemment. Nous élaborons de nouvelles techniques pour répondre aux requêtes dans ce fragment, en étendant deux approches connues de manipulation de données sémantiques RDF, notamment par saturation de graphes et reformulation de requêtes. En particulier, nous considérons les mises à jour de graphe au sein de chaque approche et proposerons un procédé incrémental de maintenance de saturation. Nous étudions expérimentalement les performances de nos techniques, pouvant être déployées au-dessus de tout moteur de gestion de données relationnelles.

La deuxième partie de cette thèse considère les nouvelles exigences pour les outils et méthodes d'analyse de données, issues de l'évolution du Web sémantique. Nous revisitons intégralement les concepts et les outils pour l'analyse de données, dans le contexte de RDF. Nous proposons le premier cadre formel pour l'analyse d'entrepôts RDF. Notamment, nous définissons des schémas analytiques adaptés aux graphes RDF hétérogènes à sémantique riche, des requêtes analytiques qui (au-delà de cubes relationnels) permettent l'interrogation flexible des données et schémas, ainsi que des opérations d'agrégation puissantes de type OLAP. Des expériences sur une plateforme entièrement implémentée démontrent l'intérêt pratique de notre approche.