Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Données et Connaissances Massives et Hétérogènes

Gestion d'identité dans des graphes de connaissances

Début le 01/10/2015
Direction : PERNELLE-MANSCOUR, Nathalie

Ecole doctorale : ED STIC 580
Etablissement d'inscription : vide

Lieu de déroulement : INRA et LRI LaHDAK

Soutenue le 30/11/2018 devant le jury composé de :
Co-Directrice de thèse :
- Mme Juliette Dibie - Professeure, AgroParisTech
- Mme Nathalie Pernelle - Maître de Conférences HDR, Université Paris-Sud

Co-Encadrante de thèse :
- Mme Fatiha Saïs - Maître de Conférences, Université Paris-Sud
- Mme Liliana Ibanescu (Co-Encadrante de thèse) - Maître de Conférences, AgroParisTech

Rapporteurs :
- Mme Catherine Faron Zucker - Maître de Conférences HDR, Université Nice Sophia Antipolis
- M. Mathieu d’Aquin - Professeur, National University of Ireland Galway

Examinateurs :
- M. Harry Halpin - Chercheur, Massachusetts Institute of Technology
- M. Pascal Molli - Professeur, Université de Nantes
- Mme Sarah Cohen Boulakia - Professeure, Université Paris-Sud

Activités de recherche :

Résumé :
En l'absence d'une autorité de nommage centrale sur le Web de données, il est fréquent que différents graphes de connaissances utilisent des noms (IRIs) différents pour référer à la même entité. Chaque fois que plusieurs noms sont utilisés pour désigner la même entité, les faits owl:sameAs sont nécessaires pour déclarer des liens d’identité et améliorer l’exploitation des données disponibles. De telles déclarations d'identité ont une sémantique logique stricte, indiquant que chaque propriété affirmée à un nom sera également déduite à l'autre et vice versa. Bien que ces inférences puissent être extrêmement utiles pour améliorer les systèmes fondés sur les connaissances tels que les moteurs de recherche et les systèmes de recommandation, l'utilisation incorrecte de l'identité peut avoir des effets négatifs importants dans un espace de connaissances global comme le Web de données. En effet, plusieurs études ont montré que owl:sameAs est parfois incorrectement utilisé sur le Web des données. En s'appuyant sur une collection de 558 millions liens d'identité, cette thèse montre comment des mesures de réseau telles que la structure de communauté du réseau owl:sameAs peuvent être utilisées afin de détecter des liens d’identité éventuellement erronées. En outre, afin de limiter l'utilisation excessive et incorrecte du owl:sameAs, nous définissons une nouvelle relation pour représenter l'identité de deux instances d’une classe dans un contexte spécifique. Cette relation d'identité s'accompagne d'une approche permettant de détecter automatiquement ces liens, avec la possibilité d'utiliser certaines contraintes expertes pour filtrer des contextes non pertinents. La détection et l’exploitation de ces liens d’identité contextuels sont effectuées sur un graphe de connaissances pour les sciences de la vie, construits en collaboration avec des experts de l’INRA.