Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de SAÏS Fatiha
SAÏS Fatiha
Doctorat
Equipe : Intelligence Artificielle et Systèmes d'Inférence

Intégration sémantique de données guidée par une ontologie

Début le 01/10/2004
Direction : ROUSSET, Marie-Christine
[Nathalie Pernelle et Marie-Christine Rousset]

Financement : Projet PICSEL 3 (LRI -- FT R&D)
Etablissement d'inscription : Université Paris-Sud
Lieu de déroulement : LRI - IASI

Soutenue le 07/12/2007 devant le jury composé de :
- Patrice Buche Ingénieur de Recherche HDR à AgroParisTech (Examinateur)

- Christine Froidevaux Professeur au LRI, Université Paris–Sud (Présidente du Jury)

- Hélène Gagliardi Maître de Conférences au LRI, Université Paris–Sud (Examinatrice)

- Daniel Kayser Professeur à LIPN, Université Paris–Nord (Rapporteur)

- Alain Léger Directeur de Recherche à France Télécom R&D (Membre invité)

- Nathalie Pernelle Maître de Conférences au LRI, Université Paris–Sud (Co-directrice)

- Jean-Marc Petit Professeur à INSA-Lyon & LIRIS, Université de Lyon (Rapporteur)

- Marie-Christine Rousset Professeur au LIG, Université Joseph Fourier (Directrice)

Activités de recherche :

Résumé :
Dans cette thèse, nous traitons du problème d'intégration sémantique de données. L’objectif est de pouvoir combiner des sources de données autonomes et hétérogènes. Pour y parvenir, toutes les données doivent être représentées selon un même schéma et selon une sémantique unifiée. Cette thèse est articulée en deux parties relativement indépendantes. La première présente une méthode automatique et flexible de réconciliation de données avec une ontologie dans le cas où les données sont représentées dans des tableaux. Pour représenter le résultat de la réconciliation, nous avons défini le format SML dont l’originalité est de permettre de représenter tous les appariements trouvés mais également les informations imparfaitement identifiées. La seconde partie présente deux méthodes de réconciliation de références décrites relativement à un même schéma. Il s’agit de décider si des descriptions différentes se réfèrent à la même entité du monde réel. La première méthode, nommée L2R, est logique. La sémantique des données et du schéma y est traduite par un ensemble de règles de (non) réconciliation permettant d’inférer des décisions de (non) réconciliation certaines. La seconde, nommée N2R, est numérique. Dans cette méthode, la sémantique du schéma est traduite par une mesure de similarité informée utilisée pour calculer la similarité des paires de références. Ce calcul est exprimé dans un système d’équations non linéaire résolu par une méthode itérative. Ces méthodes obtiennent des résultats satisfaisants sur des données réelles, ce qui montre la faisabilité d’approches complètement automatiques et guidées uniquement par une ontologie pour ces deux problèmes de réconciliation.