Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Intelligence Artificielle et Systèmes d'Inférence

Approche hybrides pour la recherche sémantique de l'information: intégration des bases de connaissances et des ressources semi-structurées

Début le 01/10/2008
Direction : REYNAUD, Chantal

Ecole doctorale :
Etablissement d'inscription : Université Paris-Sud

Lieu de déroulement : LRI-INRIA SACLAY

Soutenue le 12/07/2012 devant le jury composé de :
- Patrice Buche, INRA SUPAgro - Montpellier (Ingénieur de recherche, HDR) / Rapporteur
- Matthieu Roche, LIRMM - Université Montpellier 2 (Maître de conferences, HDR) / Rapporteur
- Bernd Amann, LIP 6 - UPMC (Professeur) / Examinateur
- Yolaine Bourda, E3S - SUPELEC (Professeur) / Examinateur
- Anne Vilnat, LIMSI - Université Paris-Sud XI (Professeur) / Examinateur
- Chantal Reynaud, LRI - Université Paris-Sud XI (Professeur) / Directrice de thèse
- Nacéra Bennacer, E3S - SUPELEC (Maître de conferences) / Co-directrice de thèse
- Nathalie Pernelle, LRI - Université Paris-Sud XI (Maître de conferences) / Co-directrice de thèse

Activités de recherche :

Résumé :
La recherche sémantique de l'information a connu un nouvel essor avec les nouvelles technologies du Web sémantique. Des langages standards permettent aujourd'hui aux logiciels de communiquer par le biais de données écrites dans le vocabulaire d'ontologies de domaine décrivant une sémantique explicite. Cet accès ``sémantique'' à l'information requiert la disponibilité de bases de connaissances décrivant les instances des ontologies de domaine. Cependant, ces bases de connaissances, bien que de plus en plus riches, contiennent relativement peu d'information par comparaison au volume des informations contenu dans les documents du Web.

La recherche sémantique de l'information atteint ainsi certaines limites par comparaison à la recherche classique de l'information qui exploite plus largement ces documents. Ces limites se traduisent explicitement par l'absence d'instances de concepts et de relations dans les bases de connaissances construites à partir des documents du Web. Dans cette thèse nous étudions deux directions de recherche différentes afin de permettre de répondre à des requêtes sémantiques dans de tels cas. Notre première étude porte sur la reformulation des requêtes sémantiques des utilisateurs afin d'atteindre des parties de document pertinentes à la place des faits recherchés et manquants dans les bases de connaissances. La deuxième problématique que nous étudions est celle de l'enrichissement des bases de connaissances par des instances de relations.

Nous proposons deux solutions pour ces problématiques en exploitant des documents semi-structurés annotés par des concepts ou des instances de concepts. Un des points clés de ces solutions est qu'elles permettent de découvrir des instances de relations sémantiques sans s'appuyer sur des régularités lexico-syntaxiques ou structurelles dans les documents. Nous situons ces deux approches dans la littérature et nous les évaluons avec plusieurs corpus réels extraits du Web. Les résultats obtenus sur des corpus de citations bibliographiques, des corpus d'appels à communication et des corpus géographiques montrent que ces solutions permettent effectivement de retrouver de nouvelles instances de relations à partir de documents hétérogènes tout en contrôlant efficacement leur précision.