Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Intelligence Artificielle et Systèmes d'Inférence

Annotation sémantique de documents semi-structurés pour la recherche d'information

Début le 01/12/2006
Direction : REYNAUD, Chantal

Ecole doctorale : Paris XI
Etablissement d'inscription : Université Paris-Saclay

Lieu de déroulement : LRI INRIA SACLAY

Soutenue le 09/12/2010 devant le jury composé de :
Rapporteurs :

- Nathalie Aussenac-Gilles - Directrice de Recherche – IRIT – Toulouse
- Fabien Gandon - Chercheur Senior – Edelweiss Research team INRIA –
Sophia Antipolis


Examinateurs :

- Cheikh Talibouya Diop - Maître de conérences HDR – LANI – UGB
- Amel Bouzeghoub - Professeur – TELECOM & Management – Sudparis


Directeurs de thèse

- Moussa LO - Maître de conérences HDR – LANI – UGB
- Chantal Reynaud - Professeur – LRI – Université Paris-Sud


Co-directrices

- Naéra Bennacer - Maître de conférences – E3S– SUPELEC
- Nathalie Pernelle - Maître de conférences – LRI – Université
Paris-Sud

Activités de recherche :

Résumé :
Le web sémantique est défini par un ensemble de méthodes et de
technologies permettant à des agents logiciels de raisonner sur le contenu
des ressources du Web. Cette vision du Web dépend de la construction des
ontologies et de l’utilisation de métadonnées pour représenter ces
ressources. L’objectif de notre travail de thèse est d’annoter
sémantiquement des documents balisés et relatifs au même domaine. Ces
documents peuvent comporter des parties bien structurées et d’autres
textuelles. Nous supposons disposer d’une ontologie de domaine définie par
des concepts, des relations entre ces concepts et des propriétés. Cette
ontologie comporte une composante lexicale où chaque concept est
accompagné de labels, d’un ensemble d’entités nommées (EN) et de termes du
domaine. Nous avons défini une approche automatique SHIRI-Extract qui
permet d’extraire des termes et des EN de manière indépendante du domaine
et de les aligner aux concepts de l’ontologie. L’alignement utilise la
composante lexicale ou le Web pour découvrir de nouveaux termes. Nous
avons défini un modèle d’annotation représentant les résultats
d’extraction et d’annotation. Les métadonnées de ce modèle distinguent les
nœuds selon que les termes ou les EN agrégés dans un même nœud sont
alignés avec un ou plusieurs concepts différents. Elles permettent
également d’annoter la relation de voisinage entre les nœuds. Nous avons
défini SHIRI-Annot, un ensemble de règles déclaratives pour annoter les
nœuds et leurs relations. La base d’annotations RDF(S) construite peut
être interrogée à l'aide de requêtes SPARQL. L'évaluation a porté sur une
collection de documents portant sur des appels à participation à des
conférences.