Proposition de stage de DEA ou d'ingénieur

2004-2005

Titre : "Combinaison de méthodes de sélection d'attributs et boosting pour la sélection"


Résumé :

De nombreuses applications impliquent des données en grande dimension, c'est-à-dire définies à l'aide de très nombreux attributs. C'est par exemple le cas de l'analyse du génome, de la vision artificielle ou de la fouille de documents.

Pour faciliter l'apprentissage, voire pour le rendre possible, il est alors utile de réduire le nombre d'attributs considérés. On parle alors de sélection d'attributs. De nombreuses méthodes ont été développées dans ce but. Elles sont toutes nécessairement biaisées, c'est-à-dire sensibles à certains types de régularité et pas à d'autres, et limitées face au bruit dans les données ou à un nombre insuffisant de données.

Une idée est alors de combiner plusieurs méthodes pour essayer d'obtenir une meilleure extraction des caractéristiques importantes, et, à tout le moins, une plus grande confiance dans le résultat obtenu. Dans ce cadre, nos recherches portent, d'une part, sur la comparaison de méthodes, en particulier pour évaluer leur corrélation, et, d'autre part, sur leur combinaison, soit par intersection de leurs résultats, soit par vote.

Le sujet de ce stage est :

  1. d'expérimenter la validité et la portée de la méthode de comparaison de méthodes que nous avons mis au point
  2. d'utiliser cette mesure de comparaison pour définir un algorithme de "boosting" pour la sélection d'attributs (qui repose sur l'utilisation de méthodes diversifiées, d'où l'utilité de la mesure de corrélation).

Ce stage est d'une portée pratique considérable. Il comprend à la fois des aspects conceptuels (une bonne compréhension de statistiques de base et de l'apprentissage artificiel) et des aspects expérimentaux pour tester l'approche. Une coopération avec des biologistes est probable.


Responsable : Antoine Cornuéjols
Laboratoire : Laboratoire de Recherche en Informatique (L.R.I.), CNRS UMR 8623
Adresse : Université de Paris-Sud, 91405 Orsay Cedex
Mail : antoine@lri.fr
URL : http://www.lri.fr/~antoine/Research/sujet-invar-echelle.html