Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Apprentissage et Optimisation

Bandits Manchots sur Flux de Données Non Stationnaires

Début le 20/10/2013
Direction : SEBAG, Michèle

Financement : CIFRE
Etablissement d'inscription : Université Paris-Sud
Lieu de déroulement : LRI - AO

Soutenue le 19/10/2016 devant le jury composé de :

Activités de recherche :

Résumé :
Le problème des bandits manchots est un cadre théorique permettant d'étudier le compromis
entre exploration et exploitation lorsque l'information observée est partielle. Dans celui-ci, un
joueur dispose d'un ensemble de K bras (ou actions), chacun associé à une distribution de
récompenses D(k) de moyenne k 2 [0; 1] et de support [0; 1]. A chaque tour t 2 [1; T], il
choisit un bras k_t et observe la récompense y_{k_t} tirée depuis D(k_t). La difficulté du problème
vient du fait que le joueur observe uniquement la récompense associée au bras joué; il ne
connaît pas celle qui aurait pu être obtenue en jouant un autre bras. À chaque choix, il est
ainsi confronté au dilemme entre l'exploration et l'exploitation; explorer lui permet d'affiner
sa connaissance des distributions associées aux bras explorés tandis qu'exploiter lui permet
d'accumuler davantage de récompenses en jouant le meilleur bras empirique (sous réserve que
le meilleur bras empirique soit effectivement le meilleur bras). Dans la première partie de la
thèse nous aborderons le problème des bandits manchots lorsque les distributions générant les
récompenses sont non-stationnaires. Nous étudierons dans un premier temps le cas où même
si les distributions varient au cours du temps, le meilleur bras ne change pas. Nous étudierons
ensuite le cas où le meilleur bras peut aussi changer au cours du temps. La seconde partie
est consacrée aux algorithmes de bandits contextuels où les récompenses dépendent de l'état de
l'environnement. Nous étudierons l'utilisation des réseaux de neurones et des forêts d'arbres dans
le cas des bandits contextuels puis les différentes approches à base de méta-bandits permettant
de sélectionner en ligne l'expert le plus performant durant son apprentissage.