Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Données et Connaissances Massives et Hétérogènes

Apprentissage de la représentation du style écrit, application à la recommandation d’articles d’actualité

Début le 20/03/2017
Direction : BOURDA, Yolaine
[DOAN Bich-Liên]

Ecole doctorale : ED STIC 580
Etablissement d'inscription : Centrale Supélec

Lieu de déroulement : Octopeek et LRI Modhel

Soutenue le 09/03/2021 devant le jury composé de :
Directrice de thèse :
- Mme Bich-Liên Doan, CentraleSupélec

Co-encadrant de thèse :
- M. Fabrice Popineau, CentraleSupélec

Rapporteurs :
- M. Eric Gaussier, Université Grenoble Alpes
- M. Thierry Poibeau, CNRS et ENS/PSL

Examinateurs :
- Mme Anne Vilnat, Université Paris-Saclay
- Mme Armelle Brun, Université de Lorraine
- M. Benjamin Piwowarski, Sorbonne Université
- M. Max Chevalier, Université Toulouse III - Paul Sabatier

Activités de recherche :

Résumé :
La modélisation des utilisateurs est une étape essentielle lorsqu'il s'agit de recommander des produits et proposer des services automatiquement. Les réseaux sociaux sont une ressource riche et abondante de données utilisateur (p. ex. liens partagés, messages postés) permettant de modéliser leurs intérêts et préférences. Dans cette thèse, nous proposons d'exploiter les articles d'actualité partagés sur les réseaux sociaux afin d'enrichir les modèles existants avec une nouvelle caractéristique textuelle : le style écrit. Cette thèse, à l'intersection des domaines du traitement automatique du langage naturel et des systèmes de recommandation, porte sur l'apprentissage de la représentation du style et de son application à la recommandation d'articles d'actualité. Dans un premier temps, nous proposons une nouvelle méthode d'apprentissage de la représentation du texte visant à projeter tout document dans un espace stylométrique de référence. L'hypothèse testée est qu'un tel espace peut être généralisé par un ensemble suffisamment large d'auteurs de référence, et que les projections vectorielles des écrits d'un auteur « nouveau » seront proches, d'un point de vue stylistique, des écrits d'un sous-ensemble consistant de ces auteurs de référence. Dans un second temps, nous proposons d'exploiter la représentation stylométrique du texte pour la recommandation d'articles d'actualité en la combinant à d'autres représentations (p. ex. thématique, lexicale, sémantique). Nous cherchons à identifier les caractéristiques les plus complémentaires pouvant permettre une recommandation d'articles plus pertinente et de meilleure qualité. L'hypothèse ayant motivé ces travaux est que les choix de lecture des individus sont non seulement influencés par le fond (p. ex. le thème des articles d'actualité, les entités mentionnées), mais aussi par la forme (c.-à-d. le style pouvant, par exemple, être descriptif, satirique, composé d'anecdotes personnelles, d'interviews). Les expérimentations effectuées montrent que non seulement le style écrit joue un rôle dans les préférences de lecture des individus, mais aussi que, lorsqu'il est combiné à d'autres caractéristiques textuelles, permet d'augmenter la précision et la qualité des recommandations en termes de diversité, de nouveauté et de sérendipité.