Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Bioinformatique

Modélisation et score de complexes protéine-ARN

Début le 26/09/2011
Direction : FROIDEVAUX, Christine
[AZE Jérôme]

Ecole doctorale : ED STIC 580
Etablissement d'inscription : Université Paris-Sud

Lieu de déroulement : LRI-Bio-Info

Soutenue le 29/09/2014 devant le jury composé de :
Directrice de thèse :
- Mme. Christine Froidevaux, Professeure, Université Paris-Sud, LRI

Co-encadrants :
- M. Jérôme Azé, Professeur, Université de Montpellier II, LIRMM
- Mme. Julie Bernauer, Chargée de Recherche Inria, Inria Saclay et LIX École Polytechnique

Rapporteuses :
- Mme. Anne Poupon, Directeur de Recherche CNRS, laboratoire BIOS, INRA
- Mme. Céline Rouveirol, Professeure, Université Paris-Nord, LIPN

Examinateurs :
- M. Philippe Dague, Professeur, Université Paris-Sud, LRI
- Mme. Béatrice Duval, Maître de Conférences HDR, Université d'Angers, LERIA

Activités de recherche :

Résumé :
Cette thèse s'inscrit dans le domaine de la prédiction d’interactions protéine-ARN. Ce domaine de la bioinformatique structurale très actif s'appuie sur une communauté internationale qui organise régulièrement des compétitions pour évaluer différentes techniques de prédictions in silico d’interactions protéine-protéine et protéine-ARN sur des données expérimentales (CAPRI). Dans ce cadre, les approches reposant sur des techniques d’apprentissage supervisé ont récemment obtenus de très bons résultats. Nos travaux s’inscrivent dans cette démarche.
Nous avons travaillé sur des jeux de données de complexes protéine-ARN extraits de la PRIDB (banque de données de référence pour les interactions protéine-ARN). Le faible nombre de structures natives et la difficulté de générer in silico des structures identiques à la solution in vivo nous a conduit à mettre en place une stratégie de génération de candidats par perturbation de l’ARN partenaire d’un complexe protéine-ARN natif. Les candidats ainsi obtenus sont considérés comme des conformations quasi-natives si elles sont suffisamment proches du natif. Les autres candidats sont des leurres. L’objectif est de pouvoir identifier les quasi-natifs parmi l’ensemble des candidats potentiels par apprentissage supervisé. L’une des approches présentant les meilleures performances CAPRI est l’approche RosettaDock, optimisée pour la prédiction d’interactions protéine-protéine. Nous avons étendu la fonction de score native de RosettaDock pour résoudre la problématique protéine-ARN. Le gain obtenu par rapport à la fonction native est significatif.
Dans un second temps, nous avons introduit et mis en œuvre une nouvelle stratégie pour l’évaluation des candidats qui repose sur la notion de multi-échelle. Un candidat est représenté à la fois au niveau atomique, c'est-à-dire le niveau de représentation le plus détaillé, et au niveau dit “gros-grain” où nous utilisons une représentation géométrique basée sur des diagrammes de Voronoï pour regrouper ensemble plusieurs composants de la protéine ou de l’ARN. L’objectif est de pouvoir rapidement identifier la zone d’interaction entre la protéine et l’ARN avant d’utiliser l’approche atomique, plus précise, mais plus coûteuse en temps de calcul. L’une des difficultés est alors de pouvoir générer des candidats suffisamment diversifiés. Les résultats obtenus sont prometteurs et ouvrent des perspectives intéressantes.