LRI : page d'accueil

Laboratoire de Recherche en Informatique
MOQA : Journée Métadonnées, Ontologies et Qualité dans les Annotations

Jeudi 17 Septembre 2009

Salle 79, Laboratoire de Recherche en Informatique (LRI, CNRS UMR 8623), Université Paris-Sud 11, Orsay

Thèmes
  • Annotation et métadonnées, qualité et traçabilité des données

  • Annotation, vocabulaires contrôlés et ontologies

  • Exploitation des annotations

  • Utilisation des technologies du web sémantique pour la mise en oeuvre des approches (représenter les annotations et faciliter leur analyse)

Programme

  • 9h15 – 9h30 Welcome

  • 9h30-10h A. Burgun*, F. Mougin**, O. Bodenreider***
    * INSERM Université Rennes, **LABRI Université de Bordeaux, ***NLM/NIH, USA
    Annotations phénotypiques et données cliniques: problématique de leur intégration
    Les modèles animaux des maladies jouent un rôle fondamental dans la compréhension des pathologies humaines. Dans la recherche translationnelle, qui crée des flux bidirectionnels entre la recherche biologique et le soin, le rapprochement des données phénotypiques chez l'animal, en particulier issues du modèle murin et les données cliniques chez l'humain est déterminant. Nous présentons deux approches complémentaires pour intégrer ces données, l'une terminologique basée sur l'UMLS et l'autre basée sur les annotations des orthologues et leur application à l'intégration des annotations phénotypiques de la base Mouse Genome Informatics (MGI) et des données de Online Mendelian Inheritance in Man (OMIM).

  • 10h-10h30 Sidahmed Benabderrahmane, Marie-Dominique Devignes et Malika Smail-Tabbone, LORIA, Nancy
    Prise en compte de métadonnées de qualité dans la définition d'une mesure de similarité sémantique. Application à Gene Ontology.
    Les annotations des entités biologiques sont aujourd’hui largement utilisées pour comparer entre elles ces entités à des fins de classification, de classement ou d’inférence de propriétés. Diverses mesures de similarité ont été décrites qui tiennent compte de la proximité sémantique des annotations et de leur contenu en information. La certitude avec laquelle chaque annotation est reliée à une entité biologique peut être qualifiée à l'aide de métadonnées de qualité. La méthode de mesure de similarité entre entités biologiques proposée dans ce travail prend en compte, dans une approche vectorielle inspirée de la recherche d’information, à la fois les relations sémantiques des annotations, le contenu d’information de ces annotations, et les métadonnées de qualité. L’implémentation de la méthode pour des gènes annotés par des termes GO a été conçue afin de pouvoir prendre en paramètres un aspect de l’ontologie, un organisme particulier et une liste de poids pour les codes d’évidence affectés lors de l’annotation des gènes par les termes GO. L’évaluation a consisté à comparer les similarités entre gènes d’un même réseau métabolique chez la levure. Les résultats sont comparés à ceux obtenus avec d’autres mesures déjà publiées. Les valeurs obtenues selon les aspects de GO considérés sont discutées. Une méthode de clustering fondée sur cette mesure de similarité est en cours de développement.

  • 10h30-11h Olivier Dameron, Université de Rennes1 - INSERM U936
    Évaluation des variations de la qualité d'une ontologie en utilisant la valeur sémantique : application à Gene Ontology
    Idéalement, la qualité d'une ontologie croît d'une version à la suivante. Ce pré-supposé est en général étayé en montrant que le nombre de classes augmente, et au mieux on tient compte également du nombre de relations et du nombre de restrictions. Pourtant, on perçoit bien que la création d'une nouvelle classe erronée peut diminuer la qualité d'une ontologie, ou qu'à l'inverse la suppression d'une classe erronée en améliore la qualité. Enfin, déplacer une classe d'un endroit à un autre devrait également avoir des répercussions sur la qualité de l'ontologie. Ce travail compare différentes mesures pouvant intervenir dans la quantification de la qualité d'une ontologie, en s'intéressant particulièrement à Gene Ontology. Une première partie présente des mesures basées sur les graphes dirigés acycliques, comme le nombre moyen de parents ou de parties par classes, ou la profondeur moyenne. Une seconde partie s'inspire de la notion de valeur sémantique introduite par Wang et al. Ces mesures confirment une amélioration globale de Gene Ontology depuis janvier 2008. En revanche, en examinant séparément les processus biologiques, les composants cellulaires et les fonctions moléculaires, elles font apparaître des résultats plus contrastés pour ces deux derniers.

  • 11h-11h30 Pause café

  • 11h30-12h Bastien Rance*, Jean-Francois Gibrat**, Christine Froidevaux*
    *LRI, Université Paris-Sud 11, **INRA-MIG (Mathématique, Informatique et Génome)
    Combinaison adaptative de matchers : application au mapping d'ontologies biologiques pour l'annotation de génomes.
    Les ontologies biologiques sont aujourd'hui largement utilisées pour l'annotation de génomes. L'identification de correspondances entre les concepts de ces ontologies permet le partage et l'utilisation de ces annotations. Dans cette présentation nous introduirons O'Broswer un système dédié à l'alignement d'ontologies biologiques. Basé sur une architecture classique, notre système utilise une combinaison de matchers pour identifier les correspondances entre les concepts. Chaque matcher est spécialisé dans la détection d'un certain type de similarité. Nous présenterons les spécificités de O'Browser : un matcher dédié aux ontologies annotant des génomes et utilisant les relations d'homologies entre les protéines annotées puis une combinaison originale de matchers : la pondération adaptative. Nous illustrerons ces différentes contributions sur l'alignement de deux hiérarchies fonctionnelles.

  • Claire Toffano-Nioche*,**, Christine Froidevaux*, Sarah Cohen-Boulakia*
    *LRI, **IBP, Université Paris-Sud
    Stratégies d'annotation fonctionnelle de protéines et qualité
    Les capacités de production d'annotation fonctionnelle des protéines ne suivent pas celles des séquences. De façons à améliorer ces capacités, nous avons constitué auprès d'annotateurs humains, un recueil de stratégies d'annotation de protéines bactériennes. Ce recueil et son analyse permettent de proposer des pistes afin d'améliorer et d'évaluer la qualité des annotations ainsi que la qualité des processus d'annotations.

  • 12h30 – 13h30 Déjeuner

  • 13h30-14h Isabelle Mougenot*, Marie-Angélique Laporte*,**, Eric Garnier**
    * LIRMM, **CEFE (Centre d'Ecologie Fonctionnelle et Evolutive de Montpellier)
    Construction d'une ontologie en écologie orientée traits fonctionnels.
    Les activités humaines ont un impact, sur la biodiversité, la structure des communautés, ou encore le fonctionnement des écosystèmes, qui ne peut aujourd'hui être nié, mais qui demeure cependant difficile à évaluer. La notion de trait d'espèce, défini comme « tout caractère morphologique, physiologique ou phénologique mesurable sur un individu, de la cellule à l’organisme entier », en permettant notamment de décrire de façon fonctionnelle les interactions entre les organismes et leur environnement, est à même d'éclairer, sous un angle nouveau, notre compréhension des impacts anthropiques sur l'environnement. Les traits des espèces sont, d'ores et déjà, décrits par de multiples données acquises sur le long terme dans divers contextes et gérées au sein de différentes sources de données. Une première étape porte, en conséquence, sur la construction d'une ontologie centrée sur les traits qui favorisera, en tout premier lieu, la diffusion et le partage de ces données. Dans un premier temps, nous présenterons le pourquoi et le comment de ce modèle de représentation. Dans un second temps, et afin de nous conformer à la coloration de la journée MOQA, nous aborderons les contributions possibles et souhaitées des métadonnées et des annotations au sein de notre projet.

  • 14h- 14h30 Julie Chabalier, Natural Solutions
    L'aide à la décision dans le cadre de la conservation de la biodiversité
    Aujourd'hui, la biodiversité diminue à un rythme sans précédent. Il est indispensable de collecter les données environnementales, les intégrer et les analyser de façon à proposer des zones de conservation, des espèces à protéger ou encore d'évaluer le risque pour un écosystème. Je présenterai ici le projet "Eco-INC." (Ecological INtelligent Census) dont l'objectif est de concevoir un système d'aide à la décision basé sur une éco-ontologie.

  • 14h30-15h Manuel Ruiz, CIRAD, Montpellier
    Défis posés par l'annotation des nouveaux génomes de plantes séquencées.
    L'annotation structurale et fonctionnelle des génomes de plantes séquencées est difficile pour plusieurs raisons : polyploïdie, proportion importante de régions non codantes et de régions répétées, structure des gènes morcelés en intron/exon. Des chaînes d'analyse automatique des gènes ont été développées mais ils ne peuvent remplacer l’annotation manuelle si l’on veut des annotations de haute qualité. Nous avons mis en place un système d’annotation collaboratif et intégré, GNPAnnot, qui permet de définir la structure, la fonction d’objets génomiques de séquences eucaryotes, à la lumière des résultats de génomique comparative. Cependant, le processus d'annotation manuelle repose encore entièrement sur les épaules de l'annotateur expert qui doit valider, croiser, vérifier et intégrer les données et résultats générés par le système pour produire une annotation cohérente. Dans ce contexte, nous nous intéressons aux ontologies et à leurs utilisations dans le processus d'annotation.

  • 15h-15h30 Frédéric Lemoine, Université de Lausanne
    Traitement et analyse de données de séquençage à haut débit pour l’analyse comparative des petits ARNs chez les mammifères.
    Le séquençage à haut débit est aujourd'hui un moyen puissant pour étudier de nombreux phénomènes biologiques. Il est en effet possible grâce aux données produites par ce biais non seulement de détecter de nouveaux transcrits mais aussi d'estimer leur niveau d'expression. Les petits ARNs (~18-33 nucléotides) sont aujourd'hui reconnus comme étant impliqués dans de nombreuses voies biologiques, et constituent un acteur important de la régulation de l'expression des gènes. Le séquençage à haut débit permet de détecter ces petits ARNs (miRNAs, piRNAs, etc) avec une grande précision, d'estimer leur expression, et de détecter de nouveaux types de petits ARNs. Cependant, ces données de séquençage sont extrêmement volumineuses, difficiles à manipuler, et à intégrer avec des données publiques. C'est dans ce contexte que nous nous intéressons au traitement, à l'intégration, et à l'analyse des données de séquençage à haut débit dans le but d'étudier et de comparer les séquences et l'expression des petits ARNs chez les mammifères.

  • 15h30-16h Pause café

  • 16h-17h Discussion

Contacts

  • Christine Froidevaux, Sarah Cohen-Boulakia (chris AT lri.fr, cohen AT lri.fr)