|
Laboratoire de Recherche en
Informatique
MOQA : Journée Métadonnées, Ontologies et Qualité dans les Annotations
Jeudi 17 Septembre 2009
Salle 79, Laboratoire de Recherche en Informatique (LRI, CNRS UMR 8623),
Université Paris-Sud 11, Orsay
- Annotation et métadonnées, qualité et traçabilité des données
- Annotation, vocabulaires contrôlés et ontologies
- Exploitation des annotations
- Utilisation des technologies du web sémantique pour la mise en oeuvre des approches
(représenter les annotations et faciliter leur analyse)
- 9h15 – 9h30 Welcome
- 9h30-10h A. Burgun*, F. Mougin**, O. Bodenreider***
* INSERM Université Rennes, **LABRI Université de Bordeaux, ***NLM/NIH, USA
Annotations phénotypiques et données cliniques: problématique de leur intégration
Les modèles animaux des maladies jouent un rôle fondamental dans la compréhension des
pathologies humaines. Dans la recherche translationnelle, qui crée des flux bidirectionnels entre
la recherche biologique et le soin, le rapprochement des données phénotypiques chez l'animal, en
particulier issues du modèle murin et les données cliniques chez l'humain est déterminant. Nous
présentons deux approches complémentaires pour intégrer ces données, l'une terminologique
basée sur l'UMLS et l'autre basée sur les annotations des orthologues et leur application à
l'intégration des annotations phénotypiques de la base Mouse Genome Informatics (MGI) et des
données de Online Mendelian Inheritance in Man (OMIM).
- 10h-10h30 Sidahmed Benabderrahmane, Marie-Dominique Devignes et Malika Smail-Tabbone, LORIA, Nancy
Prise en compte de métadonnées de qualité dans la définition d'une mesure de similarité
sémantique. Application à Gene Ontology.
Les annotations des entités biologiques sont aujourd’hui largement utilisées pour comparer entre
elles ces entités à des fins de classification, de classement ou d’inférence de propriétés. Diverses
mesures de similarité ont été décrites qui tiennent compte de la proximité sémantique des
annotations et de leur contenu en information. La certitude avec laquelle chaque annotation est
reliée à une entité biologique peut être qualifiée à l'aide de métadonnées de qualité. La méthode
de mesure de similarité entre entités biologiques proposée dans ce travail prend en compte, dans
une approche vectorielle inspirée de la recherche d’information, à la fois les relations
sémantiques des annotations, le contenu d’information de ces annotations, et les métadonnées de
qualité. L’implémentation de la méthode pour des gènes annotés par des termes GO a été conçue
afin de pouvoir prendre en paramètres un aspect de l’ontologie, un organisme particulier et une
liste de poids pour les codes d’évidence affectés lors de l’annotation des gènes par les termes
GO. L’évaluation a consisté à comparer les similarités entre gènes d’un même réseau
métabolique chez la levure. Les résultats sont comparés à ceux obtenus avec d’autres mesures
déjà publiées. Les valeurs obtenues selon les aspects de GO considérés sont discutées. Une
méthode de clustering fondée sur cette mesure de similarité est en cours de développement.
- 10h30-11h Olivier Dameron, Université de Rennes1 - INSERM U936
Évaluation des variations de la qualité d'une ontologie en utilisant la valeur sémantique :
application à Gene Ontology
Idéalement, la qualité d'une ontologie croît d'une version à la suivante. Ce pré-supposé est en
général étayé en montrant que le nombre de classes augmente, et au mieux on tient compte
également du nombre de relations et du nombre de restrictions. Pourtant, on perçoit bien que
la création d'une nouvelle classe erronée peut diminuer la qualité d'une ontologie, ou qu'à
l'inverse la suppression d'une classe erronée en améliore la qualité. Enfin, déplacer une classe
d'un endroit à un autre devrait également avoir des répercussions sur la qualité de l'ontologie.
Ce travail compare différentes mesures pouvant intervenir dans la quantification de la qualité
d'une ontologie, en s'intéressant particulièrement à Gene Ontology. Une première partie présente
des mesures basées sur les graphes dirigés acycliques, comme le nombre moyen de parents ou de
parties par classes, ou la profondeur moyenne. Une seconde partie s'inspire de la notion de
valeur sémantique introduite par Wang et al.
Ces mesures confirment une amélioration globale de Gene Ontology depuis janvier 2008. En
revanche, en examinant séparément les processus biologiques, les composants cellulaires et les
fonctions moléculaires, elles font apparaître des résultats plus contrastés pour ces deux derniers.
- 11h-11h30 Pause café
- 11h30-12h Bastien Rance*, Jean-Francois Gibrat**, Christine Froidevaux*
*LRI, Université Paris-Sud 11, **INRA-MIG (Mathématique, Informatique et Génome)
Combinaison adaptative de matchers : application au mapping d'ontologies biologiques
pour l'annotation de génomes.
Les ontologies biologiques sont aujourd'hui largement utilisées pour l'annotation de génomes.
L'identification de correspondances entre les concepts de ces ontologies permet le partage et
l'utilisation de ces annotations. Dans cette présentation nous introduirons O'Broswer un système
dédié à l'alignement d'ontologies biologiques. Basé sur une architecture classique, notre système
utilise une combinaison de matchers pour identifier les correspondances entre les concepts.
Chaque matcher est spécialisé dans la détection d'un certain type de similarité. Nous
présenterons les spécificités de O'Browser : un matcher dédié aux ontologies annotant des
génomes et utilisant les relations d'homologies entre les protéines annotées puis une combinaison
originale de matchers : la pondération adaptative. Nous illustrerons ces différentes contributions
sur l'alignement de deux hiérarchies fonctionnelles.
- Claire Toffano-Nioche*,**, Christine Froidevaux*, Sarah Cohen-Boulakia*
*LRI, **IBP, Université Paris-Sud
Stratégies d'annotation fonctionnelle de protéines et qualité
Les capacités de production d'annotation fonctionnelle des protéines ne suivent pas celles des
séquences. De façons à améliorer ces capacités, nous avons constitué auprès d'annotateurs
humains, un recueil de stratégies d'annotation de protéines bactériennes. Ce recueil et son
analyse permettent de proposer des pistes afin d'améliorer et d'évaluer la qualité des annotations
ainsi que la qualité des processus d'annotations.
- 12h30 – 13h30 Déjeuner
- 13h30-14h Isabelle Mougenot*, Marie-Angélique Laporte*,**, Eric Garnier**
* LIRMM, **CEFE (Centre d'Ecologie Fonctionnelle et Evolutive de Montpellier)
Construction d'une ontologie en écologie orientée traits fonctionnels.
Les activités humaines ont un impact, sur la biodiversité, la structure des communautés, ou
encore le fonctionnement des écosystèmes, qui ne peut aujourd'hui être nié, mais qui demeure
cependant difficile à évaluer. La notion de trait d'espèce, défini comme « tout caractère
morphologique, physiologique ou phénologique mesurable sur un individu, de la cellule à
l’organisme entier », en permettant notamment de décrire de façon fonctionnelle les interactions
entre les organismes et leur environnement, est à même d'éclairer, sous un angle nouveau, notre
compréhension des impacts anthropiques sur l'environnement.
Les traits des espèces sont, d'ores et déjà, décrits par de multiples données acquises sur le long
terme dans divers contextes et gérées au sein de différentes sources de données. Une première
étape porte, en conséquence, sur la construction d'une ontologie centrée sur les traits qui
favorisera, en tout premier lieu, la diffusion et le partage de ces données.
Dans un premier temps, nous présenterons le pourquoi et le comment de ce modèle de
représentation. Dans un second temps, et afin de nous conformer à la coloration de la journée
MOQA, nous aborderons les contributions possibles et souhaitées des métadonnées et des
annotations au sein de notre projet.
- 14h- 14h30 Julie Chabalier, Natural Solutions
L'aide à la décision dans le cadre de la conservation de la biodiversité
Aujourd'hui, la biodiversité diminue à un rythme sans précédent. Il est indispensable de collecter
les données environnementales, les intégrer et les analyser de façon à proposer des zones de
conservation, des espèces à protéger ou encore d'évaluer le risque pour un écosystème.
Je présenterai ici le projet "Eco-INC." (Ecological INtelligent Census) dont l'objectif est de
concevoir un système d'aide à la décision basé sur une éco-ontologie.
- 14h30-15h Manuel Ruiz, CIRAD, Montpellier
Défis posés par l'annotation des nouveaux génomes de plantes séquencées.
L'annotation structurale et fonctionnelle des génomes de plantes séquencées est difficile pour
plusieurs raisons : polyploïdie, proportion importante de régions non codantes et de régions
répétées, structure des gènes morcelés en intron/exon. Des chaînes d'analyse automatique des
gènes ont été développées mais ils ne peuvent remplacer l’annotation manuelle si l’on veut des
annotations de haute qualité. Nous avons mis en place un système d’annotation collaboratif et
intégré, GNPAnnot, qui permet de définir la structure, la fonction d’objets génomiques de
séquences eucaryotes, à la lumière des résultats de génomique comparative. Cependant, le
processus d'annotation manuelle repose encore entièrement sur les épaules de l'annotateur
expert qui doit valider, croiser, vérifier et intégrer les données et résultats générés par le système
pour produire une annotation cohérente. Dans ce contexte, nous nous intéressons aux ontologies
et à leurs utilisations dans le processus d'annotation.
- 15h-15h30 Frédéric Lemoine, Université de Lausanne
Traitement et analyse de données de séquençage à haut débit pour l’analyse comparative
des petits ARNs chez les mammifères.
Le séquençage à haut débit est aujourd'hui un moyen puissant pour étudier de nombreux
phénomènes biologiques. Il est en effet possible grâce aux données produites par ce biais non
seulement de détecter de nouveaux transcrits mais aussi d'estimer leur niveau d'expression.
Les petits ARNs (~18-33 nucléotides) sont aujourd'hui reconnus comme étant impliqués dans de
nombreuses voies biologiques, et constituent un acteur important de la régulation de l'expression
des gènes. Le séquençage à haut débit permet de détecter ces petits ARNs (miRNAs, piRNAs, etc)
avec une grande précision, d'estimer leur expression, et de détecter de nouveaux types de petits
ARNs. Cependant, ces données de séquençage sont extrêmement volumineuses, difficiles à
manipuler, et à intégrer avec des données publiques.
C'est dans ce contexte que nous nous intéressons au traitement, à l'intégration, et à l'analyse des
données de séquençage à haut débit dans le but d'étudier et de comparer les séquences et
l'expression des petits ARNs chez les mammifères.
- 15h30-16h Pause café
- 16h-17h Discussion
- Christine Froidevaux, Sarah Cohen-Boulakia (chris AT lri.fr, cohen AT lri.fr)
|