Université Paris-Sud 11                                   Licences (L3) d’Informatique / de Biologie (parcours BIBS)

     DUT d’Informatique 2ème année

 

 

TER de Bioinformatique et Biostatistiques 2007-2008

 

Encadrants : Alain Denise et Michel Termier

 

 

Modalités du travail

Ce travail s’effectue en binôme ou en trinôme. Chaque binôme ou trinôme doit être constitué d’au moins un étudiant en informatique et d’au moins un étudiant en biologie.

 

Dates importantes :

·        1er février 2008 : début du TER

 

La première séance (1er février) est collective et est consacrée à la présentation du travail par les enseignants. Les autres séances sont des rendez-vous hebdomadaires de chaque trinôme avec l’un et/ou l’autre des enseignants.

 

Introduction : Les ARN : des gènes récemment dévoilés

 

Il y a 40 ans, on écrivait : un gène une protéine. C'était déjà faux, malheureusement : un gène est une partie du génome qui va, de manière certaine, donner naissance à un acteur cellulaire, c'est à dire une molécule qui va directement jouer un rôle dans la vie de la cellule, que ce soit pour faire partie des mécanismes métaboliques (ana- + cata-), pour sauvegarder ou diviser la cellule ou encore pour la structurer (membrane, cytosquelette) ou. Par ailleurs, un gène est toujours transcrit en ARN. Il l'est par une RNA polymérase. La Pol I  transcrit le rRNA, la Pol II transcrit les messagers, les miRNA et snRNA, la Pol III transcrit les 5S RNA et les tRNA.

Cet ARN a deux destinations possibles (non obligatoirement exclusives). La première destination connue est la traduction en protéine. La seconde est la structuration de l'ARN transcrit en un acteur cellulaire à part entière, parce que cette molécule ne peut agir que si elle a acquis une certaine configuration 3D.

Comment détecter les ARN acteurs cellulaires (que les anglo-saxons préfèrent appeler ncRNA soit ARN non codants) ? En tirant partie soit de ce qui est caractéristique de la structure des RNA que l'on veut détecter, soit en tirant partie des signaux nécessaires aux polymérases impliquées.

Il y a plusieurs méthodes possibles, selon les données dont on dispose :

-        Si l’on connaît le type de gène que l’on cherche,  on recherche dans la séquence une portion susceptible de se structurer de la même façon. (Comme elle nécessite la maîtrise des langages non contextuels (type 2), c'est pour plus tard.)

-        Si l’on ne le connaît pas, une méthode qui a été essayée notamment dans les deux articles de référence consiste à comparer l’énergie libre des structures potentielles d’une séquence à celle des structures potentielles de séquences aléatoires. L’hypothèse est que les ncRNA ont une énergie libre plus faible. Les séquences aléatoires sont engendrées selon un modèle prenant en compte la composition de la séquence de référence en mots (linguistique) : il s'agit de compter les mots w chevauchants qui se succèdent le long de la séquence. Sur cette base, on peut engendrer des séquences aléatoires soit selon un modèle de chaîne de Markov d'ordre k (où k = |w| -1), soit des séquences « permutées » contenant exactement la même composition en mots de longueur k que la séquence de référence.

-        A chacune des deux méthodes précédentes, on peut ajouter la recherche de motifs caractéristiques qui permettent l'accrochage (ou le décrochage) des polymérases : ainsi, par exemple, chez la Bactérie E. coli, les promoteurs s des gènes très exprimés  sont connus (TTGACA en –35 et TATAAT en –10). Les terminateurs de transcription sont également importants.

Ainsi, toujours chez E. coli, les terminateurs r dépendants (du nom de la protéine dont la fixation arrête la traduction) sont riches en C et pauvres en G. Chez le phage l, on a mis en évidence les régions suivantes dans la séquence :

box A                                                      box B                                                                                       

 ______________________________________                                      

CGCTCTTACACATTCCAGCCCTGAAAAAGGGCATCAAATTAAACCACACCTATG

            rut A                                                                                    rut B

Les autres terminateurs (r indépendants) sont caractérisés par une tige boucle.

 

 

 

 

Travail demandé.

 

Problématique biologique.

Les questions que l'on se pose sont les suivantes :

  1. L'énergie libre (calculée) des gènes d'ARN non codant (ARNnc) (ou de certaines familles de gènes d'ARNnc) est-elle significativement différente de celle de séquences aléatoires de composition identique ?
  2. Qu'en est-il des autres types de séquences génomiques (gènes "à protéines", séquences intergéniques...) ?

Les réponses à ces questions peuvent aider à déterminer s'il est possible d'envisager des méthodes de détection efficaces de gènes d'ARN non codant basées sur le calcul de leur énergie libre minimale.

 

Travail 1 : développement logiciel.

Concevoir, écrire et tester un programme C ou C++ qui devra respecter les consignes données par les encadrants. En particulier, la structure de données présentée lors de la première séance pour l’énumération des motifs (arbre dictionnaire) devra être utilisée.  L'exécution, en ligne de commande, se fera de la façon suivante :

> markov -oX -nY –lZ nomfic

Le programme doit écrire sur la sortie standard une suite de séquences ainsi constituée : elle contient, pour chaque séquence S du fichier d'origine, Y séquences au format FASTA, de longueur Z si l’option –lZ est présente, de la même longueur que S sinon, engendrées selon une chaîne de Markov d’ordre X dont les paramètres ont été calculés selon la composition en nucléotides ou oligonucléotides de la séquence S. Le nom de chacune des séquences doit-être le nom de la séquence d'origine, précédé des indications Markov i w=X |, où i est le numéro de la séquence aléatoire.

Par exemple, considérons le fichier d'origine suivant, dont le nom est "exemple.fasta" :

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]

ATCGATGACGAATCGCATGATCATGTACAAAAAAATGACTGCGATACTTCAGCCGTGGGGGGGGGGGTACTAGTCCTAGATTCTCTTTAAATATACCAATTAGCTAGCGCGATATACGACTGACGCAGTCAGCTGACGTACGTCAGTA

>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

L'exécution de
markov -w1 -n2 exemple.fasta pourra donner le fichier suivant, dont le nom sera exemple.fasta.mkv :

>markov 1 w=1 |gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]

ACTTCAGCCGTGGGGGATCGATGACGTGACGCAGTCAGCTGACGTACGTCAGTAAATCGCATCGACGCGATATACGATCATGTATGGGGGGTACTAGTCCTAGATTCTCTTTAAATATACCAATTAGCTAGCAAAAAAATGACTGGAC

>markov 2 w=1 |gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]

AAAATGACTGCACGAATCGATACTTCAGGGGGTACGACGCAATCGATGGCATGATCATGTACAAAGTCAGTAGTCCTAGATTCTCTTTAAATACTTAGCTAGCGCGATATACGACTCTGACGCGTGGGGGGGTACCAATACGTCAGTA

>markov 1 w=1 |SEQUENCE_2

SATVSEINSETDFVAKNGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMHATIGENLVVRRFATLKADQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
>markov 2 w=1 |SEQUENCE_2

SATVSEINVRRFATLKADQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVSETDFVAKNGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Note importante : attention, dans les bases de données génomiques les séquences au format FASTA contiennent parfois des caractères de retour à la ligne. Ces caractères devront être ignorés.

 

Travail 2 : Etude bioinformatique.

Le travail proposé est fondé sur les deux articles suivants, qui ont étudié le problème posé plus haut et dont certaines conclusions sont (en apparence du moins) contradictoires :

·        Structural RNA has lower folding energy than random RNA of the same dinucleotide frequency. P. Clote, F. Ferre, E. Kranakis, D. Krizanc, RNA, 11(5):578-591 (2005).


Il n'est pas nécessaire de lire (encore moins de comprendre) ces articles en totalité. Il est important, en revanche, d'en comprendre les buts, la démarche générale, les conclusions. Il s'agira d'utiliser le logiciel que vous avez développé pour évaluer expérimentalement des mesures statistiques (Z-scores et/ou p-valeurs) afin de confirmer (ou infirmer) les résultats des deux articles, et même d'aller plus loin en considérant des modèles de séquences aléatoires plus contraints et/ou en considérant d'autres familles de séquences. Vos résultats devront être analysés, vous devrez en tirer des conclusions.

Les deux articles précités utilisent, pour la génération aléatoire de séquences,  le modèle de « permutations », différent de celui que vous programmerez. Vous devrez utiliser les deux modèles.

 

Quelques liens utiles :

·        RFAM (http://www.sanger.ac.uk/Software/Rfam/),  une base de donnée de séquences d'ARN non codants.