Université Paris-Sud 11 Licences
(L3) d’Informatique / de Biologie (parcours BIBS)
DUT
d’Informatique 2ème année
Encadrants : Alain
Denise et Michel Termier
Ce travail s’effectue en binôme ou en trinôme. Chaque binôme ou trinôme doit être constitué d’au moins un étudiant en informatique et d’au moins un étudiant en biologie.
Dates importantes :
· 1er février 2008 : début du TER
La première séance (1er février) est collective et est consacrée à la présentation du travail par les enseignants. Les autres séances sont des rendez-vous hebdomadaires de chaque trinôme avec l’un et/ou l’autre des enseignants.
Introduction : Les ARN : des gènes récemment
dévoilés
Il y a 40 ans, on écrivait : un gène une protéine. C'était déjà faux, malheureusement : un gène est une partie du génome qui va, de manière certaine, donner naissance à un acteur cellulaire, c'est à dire une molécule qui va directement jouer un rôle dans la vie de la cellule, que ce soit pour faire partie des mécanismes métaboliques (ana- + cata-), pour sauvegarder ou diviser la cellule ou encore pour la structurer (membrane, cytosquelette) ou. Par ailleurs, un gène est toujours transcrit en ARN. Il l'est par une RNA polymérase. La Pol I transcrit le rRNA, la Pol II transcrit les messagers, les miRNA et snRNA, la Pol III transcrit les 5S RNA et les tRNA.
Cet ARN a deux destinations possibles (non obligatoirement exclusives). La première destination connue est la traduction en protéine. La seconde est la structuration de l'ARN transcrit en un acteur cellulaire à part entière, parce que cette molécule ne peut agir que si elle a acquis une certaine configuration 3D.
Comment détecter les ARN acteurs cellulaires (que les anglo-saxons préfèrent appeler ncRNA soit ARN non codants) ? En tirant partie soit de ce qui est caractéristique de la structure des RNA que l'on veut détecter, soit en tirant partie des signaux nécessaires aux polymérases impliquées.
Il y a plusieurs méthodes possibles, selon les données dont on dispose :
- Si l’on connaît le type de gène que l’on cherche, on recherche dans la séquence une portion susceptible de se structurer de la même façon. (Comme elle nécessite la maîtrise des langages non contextuels (type 2), c'est pour plus tard.)
-
Si l’on ne le connaît pas, une méthode qui a été
essayée notamment dans les deux articles de référence consiste à comparer
l’énergie libre des structures potentielles d’une séquence à celle des
structures potentielles de séquences aléatoires. L’hypothèse est que les ncRNA
ont une énergie libre plus faible. Les séquences aléatoires sont engendrées
selon un modèle prenant en compte la composition de la séquence de référence en
mots (linguistique) : il s'agit de compter les mots w chevauchants qui se succèdent le long de la séquence. Sur cette
base, on peut engendrer des séquences aléatoires soit selon un modèle de chaîne
de Markov d'ordre k (où k = |w|
-1), soit des séquences « permutées » contenant exactement la même
composition en mots de longueur k que
la séquence de référence.
- A chacune des deux méthodes précédentes, on peut ajouter la recherche de motifs caractéristiques qui permettent l'accrochage (ou le décrochage) des polymérases : ainsi, par exemple, chez la Bactérie E. coli, les promoteurs s des gènes très exprimés sont connus (TTGACA en –35 et TATAAT en –10). Les terminateurs de transcription sont également importants.
Ainsi, toujours chez E. coli, les terminateurs r dépendants (du nom de la protéine dont la fixation arrête la traduction) sont riches en C et pauvres en G. Chez le phage l, on a mis en évidence les régions suivantes dans la séquence :
CGCTCTTACACATTCCAGCCCTGAAAAAGGGCATCAAATTAAACCACACCTATG
rut A
rut B
Les autres terminateurs (r indépendants) sont caractérisés par une tige boucle.

Travail demandé.
Problématique biologique.
Les questions
que l'on se pose sont les suivantes :
Les réponses à ces questions peuvent
aider à déterminer s'il est possible d'envisager des méthodes de détection
efficaces de gènes d'ARN non codant basées sur le calcul de leur énergie libre
minimale.
Travail 1 : développement logiciel.
Concevoir,
écrire et tester un programme C ou C++ qui devra respecter les consignes
données par les encadrants. En particulier, la structure de données présentée
lors de la première séance pour l’énumération des motifs (arbre dictionnaire)
devra être utilisée. L'exécution, en
ligne de commande, se fera de la façon suivante :
> markov -oX -nY –lZ nomfic
où
Le programme doit écrire sur la sortie standard une suite de séquences ainsi constituée : elle contient, pour chaque séquence S du fichier d'origine, Y séquences au format FASTA, de longueur Z si l’option –lZ est présente, de la même longueur que S sinon, engendrées selon une chaîne de Markov d’ordre X dont les paramètres ont été calculés selon la composition en nucléotides ou oligonucléotides de la séquence S. Le nom de chacune des séquences doit-être le nom de la séquence d'origine, précédé des indications Markov i w=X |, où i est le numéro de la séquence aléatoire.
Par exemple, considérons le fichier d'origine suivant, dont le nom est "exemple.fasta" :
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus
maximus]
ATCGATGACGAATCGCATGATCATGTACAAAAAAATGACTGCGATACTTCAGCCGTGGGGGGGGGGGTACTAGTCCTAGATTCTCTTTAAATATACCAATTAGCTAGCGCGATATACGACTGACGCAGTCAGCTGACGTACGTCAGTA
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
L'exécution de markov -w1 -n2 exemple.fasta pourra donner le fichier suivant, dont le nom
sera exemple.fasta.mkv
:
>markov 1 w=1 |gi|5524211|gb|AAD44166.1| cytochrome
b [Elephas maximus maximus]
ACTTCAGCCGTGGGGGATCGATGACGTGACGCAGTCAGCTGACGTACGTCAGTAAATCGCATCGACGCGATATACGATCATGTATGGGGGGTACTAGTCCTAGATTCTCTTTAAATATACCAATTAGCTAGCAAAAAAATGACTGGAC
>markov
2 w=1 |gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
AAAATGACTGCACGAATCGATACTTCAGGGGGTACGACGCAATCGATGGCATGATCATGTACAAAGTCAGTAGTCCTAGATTCTCTTTAAATACTTAGCTAGCGCGATATACGACTCTGACGCGTGGGGGGGTACCAATACGTCAGTA
>markov 1 w=1 |SEQUENCE_2
SATVSEINSETDFVAKNGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMHATIGENLVVRRFATLKADQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
>markov 2 w=1 |SEQUENCE_2
SATVSEINVRRFATLKADQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVSETDFVAKNGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
Note importante : attention, dans les bases de données génomiques les séquences au format FASTA contiennent parfois des caractères de retour à la ligne. Ces caractères devront être ignorés.
Travail
2 : Etude bioinformatique.
Le travail proposé est fondé sur
les deux articles suivants, qui ont étudié le problème posé plus haut et dont
certaines conclusions sont (en apparence du moins) contradictoires :
Il n'est pas nécessaire de lire (encore moins de comprendre) ces articles
en totalité. Il est important, en revanche, d'en comprendre les buts, la
démarche générale, les conclusions. Il s'agira d'utiliser le logiciel que vous
avez développé pour évaluer expérimentalement des mesures statistiques
(Z-scores et/ou p-valeurs) afin de confirmer (ou infirmer) les résultats des
deux articles, et même d'aller plus loin en considérant des modèles de
séquences aléatoires plus contraints et/ou en considérant d'autres familles de
séquences. Vos résultats devront être analysés, vous devrez en tirer des
conclusions.
Les deux articles précités
utilisent, pour la génération aléatoire de séquences, le modèle de « permutations », différent
de celui que vous programmerez. Vous devrez utiliser les deux modèles.
Quelques liens utiles :
· RFAM (http://www.sanger.ac.uk/Software/Rfam/), une base de donnée de séquences d'ARN non codants.