Format des fichiers de description Markovien
Les clauses précédées d'une astérique (*) sont optionelles, leurs sémantiques par défaut sont définies dans la section sémantique des clauses.
Des compléments d'informations concernant ces clauses sont en cliquant sur les points d'interrogations '?' à gauche des clauses.
? | TYPE = Markov | |
---|---|---|
? | ORDER = o | |
? | (*) | PHASE = p |
? | (*) | SYMBOLS = LETTER ou WORDS |
? | (*) | START = Seq1 Freq1 ... |
? | FREQUENCIES = Contexte1Sym1 Freq1Phase0 ... |
|
? | (*) | ALIASES = Symbol1 = AliasSymbol1
|
TYPE = MARKOV
Elle spécifie le type de géneration décrit dans le fichier. Ici, on souhaite une géneration markovienne, le mot clé est donc MARKOV.
ORDER = o
Elle définit l'ordre o dans la géneration markovienne.
PHASE = p
Elle définit la phase dans la géneration markovienne. Sa valeur par défaut est à 1, auquel cas la fréquence d'apparition d'un motif ne dépends que des o dernières lettres engendrées.
SYMBOLS = LETTERS ou WORDS
Elle définit le type de symboles utilisés dans les séquences :
LETTERS : Chaque caractère utilisé est un symbole, il n'est pas besoin de les espacer pour écrire une séquence.
WORD : Les symboles sont des séquences de lettres et leur utilisation dans l'identification d'une séquence implique l'emploi de séparateurs (Espace, Tab ou Retour Chariot)
Par défaut, le type de symbole utilisé est WORD.
START = Seq1 Freq1 Seq2 Freq2 ...
Permet de spécifier une amorce à la géneration markovienne. En effet, la géneration markovienne de séquences aléatoires est séquentielle et nécessite la connaissance des o derniers symboles générés. On voit alors qu'un problème non trivial réside dans le choix de ces o premiers symboles. On propose le choix suivant :
- Soit l'utilisateur spécifie des amorces pour les séquences dont la présence aura été constatée in vitro. Elle devront être suivies de leur fréquences d'apparitions dans le cas réél, selon le format proposés ci dessus où Freq1 est le nombre d'occurences de la séquence Seq1 etc ...
- Soit l'utilisateur ne spécifie pas de séquences de départ(choix par défaut) et les amorces sont choisies parmis les séquences définies dans la clause FREQUENCIES avec des probabilités proportionelles aux nombres de leurs occurences de phase 0.
FREQUENCIES = Contexte1Sym1 F1P0 F1P1 ...
Elle permet de définir les fréquences d'apparitions des symboles (cette clause est aussi appelée "linguistique" par certains biologistes...). Elle est structurée en phrases du type Contexte1Sym1 Freq1Phase0 Freq1Phase1 où Contexte1 est un séquence de o symboles définissant le contexte d'apparition du symbole Sym1 et dont F1P0 F1P1 ... sont les nombres d'occurence resp. en phase 0, 1 ...
ALIASES =
Symbol1 = AliasSymbol1 ...
Permet le renommage "a posteriori" des symboles utilisé lors de la géneration. Cela permet notemment la fusion de deux linguistiques travaillant sur les mêmes vocabulaires (En géneral, "acgt" ...) lors de la clause FREQUENCIES, les symboles seront par exemple appelés a1 et a2, c1 et c2 ... puis renommés après géneration en a (a1 et a2 deviennent a, etc ...)