Format des fichiers de description Markovien

Les clauses précédées d'une astérique (*) sont optionelles, leurs sémantiques par défaut sont définies dans la section sémantique des clauses.

Des compléments d'informations concernant ces clauses sont en cliquant sur les points d'interrogations '?' à gauche des clauses.


?   TYPE = Markov
?   ORDER = o
? (*) PHASE = p
? (*) SYMBOLS = LETTER ou WORDS
? (*) START = Seq1 Freq1 ...
?   FREQUENCIES =

Contexte1Sym1 Freq1Phase0

...

? (*) ALIASES =

Symbol1 = AliasSymbol1

...


Sémantiques des clauses

Clause TYPE :

TYPE = MARKOV

Elle spécifie le type de géneration décrit dans le fichier. Ici, on souhaite une géneration markovienne, le mot clé est donc MARKOV.

Clause ORDER :

ORDER = o

Elle définit l'ordre o dans la géneration markovienne.

Clause PHASE :

PHASE = p

Elle définit la phase dans la géneration markovienne. Sa valeur par défaut est à 1, auquel cas la fréquence d'apparition d'un motif ne dépends que des o dernières lettres engendrées.

Clause SYMBOLS :

SYMBOLS = LETTERS ou WORDS

Elle définit le type de symboles utilisés dans les séquences :

Par défaut, le type de symbole utilisé est WORD.

Clause START :

START = Seq1 Freq1 Seq2 Freq2 ...

Permet de spécifier une amorce à la géneration markovienne. En effet, la géneration markovienne de séquences aléatoires est séquentielle et nécessite la connaissance des o derniers symboles générés. On voit alors qu'un problème non trivial réside dans le choix de ces o premiers symboles. On propose le choix suivant :

Clause FREQUENCIES :

FREQUENCIES = Contexte1Sym1 F1P0 F1P1 ...

Elle permet de définir les fréquences d'apparitions des symboles (cette clause est aussi appelée "linguistique" par certains biologistes...). Elle est structurée en phrases du type Contexte1Sym1 Freq1Phase0 Freq1Phase1Contexte1 est un séquence de o symboles définissant le contexte d'apparition du symbole Sym1 et dont F1P0 F1P1 ... sont les nombres d'occurence resp. en phase 0, 1 ...

Clause ALIASES :

ALIASES =

Symbol1 = AliasSymbol1 ...

Permet le renommage "a posteriori" des symboles utilisé lors de la géneration. Cela permet notemment la fusion de deux linguistiques travaillant sur les mêmes vocabulaires (En géneral, "acgt" ...) lors de la clause FREQUENCIES, les symboles seront par exemple appelés a1 et a2, c1 et c2 ... puis renommés après géneration en a (a1 et a2 deviennent a, etc ...)

Retour au chargement