Le paysage syntaxique

Les mots sont une structure très utilisée en informatique. La théorie des langages classifie les ensembles de mots (langages réguliers ou algébriques) suivant leur propriétés, en particulier la manière de reconnaître qu’un mot appartient à un certain langage. Un programme donné à interpréter à un ordinateur est un mot. De la même manière, on peut représenter les actions réalisées par un programme par un mot, et donc certaines techniques d’analyse de programme s’appuient sur des résultats de théorie des langages.

Les mots sont aussi la notion sous-jacente aux structures séquentielles (tableaux, listes) qui servent dans de nombreux algorithmes en particulier pour représenter en machine des ensembles d’objets.

4.1.1 Définitions

On se donne un ensemble (en général fini) d’objets A que l’on appelle un alphabet. Les éléments d’un alphabet sont appelés des caractères.

Les mots sont des suites finies de caractères. On peut les représenter comme des couples formés d’un entier n (la taille du mot) et d’une application f de [0,n[ dans A. On notera A^* l’ensemble des mots sur l’alphabet A.

Si m est un mot, on note |m| la longueur du mot et pour chaque i < |m|, on note m[i] le i-ème caractère du mot m (on commence à 0).

Pour définir un mot m, il suffit de se donner sa longueur n et une application de [0,n[ dans A.

4.1.2 Propriétés

Proposition 1

є est un élément neutre є m = mє = m
La concaténation est associative: (m₁ m₂)m₃ = m₁ (m₂ m₃).

Preuve:

On montre є m=m, la propriété mє =m se montre de manière analogue. On a |є m|=|є|+|m|=0+|m|=|m|. Soit 0≤ i < |m| on a (є m)[i]=m[i].
On a |(m₁ m₂) m₃|=|m₁ m₂|+|m₃|=(|m₁|+|m₂|) + |m₃| = |m₁|+(|m₂| + |m₃|) =|m₁(m₂ m₃)|. Soit 0 ≤ i < |(m₁ m₂) m₃|,
- Si 0 ≤ i < |m₁| alors a fortiori 0 ≤ i < |m₁ m₂| et ((m₁ m₂) m₃)[i] = (m₁ m₂)[i] = m₁[i] = (m₁ (m₂ m₃))[i]
- Si |m₁| ≤ i < |m₁ m₂|=|m₁|+|m₂| alors ((m₁ m₂) m₃)[i] = (m₁ m₂)[i] = m₂[i−|m₁|] et 0 ≤ i−|m₁| < |m₂| donc (m₁ (m₂ m₃))[i] = (m₂ m₃)[i−|m₁|] = m₂ [i−|m₁|]
- Si |m₁ m₂| ≤ i < |(m₁ m₂) m₃|=|m₁|+|m₂|+|m₃| alors ((m₁ m₂) m₃)[i] = m₃[i−(|m₁| + |m₂|)]] = m₂[i−|m₁|] et on a aussi |m₂| ≤ i −|m₁| < |m₂ m₃| donc (m₁ (m₂ m₃))[i] = (m₂ m₃)[i−|m₁|]] = m₃[i−|m₁|−|m₂|]
d’où le résultat.

□

Autres opérations sur les mots.

Un mot m qui n’est pas vide a un premier caractère a=m[0] et peut être décomposé m=am′ avec m′ le mot obtenu en retirant le premier caractère de m et défini par : |m′|=|m|−1 et m′[i]=m[i+1]. On introduit les notations hd(m) pour le caractère a et tl(m) pour le mot m′.

4.1.3 Ensemble de mots

Un langage est un ensemble de mots. Il peut se définir par un système d’inférence.

Exercice 1 On se donne un alphabet formé de deux caractères a et b, on définit une propriété D(m) par les règles d’inférence suivantes:

D(є)

D(m)

D(amb)

D(m)

D(mb)

Dire si les mots suivants vérifient la condition D:
aabb abb aab abab
Montrer que si D(m) est vérifié alors le nombre de caractères a dans m est inférieur ou égal au nombre de caractères b dans m.

Preuve:

Les mots aabb et abb appartiennent au langage, on peut construire les arbres de dérivation:

D(є)

D(ab)

D(aabb)

D(є)

D(ab)

D(abb)

Le mot aab n’appartient pas à la relation (cf question suivante), le mot abab non plus car on pourrait montrer que si D(m) alors m est de la forme aⁿb^m avec m≥ n.
On prend pour propriété P(m) le fait que le nombre de b dans m est supérieur au nombre de a dans m et on vérifie que cette propriété est bien préservée par toutes les règles d’inférence.

□

Exercice 2 Donner une définition par clôture de l’ensemble des palindromes sur l’alphabet {a,b}, c’est-à-dire des mots qui sont les mêmes quel que soit le sens dans lequel on les lit.

4.1.4 Définitions de fonctions récursives sur les mots

Le schéma de définition récursive sur les entiers se généralise au cas des mots. Une manière naturelle de définir une application f dans A^*→ B consiste à définir la valeur b∈ B de l’application pour le mot vide, et pour un caractère a ∈ A arbitraire et un mot m∈ A^* de définir f(am) en fonction de a, de m et de f(m), c’est-à-dire se donner une application G dans A× A^* × B → B telle que f(am)=G(a,m,f(m)).

Exemple 1 On peut ainsi définir l’application qui à un mot associe sa longueur:

lg(є)=0 lg(am)=1+lg(m)

La définition du nombre d’occurrences d’une lettre b dans un mot est donnée par:

nb(b,є)=0 nb(b,am)=1+nb(b,m) si a=b nb(b,am)=nb(b,m) si a≠ b

On remarque que l’on ne peut pas se servir de la concaténation de deux mots arbitraires comme construction d’équations fonctionnelles. En effet si on pose des équations:

alors ces équations n’ont pas de solution en effet on devrait avoir f(aє)=1+f(a)+f(є)=2 et par ailleurs comme aє=a, on a aussi f(aє)=f(a)=1 ce qui ne peut se réaliser. On peut toujours utiliser une définition par cloture de la relation f(x,n) mais cette relation n’est pas fonctionnelle. Cela vient du fait que la décomposition d’un mot m sous la forme m₁m₂ n’est pas unique.

Exercice 3 Définir la fonction qui à un mot a₁,… a_n associe le mot inverse a_n… a₁.

4.2 Termes

Nous allons généraliser les constructions introduites précédemment pour les entiers ou les mots à des structures plus complexes. En effet en informatique, la machine manipule in fine des données assez simples à savoir des suites (finies) de 0 et de 1. Néanmoins, lorsqu’on veut modéliser une structure particulière comme une base de données ou une image, ces suites de 0 et de 1 sont organisées suivant des schémas très spécifiques. L’identification de ces schémas va nous permettre d’avoir des moyens de haut niveau pour construire ces objets et raisonner en faisant abstraction de la représentation physique.

On est amené par exemple à manipuler des structures d’arbres, que ce soit des arbres binaires pour représenter efficacement des ensembles finis d’objets ou bien des arbres de syntaxe abstraite pour représenter des programmes dans les compilateurs.

Dans cette section, on s’intéresse à des représentations syntaxiques, qu’il faut bien distinguer du modèle sous-jacent. Par exemple si on considère l’expression 2+3, le niveau syntaxique fait une différence entre cette expression et les expressions 5, 3+2 ou 2+(2+1) alors que toutes ces expressions correspondent au même modèle entier 5. Cette distinction entre syntaxe et modèle réel est importante en informatique où l’ordinateur effectue des manipulations symboliques sur des objets structurés qui représentent des notions complexes (des nombres flottants voir des rationnels ou des réels, des bases de données, des programmes, …).

4.2.1 Définitions

Définition 1 (Signature) Une signature F est composée d’un ensemble fini d’objets que l’on appellera des symboles et d’une application arity dans F→ ℕ qui associe à chaque symbole f un entier arity(f) que l’on appellera l’arité de f.
Les symboles d’arité 0 sont appelés des constantes. Les autres symboles sont appelés des symboles de fonction et l’arité représente le nombre d’arguments attendus par ce symbole de fonction. On parle de symbole unaire pour une arité 1 et binaire pour une arité 2.
On notera F_n l’ensemble des symboles d’arité n de la signature F.

Exemple 2 (Signature pour les entiers) Une signature possible pour les expressions arithmétiques est constituée d’une constante 0 (arité 0) et un symbole S pour l’opération successeur d’arité 1. On peut aussi ajouter des symboles de fonctions binaires pour les opérations arithmétiques telles que l’addition (notée plus) et la multiplication (notée mult).

Définition 2 (Termes T( F)) Soit une signature F, on définit l’ensemble T( F) comme un ensemble de mots formés sur un alphabet composé des symboles de F et des caractères {(;);, } défini par les règles d’inférence suivantes (une pour chaque symbole) :

c∈ F₀

c∈ T( F)

f∈ F_n t₁∈ T( F) … t_n∈ T( F)

f(t₁,…,t_n) ∈ T( F)

Exemple 3 Les mots suivants sont des termes sur la signature des entiers : S(0) plus(S(0),0). On notera 1 le terme S(0), 2 le terme S(S(0))…
Par contre les mots suivants ne sont pas des termes : S 0(0) S(0,0).

Notations.

On utilise parfois une notation infixe pour les symboles de fonctions binaires, c’est-à-dire que l’on écrira (t₁ f t₂) au lieu de f(t₁,t₂) de même on peut omettre certaines parenthèses en s’appuyant sur des conventions, mais il s’agit de facilités d’écriture qui ne changent pas la définition mathématique.

Termes avec variables.

En logique ou en informatique on a souvent besoin de considérer des termes généralisés dans lesquels apparaissent des variables. On l’a vu avec les formules quantifiées en logique. En informatique, les fonctions dans les langages de programmation correspondent à des termes avec des variables (pour les paramètres). Contrairement aux constantes dans les signatures, les variables peuvent être choisies dans un ensemble infini X (mais seulement un nombre fini de variables apparait dans chaque terme).

Définition 3 (Termes avec variables T( F, X)) Soit une signature F, un ensemble X de variables, on définit l’ensemble T( F, X) comme un ensemble de mots formés sur un alphabet composé des symboles de F, des variables X et des caractères (, ) et , défini par les règles d’inférence suivantes :

x∈ X

x∈ T( F, X)

c∈ F₀

c∈ T( F, X)

f∈ F_n t₁∈ T( F, X) … t_n∈ T( F, X)

f(t₁,…,t_n) ∈ T( F, X)

Les termes de T( F) sont un cas particulier de terme avec variables dans lesquels l’ensemble des variables X est vide. Dans la suite, on considèrera uniquement des termes sans variables.

Définition 4 (Terme clos) Un terme de T( F, X) qui ne contient pas de variable est appelé un terme clos.

4.2.2 Egalité sur les termes

L’égalité sur les mots induit une égalité sur les termes. En particulier on peut dériver la propriété suivante :

Exemple 4 On considère la signature des entiers avec 0, S et plus. On a x=y ⇔ S(x)=S(y) mais on a aussi plus(x,y)=plus(z,t) ⇔ (x=z ∧ y=t) et plus(x,y)≠0 ainsi que plus(x,y)≠S(z). On pourra dériver plus(0,0)≠0 ou bien plus(S(0),0)≠plus(0,S(0)). Ce qui correspond au fait que les termes représentent l’enchainement des opérations (comme sur une calculatrice) et non pas le résultat.

4.3 Induction, récursion sur les termes

4.3.1 Définition récursive sur les termes

On peut généraliser la notion de définition récursive d’une application sur les entiers en définition récursive sur des termes arbitraires.

On suppose que l’on veut définir une application F dans T( F) → A. Pour cela on va se donner les objets suivants :

Le fait que l’on puisse définir une telle application est une conséquence de l’égalité sur les termes. En particulier, deux termes qui débutent par des symboles différents sont différents.

En effet ce schéma permet de définir une application f telle que f(c)=1 pour les constantes et f(t)=2 pour tous les termes qui commencent par un symbole de fonction. Si on avait plus(0,0)=0 alors on en déduirait f(plus(0,0))=f(0) et donc 2=1.

Exemple 5 (Taille d’un terme) Le schéma de définition récursive précédent permet de définir l’application size qui compte le nombre de symboles dans un terme.

si c ∈ F₀ alors size(c)=1
si f ∈ F_n alors size(f(t₁,…,t_n))=1+size(t₁)+⋯+size(t_n)

Dans le cas de la signature sur les entiers, soit t le terme plus(0,S(0)), il vérifie size(t)=4.

Exemple 6 (Hauteur d’un terme) Un autre exemple de définition récursive est l’application ht qui compte le nombre maximal de symboles imbriqués dans un terme.

si c ∈ F₀ alors ht(c)=1
si f ∈ F_n alors ht(f(t₁,…,t_n))=1+ max(ht(t₁),…,ht(t_n))

Pour le terme t précédent on a ht(t)=3.

Exercice 4 On suppose donnée la signature des entiers F_ℕ qui contient les symboles 0, S, plus, mult. Définir une application de T( F) dans ℕ, qui à chaque terme associe sa valeur.

4.3.2 Induction sur les termes

L’induction généralisée associée à la définition par cloture de T( F) s’exprime de la manière suivante. Soit P(t) une propriété qui dépend d’un terme t ∈ T( F). On suppose :

Exemple 7 On peut par exemple montrer la propriété suivante sur les termes :

∀ t ∈ T( F),ht(t) ≤ size(t)

Preuve: La preuve se fait par induction sur la structure du terme t.

constante

ht(c) ≤ size(c) vrai car ht(c)=1=size(c).

symbole

si f ∈ F_n: soit des termes arbitraires t₁,…,t_n∈ T( F), on suppose que ht(t_i) ≤ size(t_i). on doit montrer ht(f(t₁,…,t_n)) ≤ size(f(t₁,…,t_n)).

ht(f(t₁,…,t_n))=

= 1+max(ht(t₁),…,ht(t_n))

≤ 1+ ht(t₁)+⋯ + ht(t_n)

≤ 1+ size(t₁)+⋯ + size(t_n)

=size(f(t₁,…,t_n))

□

4.4 Généralisations

4.4.1 Termes vus comme des arbres

Nous avons défini les termes comme des mots en mettant en avant la structure séquentielle ce qui nous a amené à introduire les symboles parenthèses et virgule. La définition par cloture met l’accent sur la structure arborescente des termes. Une constante est vue comme une feuille de l’arbre, un terme f(t₁,…,t_n) est représenté comme un arbre dont la racine est étiquetée par f et qui a n fils, que l’on considère de manière ordonnée. Le i-ème sous-arbre est associé au terme t_i.

Exemple 8 Soit le terme t=plus(mult(0,0),S(0)) sa représentation sous forme d’arbre est donnée par :

Positions dans un terme.

Un terme définit un ensemble de positions. Une position est une suite finie d’entiers compris entre 1 et l’arité maximale des éléments de la signature. La position décrit un chemin pour se déplacer dans l’arbre en partant de la racine, l’entier permet de choisir dans quel sous-terme continuer.

Définition 5 (Positions d’un terme pos(t)) On définit l’ensemble des positions d’un terme t par les règles d’inférence suivantes pour chaque symbole f∈ F_n et chaque i tel que 1≤ i ≤ n :

є∈pos(t)

m∈pos(t_i)

im ∈ pos(f(t₁,…,t_i,…,t_n))

Définition 6 (Sous-terme à une position) Soit p∈pos(t), on définit le sous-terme de t à la position p (noté t|_p) comme une fonction récursive sur le mot p représentant la position :

t|_є=t f(t₁,…,t_n)|_im=t_i|_m

On remarque que comme p∈pos(t) par inversion de la définition par cloture lorsque p=im on sait qu’il existe un symbole f d’arité n tel que 1≤ i ≤ n et t=f(t₁,…,t_n) et m∈pos(t_i) ce qui justifie la définition.

Exemple 9 On considère le terme t=plus(0,S(0)). L’ensemble des positions de t est défini par : pos(t)={є;1;2;21 } On a t|_є=t, t|₁=0, t|₂=S(0), t|₂₁=0.

4.4.2 Termes avec sortes

Lorsque l’on introduit des signatures complexes, il est souvent naturel de distinguer différentes catégories de termes.

Par exemple les termes correspondant aux suites finies peuvent se construire avec une constante nil et un symbole cons binaire pour ajouter un caractère en premier élément d’une suite. Il nous reste à introduire une signature pour représenter les éléments de la suite, par exemple des entiers avec une constante 0 et un symbole unaire S. Dans le cadre général, rien n’interdit de construire des termes comme S(cons(0,є)) qui n’ont pas d’interprétation naturelle.

Pour remédier à ce problème, on introduit des sortes qui permettent de distinguer les différentes classes de termes. Les sortes sont un ensemble fini (par exemple {nat,seq } pour représenter la sorte des entiers naturels et celle des séquences d’entiers). Au lieu d’être un simple entier décrivant le nombre d’arguments, une arité décrit la sorte des termes que le symbole prend en argument et la sorte du terme construit en résultat, on l’écrira s₁×…× s_n → s. Dans notre exemple de suite d’entiers :

4.5 Arbres binaires

Une structure importante en informatique est celle d’arbre binaire. On suppose que l’on souhaite stocker dans cet arbre des objets. On introduit une sorte elt pour représenter ce qui est stocké dans l’arbre avec par exemples des constantes a, b, c, d, e. On introduit également la sorte tree pour les arbres binaires.

node(node(node(leaf,c,leaf), b, node(leaf,d,leaf) ,a,node(leaf,e,node(leaf,c,leaf))))

On définit de nombreuses fonctions sur les arbres en suivant le schéma de définition récursive sur les termes.

On peut aussi définir un parcours d’arbre qui construit la suite finie des éléments qui apparaissent dans l’arbre :

De manière générale, le principe de définition récursive sur les arbres est donné par la définition suivante :

Proposition 2 Soit A la signature des arbres, soient T= T( A,tree) et E= T( A,elt) et deux ensembles X et Y quelconques.

Soit une fonction h∈ X → Y et g∈ T × E × T × Y × Y × X → Y alors il existe une unique fonction f∈ T × X → Y telle que :

f(leaf,x)=h(x) f(node(l,e,r),x)=g(l,e,r,f(l,x),f(r,x))

De plus la propriété suivante (schéma d’induction sur les arbres) est vérifiée pour toute propriété P sur les arbres :

si P(leaf)
et ∀ l r∈ T,∀ e∈ E,P(l)⇒ P(r)⇒ P(node(l,e,r))
alors ∀ t ∈ T,P(t)

Comme précédemment, le schéma peut être généralisé en autorisant dans les appels récursifs de f(l,x) et f(r,x) d’appliquer une transformation à x.

Exercice 5 En supposant que les élements associés aux arbres sont dans la sorte des entiers, écrire une fonction qui associe à chaque arbre la somme des éléments qui apparaissent dans cet arbre.

Preuve: La fonction demandée est la solution des équations :

sum(leaf)=0 sum(node(l,e,r))=sum(l)+e+sum(r)

□

4 Le paysage syntaxique

4.1 Ensemble des mots