Automate fini déterministe

Pour des articles plus généraux, voir Automate fini, Automate fini non déterministe et Théorie des automates.

Page d’aide sur l’homonymie

Pour les articles homonymes, voir AFD.

Un automate fini déterministe, parfois abrégé en AFD (en anglais deterministic finite automaton, abrégé en DFA) est un automate fini dont les transitions à partir de chaque état sont déterminées de façon unique par le symbole d'entrée. Un tel automate se distingue ainsi d'un automate fini non déterministe, où au contraire plusieurs possibilités de transitions peuvent exister simultanément pour un état et un symbole d'entrée donné.

Les automates finis déterministes ont plusieurs aspects avantageux : simplicité de leur définition, facilité de manipulation, aisance de la programmation informatique, élégance des propriétés mathématiques. Leur inconvénient majeur est la taille, mesurée en nombre d'états, qui peut dans certains cas être exponentielle par rapport à leur contrepartie non déterministe. Les deux classes d'automates finis, les automates finis déterministes et non déterministes, ont la même puissance d'expression : elles reconnaissent la même famille de langages, à savoir les langages rationnels, appelés aussi langages réguliers ou langages reconnaissables.

Langages formels

Un alphabet est, dans ce contexte, tout ensemble Σ {\displaystyle \Sigma } fini, non vide. Les éléments de Σ {\displaystyle \Sigma } sont appelés lettres.

Un mot est une suite finie d'éléments de Σ {\displaystyle \Sigma } ; la longueur d'un mot est le nombre d'éléments qui le composent. Un mot est noté par la juxtaposition de ses lettres. Ainsi, on écrit « oui » plutôt que « (o,u,i) ». Le mot vide, noté souvent ε {\displaystyle \varepsilon } , est l'unique mot de longueur zéro, composé d'aucune lettre. L'ensemble des mots sur Σ {\displaystyle \Sigma } est noté Σ {\displaystyle \Sigma ^{*}} .

La concaténation de deux mots, notée {\displaystyle \cdot } ou plus simplement par juxtaposition, est définie pour deux mots u = a 1 a n {\displaystyle u=a_{1}\cdots a_{n}} et v = b 1 b n {\displaystyle v=b_{1}\cdots b_{n}} par u v = a 1 a n b 1 b n {\displaystyle uv=a_{1}\cdots a_{n}b_{1}\cdots b_{n}} . On a u ε = ε u = u {\displaystyle u\varepsilon =\varepsilon u=u} , la concaténation est associative : u ( v w ) = ( u v ) w {\displaystyle u(vw)=(uv)w} , par conséquent ( Σ , ) {\displaystyle (\Sigma ^{*},\cdot )} est un monoïde.

Automate fini et automate fini déterministe

Un automate fini est un quintuplet A = Σ , Q , R , I , F {\displaystyle {\mathcal {A}}=\langle \Sigma ,Q,R,I,F\rangle } , où :

  • Σ {\displaystyle \Sigma } est un alphabet,
  • Q {\displaystyle Q} est un ensemble fini, appelé ensemble des états,
  • R {\displaystyle R} est une partie de Q × Σ × Q {\displaystyle Q\times \Sigma \times Q} appelée ensemble des transitions,
  • I {\displaystyle I} est une partie de Q {\displaystyle Q} appelée ensemble des états initiaux,
  • F {\displaystyle F} est une partie de Q {\displaystyle Q} appelée ensemble des états finaux.

Un automate est déterministe si, d'une part, il a un et un seul état initial et si, d'autre part, la relation R {\displaystyle R} est fonctionnelle au sens suivant :

si ( p , a , q ) R {\displaystyle (p,a,q)\in R} et ( p , a , q ) R {\displaystyle (p,a,q')\in R} , alors q = q {\displaystyle q=q'} .

S'il en est ainsi, on définit une fonction, appelée fonction de transition et notée traditionnellement δ {\displaystyle \delta } , par :

δ ( p , a ) = q {\displaystyle \delta (p,a)=q} si ( p , a , q ) R {\displaystyle (p,a,q)\in R} .

C'est une fonction partielle ; son domaine de définition est l'ensemble des couples ( p , a ) Q × Σ {\displaystyle (p,a)\in Q\times \Sigma } tel qu'il existe q Q {\displaystyle q\in Q} avec ( p , a , q ) R {\displaystyle (p,a,q)\in R} . Dans les manuels, on rencontre aussi la définition suivante d'un automate fini déterministe qui est directe et n’est pas dérivée d'une définition plus générale :

Un automate fini déterministe est un quintuplet A = Σ , Q , δ , q 0 , F {\displaystyle {\mathcal {A}}=\langle \Sigma ,Q,\delta ,q_{0},F\rangle } , où :

  • Σ {\displaystyle \Sigma } est un alphabet,
  • Q {\displaystyle Q} est un ensemble fini, appelé ensemble d'états,
  • δ {\displaystyle \delta } est une fonction (partielle) de Q × Σ {\displaystyle Q\times \Sigma } dans Q {\displaystyle Q} appelée fonction de transitions,
  • q 0 {\displaystyle q_{0}} est un élément de Q {\displaystyle Q} appelé état initial,
  • F {\displaystyle F} est une partie de Q {\displaystyle Q} appelée ensemble des états finaux.

La fonction de transition δ {\displaystyle \delta } est étendue en une application (partielle) Q × Σ Q {\displaystyle Q\times \Sigma ^{*}\to Q} en posant

  • δ ( q , ε ) = q {\displaystyle \delta (q,\varepsilon )=q} pour tout état q {\displaystyle q} . Ici ε {\displaystyle \varepsilon } dénote le mot vide.
  • δ ( q , w a ) = δ ( δ ( q , w ) , a ) {\displaystyle \delta (q,wa)=\delta (\delta (q,w),a)} pour tout état q {\displaystyle q} , tout mot w {\displaystyle w} et toute lettre a {\displaystyle a} .

On rencontre — notamment dans la littérature francophone — une notation élégante introduite pas Samuel Eilenberg dans son traité[1] : la fonction de transition est notée par un simple point {\displaystyle \cdot } . Ainsi, au lieu d'écrire δ ( q , w ) {\displaystyle \delta (q,w)} , on écrit q w {\displaystyle q\cdot w} . On a alors les formules :

  • q ε = q {\displaystyle q\cdot \varepsilon =q} ;
  • q w a = ( q w ) a {\displaystyle q\cdot wa=(q\cdot w)\cdot a} .

Plus généralement, on a la formule

  • q u v = ( q u ) v {\displaystyle q\cdot uv=(q\cdot u)\cdot v}

pour des mots u {\displaystyle u} et v {\displaystyle v} qui se démontre traditionnellement par récurrence sur la longueur du mont v {\displaystyle v} ; le cas où v {\displaystyle v} est le mot vide ou est une lettre est vérifié par les formules précédent, et plus généralement, si v = z a {\displaystyle v=za} pour une lettre a {\displaystyle a} , on a

  • q u v = q u z a = ( q u z ) a = ( ( q u ) z ) a = ( q u ) z a = ( q u ) v {\displaystyle q\cdot uv=q\cdot uza=(q\cdot uz)\cdot a=((q\cdot u)\cdot z)\cdot a=(q\cdot u)\cdot za=(q\cdot u)\cdot v} .

Algébriquement, la dernière formule exprime que le monoïde libre Σ {\displaystyle \Sigma ^{*}} opère à droite sur l'ensemble d'états de l’automate.

Représentation graphique

Un automate fini, déterministe ou non, est représenté par un graphe dont les sommets sont les états, et les arcs sont les transitions. C'est donc un graphe orienté, étiqueté aux arcs par des lettres de l’alphabet. Une symbolique spéciale distingue les états initiaux et terminaux : un état initial est marqué par une flèche entrante, un état terminal par une flèche sortante ou par un double cercle.

Une transition ( p , a , q ) R {\displaystyle (p,a,q)\in R} est souvent écrite sous la forme p a q {\displaystyle p{\overset {a}{\longrightarrow }}q} , empruntée à la représentation graphique. Un chemin est une suite de flèches consécutives, notée

q 0 a 1 q 1 a 2 q 2 a n q n {\displaystyle q_{0}{\xrightarrow {a_{1}}}q_{1}{\xrightarrow {a_{2}}}q_{2}\rightarrow \cdots {\xrightarrow {a_{n}}}q_{n}} .

Sa longueur est le nombre n {\displaystyle n} de ses transitions, son étiquette (ou trace) est le mot a 1 a 2 a n {\displaystyle a_{1}a_{2}\cdots a_{n}} formé des étiquettes de ses arcs.

On dit qu'un chemin est réussi lorsque q 0 I {\displaystyle q_{0}\in I} et q k F {\displaystyle q_{k}\in F} . Un mot est reconnu lorsqu'il est l'étiquette d'un chemin réussi. Le langage accepté ou reconnu par l’automate est l’ensemble des mots qu'il reconnaît.

Langage reconnu

Dans le cas d'un automate fini déterministe, il n'y a, pour un mot w {\displaystyle w} et pour un état q {\displaystyle q} , au plus un chemin partant de q {\displaystyle q} et d'étiquette w {\displaystyle w} ; s'il existe, ce chemin a pour sommet d'arrivée δ ( q , w ) {\displaystyle \delta (q,w)} . Dire qu'un mot w {\displaystyle w} est reconnu s'exprime donc par le fait que δ ( q 0 , w ) {\displaystyle \delta (q_{0},w)} est un état final lorsque q 0 {\displaystyle q_{0}} est l'état initial. En d'autres termes, le langage accepté ou reconnu par l’automate A {\displaystyle {\mathcal {A}}} est

L ( A ) = { w Σ δ ( q 0 , w ) F } {\displaystyle L({\mathcal {A}})=\{w\in \Sigma ^{*}\mid \delta (q_{0},w)\in F\}} .

Avec la notation par point, cette expression s'écrit

L ( A ) = { w Σ q 0 w F } {\displaystyle L({\mathcal {A}})=\{w\in \Sigma ^{*}\mid q_{0}\cdot w\in F\}} .

Si on utilise la notation par point, on omet le symbole δ {\displaystyle \delta } dans la définition de l’automate.

Exemple

Automate fini reconnaissant les mots commençant par ab.
Table de transitions
a b
1 2 -
2 - 3
3 3 3

L'automate ci-contre est composé de trois états; l'état 1 est le seul état initial, distingué par une flèche entrante, l'état 3 est le seul état terminal, distingué par une flèche sortante. C'est un automate déterministe. Il reconnaît les mots, sur deux lettres a et b, qui commencent par ab. La fonction de transition est donnée par sa table de transitions. L'absence de flèche est représentée par un tiret : la présence d'un tiret montre que la fonction de transition est partielle.

Propriétés

Accessibilité

Un état q Q {\displaystyle q\in Q} est dit :

  • accessible s'il existe un chemin partant d'un état initial et allant jusqu'à q {\displaystyle q}  ;
  • coaccessible s'il existe un chemin partant de l'état q {\displaystyle q} et allant jusqu'à un état final.

Un automate est dit :

  • accessible si tous ses états sont accessibles ;
  • coaccessible si tous ses états sont coaccessibles ;
  • émondé s'il est à la fois accessible et coaccessible.

Une fois l'automate rendu accessible, on peut tester si le langage reconnu est vide ou non : pour qu'il soit vide, il faut et il suffit qu'aucun état final ne soit accessible.

Complétude

Un automate est complet s'il possède au moins un état initial et si, pour chaque état et pour chaque lettre, il existe au moins une flèche sortante, c’est-à-dire si, pour tout état p {\displaystyle p} et toute lettre a {\displaystyle a} , il existe un état q {\displaystyle q} tel que p a q {\displaystyle p{\xrightarrow {a}}q} . On reconnaît la complétude sur la table de transition d'un automate déterministe par le fait qu'aucune case du tableau n'est vide.

Émondage et complétion

Étant donné un automate fini déterministe (les mêmes algorithmes s'appliquent aux automates non déterministes) A = Σ , Q , δ , q 0 , F {\displaystyle {\mathcal {A}}=\langle \Sigma ,Q,\delta ,q_{0},F\rangle } , les algorithmes de parcours usuels en théorie des graphes permettent d'émonder et de compléter un automate :

  • on détermine les états accessibles par un calcul des descendants de l’état initial, donc par un parcours du graphe à partir du sommet qui est l'état initial; un algorithme linéaire en | Q | × | Σ | {\displaystyle |Q|\times |\Sigma |} permet de les calculer. Le graphe de l’automate, et sa fonction de transition, est alors réduit aux sommets accessibles;
  • on détermine ensuite les sommets coaccessibles par un calcul des ascendants des sommets terminaux. Les mêmes algorithmes de parcours permettent de réaliser cette opération en temps linéaire;
  • la complétion d'un automate, s'il est incomplet, se fait par l’adjonction d'un nouvel état, disons s {\displaystyle s} (souvent appelé « état puits », « sink state » en anglais) forcément non final. La fonction de transition δ {\displaystyle \delta } est étendu en Δ {\displaystyle \Delta } posant
    • Δ ( q , a ) = s {\displaystyle \Delta (q,a)=s} si δ ( q , a ) {\displaystyle \delta (q,a)} est indéfinie;
    • Δ ( s , a ) = s {\displaystyle \Delta (s,a)=s} pour toute lettre a {\displaystyle a} .

Opérations booléennes

Pour ces opérations, on considère un automate déterministe et complet : la fonction de transition sera représentée par un point.

Complémentation

Soit A = Σ , Q , q 0 , F {\displaystyle {\mathcal {A}}=\langle \Sigma ,Q,q_{0},F\rangle } un automate fini déterministe et complet et soit L = L ( A ) {\displaystyle L=L({\mathcal {A}})} le langage reconnu par A {\displaystyle {\mathcal {A}}} . Le langage complémentaire L ¯ = Σ L {\displaystyle {\bar {L}}=\Sigma ^{*}\setminus L} est reconnu par le même automate, où on a échangé les états terminaux et non terminaux, soit par l'automate A ¯ = Σ , Q , q 0 , Q F {\displaystyle {\bar {\mathcal {A}}}=\langle \Sigma ,Q,q_{0},Q\setminus F\rangle } .

Produit direct d'automates

Soient A = Σ , Q , q 0 , F {\displaystyle {\mathcal {A}}=\langle \Sigma ,Q,q_{0},F\rangle } et Soit B = Σ , P , p 0 , G {\displaystyle {\mathcal {B}}=\langle \Sigma ,P,p_{0},G\rangle } deux automates finis déterministes complets, reconnaissant des langages notées respectivement L et M. Le produit direct des deux automates est l’automate

C = A × B = Σ , Q × P , ( q 0 , p 0 ) , H {\displaystyle {\mathcal {C}}={\mathcal {A}}\times {\mathcal {B}}=\langle \Sigma ,Q\times P,(q_{0},p_{0}),H\rangle }

avec la fonction de transition définie par

( q , p ) a = ( q a , p a ) {\displaystyle (q,p)\cdot a=(q\cdot a,p\cdot a)} .

Cette fonction s'étend aux mots et on a

( q , p ) w = ( q w , p w ) {\displaystyle (q,p)\cdot w=(q\cdot w,p\cdot w)}

et H = F × G {\displaystyle H=F\times G} . Comme

( q 0 , p 0 ) w H q 0 w F , p 0 w G {\displaystyle (q_{0},p_{0})\cdot w\in H\iff q_{0}\cdot w\in F,p_{0}\cdot w\in G}

le langage reconnu par C {\displaystyle {\mathcal {C}}} est l’intersection des langages L {\displaystyle L} et M {\displaystyle M} . C'est pourquoi on rencontre aussi la notation A B {\displaystyle {\mathcal {A}}\cap {\mathcal {B}}} à la place A × B {\displaystyle {\mathcal {A}}\times {\mathcal {B}}}

Union, intersection, complément relatif

On peut modifier la définition du produit direct en choisissant d'autres états terminaux. Ainsi, selon l'ensemble d'états terminaux H {\displaystyle H} choisi, l'automate C {\displaystyle {\mathcal {C}}} reconnait la réunion L M {\displaystyle L\cup M} ou L M {\displaystyle L\cap M} . Le langage réunion L M {\displaystyle L\cup M} est reconnu pour H = F × P Q × G {\displaystyle H=F\times P\cup Q\times G} , le langage L M = L ( A M ) {\displaystyle L\setminus M=L\cap (A^{*}\setminus M)} , complément de M {\displaystyle M} dans L {\displaystyle L} est reconnu avec H = F × ( P G ) {\displaystyle H=F\times (P\setminus G)} .

Inclusion et équivalence

L'inclusion L M {\displaystyle L\subset M} est donc facilement testable : il suffit de tester si L M {\displaystyle L\setminus M} est vide. De même, l'équivalence des automates, donc la question si L {\displaystyle L} et M {\displaystyle M} sont égaux, est facile à tester puisqu'elle se ramène à deux inclusions.

Complexité des opérations booléennes

La complexité d’un langage rationnel L peut se mesurer de diverses façons ; dans le cadre des automates finis déterministes, il est nature de la définir comme le nombre d’états de l’automate déterministe complet minimal reconnaissant ce langage. Par le théorème de Myhill-Nerode, c'est aussi le nombre de résiduels ou quotients gauches du langage. On note ce nombre κ ( L ) {\displaystyle \kappa (L)} avec Brzozowski[2].

La complexité d'une opération binaire {\displaystyle \odot } sur des langages L et M est notée κ ( L M ) {\displaystyle \kappa (L\odot M)} . C'est une fonction de κ ( L ) {\displaystyle \kappa (L)} et de κ ( M ) {\displaystyle \kappa (M)} . Les opérations booléennes et leurs composées à considérer sont notamment

  • complémentation L ¯ {\displaystyle {\overline {L}}}
  • union L M {\displaystyle L\cup M}
  • intersection L M {\displaystyle L\cap M}
  • différence symétrique L M {\displaystyle L\oplus M}
  • différence L M {\displaystyle L\setminus M}

On a par exemple κ ( L ¯ ) = κ ( L ) {\displaystyle \kappa ({\overline {L}})=\kappa (L)} puisque les automates minimaux ne diffèrent que par les états terminaux dont les ensembles sont complémentaire. La complexité d’autres opérations peut s’en déduire, par exemple :

κ ( L ¯ M ) = κ ( L ¯ M ¯ ) = κ ( L M ¯ ) = κ ( L M ) {\displaystyle \kappa ({\overline {L}}\cup M)=\kappa ({\overline {{\bar {L}}\cup M}})=\kappa (L\cap {\overline {M}})=\kappa (L\setminus M)} .

Quand on évalue la complexité des opérations, il faut préciser si les langages sont donnés sur le même alphabet ou non. Soient L et M deux langages rationnels de complexité κ ( L ) = m {\displaystyle \kappa (L)=m} et κ ( M ) = n {\displaystyle \kappa (M)=n} respectivement, pas nécessairement sur le même alphabet. Les résultats sont les suivants :

  • La complexité de l’union et de la différence symétrique de L et M est au plus ( m + 1 ) ( n + 1 ) {\displaystyle (m+1)(n+1)} La complexité de l’union de langages L et M sur le même alphabet est au plus mn.
  • La complexité de la différence est au plus ( m + 1 ) n {\displaystyle (m+1)n} .
  • La complexité de l’intersection est au plus m n {\displaystyle mn} .
  • La complexité du produit LM est au plus m 2 n 2 n 1 {\displaystyle m2^{n}-2^{n-1}} .

Toutes ces bornes peuvent être atteintes. Pour illustrer l'importance de l'alphabet, on considère les langages L = a {\displaystyle L=a^{*}} et M = b {\displaystyle M=b^{*}} formés des mots sur une seule lettre a {\displaystyle a} respectivement b {\displaystyle b} , avec a b {\displaystyle a\neq b} . Chacun des deux langages est reconnu par un automate à un seul état. La réunion a b {\displaystyle a^{*}\cup b^{*}} est de complexité 4=(1+1)(1+1). Si les langages L = a {\displaystyle L=a^{*}} et M = b {\displaystyle M=b^{*}} sont considérés comme étant l'un et l'autre sur l'alphabet { a , b } {\displaystyle \{a,b\}} , leurs automates minimaux ont chacun 2 états et l'automate de leur union a bien 4 = 2 2 {\displaystyle 4=2\cdot 2} états.

Produit et étoile

Les algorithmes pour le calcul de l'automate reconnaissant le produit ou l’étoile d'un langage décrits pour les automates non déterministes sont bien entendu applicables aussi quand on part d'un automate déterministe, mais le résultat est un automate non déterministe, et même avec des ε-transitions. Autant le non déterminisme ne s'élimine que dans une deuxième étape, autant on peut, avec un peu de soin, éviter l'introduction des ε-transitions dont l'élimination ultérieure constitue une phase supplémentaire dans la construction[3].

Automate pour le produit

Soient A = Σ , Q , q 0 , F {\displaystyle {\mathcal {A}}=\langle \Sigma ,Q,q_{0},F\rangle } et B = Σ , P , p 0 , T {\displaystyle {\mathcal {B}}=\langle \Sigma ,P,p_{0},T\rangle } deux automates finis déterministes reconnaissant des langages L {\displaystyle L} et M {\displaystyle M} respectivement. Un automate non déterministe C {\displaystyle {\mathcal {C}}} reconnaissant le langage produit L M {\displaystyle LM} est défini comme suit : l'ensemble de ses états est Q P {\displaystyle Q\cup P} (on suppose ces deux ensembles disjoints), l'état initial est q 0 {\displaystyle q_{0}} (l'état initial de A {\displaystyle {\mathcal {A}}} , l'ensemble des états terminaux est T {\displaystyle T} (états terminaux de B {\displaystyle {\mathcal {B}}} ). Les transitions sont celles définies par les fonctions de transitions de A {\displaystyle {\mathcal {A}}} et B {\displaystyle {\mathcal {B}}} , avec en plus des transitions ( q , a , p 0 ) {\displaystyle (q,a,p_{0})} pour toute paire ( q , a ) {\displaystyle (q,a)} formée d'un état de A {\displaystyle {\mathcal {A}}} et d'une lettre telle que q a F {\displaystyle q\cdot a\in F} . Ainsi, chaque fois que l’automate A {\displaystyle {\mathcal {A}}} arrive dans un état qui peut déboucher sur in de ses états finaux, la transition ajoutée permet aussi d'anticiper le début d'un calcul dans l’automate B {\displaystyle {\mathcal {B}}} .

Automate pour l'étoile

La construction est analogue. Partant d'un automate A = Σ , Q , q 0 , F {\displaystyle {\mathcal {A}}=\langle \Sigma ,Q,q_{0},F\rangle } , on construit un automate

B = Σ , Q p 0 , p 0 , F p 0 {\displaystyle {\mathcal {B}}=\langle \Sigma ,Q\cup p_{0},p_{0},F\cup p_{0}\rangle } ,

p 0 {\displaystyle p_{0}} est un nouvel état qui est son état initial et aussi un état final. La fonction de transition de A {\displaystyle {\mathcal {A}}} est étendue à p 0 {\displaystyle p_{0}} par

p 0 a = q 0 a {\displaystyle p_{0}\cdot a=q_{0}\cdot a} pour toute lettre a {\displaystyle a} ;

de plus, on ajoute les transitions ( q , a , q 0 ) {\displaystyle (q,a,q_{0})} pour quand q a F {\displaystyle q\cdot a\in F} , et la transition ( p 0 , a , q 0 ) {\displaystyle (p_{0},a,q_{0})} si q 0 a F {\displaystyle q_{0}\cdot a\in F} .

Automate minimal

Deux automates finis déterministes sont équivalents s'ils reconnaissent le même langage. C'est un résultat remarquable de la théorie qu'il existe, pour tout automate fini, un seul automate fini déterministe minimal (c'est-à-dire ayant un nombre minimal d'état) qui est équivalent à l'automate donné. De plus, cet automate, appelé automate minimal, possède une description algébrique simple et élégante. Par ailleurs, l'automate se calcule efficacement par l'algorithme de Moore ou l'algorithme de Hopcroft. L'unicité de l'automate ayant un nombre minimal d'état n'est plus vraie pour les automates non déterministes.

Définition algébrique

Soit L {\displaystyle L} un langage formel sur un alphabet fini A {\displaystyle A} . Pour tout mot x {\displaystyle x} , le quotient gauche ou résiduel de L {\displaystyle L} par x {\displaystyle x} de L {\displaystyle L} par x {\displaystyle x} , est l'ensemble noté x 1 L {\displaystyle x^{-1}L} et défini par

x 1 L = { z A x z L } {\displaystyle x^{-1}L=\{z\in A^{*}\mid xz\in L\}} .

On a

ε 1 L = L {\displaystyle \varepsilon ^{-1}L=L} et ( x y ) 1 L = y 1 ( x 1 L ) {\displaystyle (xy)^{-1}L=y^{-1}(x^{-1}L)}

pour tout x , y {\displaystyle x,y} .

L'automate fini déterministe minimal reconnaissant L {\displaystyle L} , aussi appelé automate des quotients[4] et noté parfois A ( L ) {\displaystyle {\mathcal {A}}(L)} , est défini comme suit :

  • son ensemble d'états est l'ensemble { x 1 L x A } {\displaystyle \{x^{-1}L\mid x\in A^{*}\}} des quotients gauche de L {\displaystyle L}  ;
  • son état initial est i L = ε 1 L = L {\displaystyle i_{L}=\varepsilon ^{-1}L=L}  ;
  • les états terminaux T L {\displaystyle T_{L}} sont les états contenant le mot vide ;
  • la fonction de transition est définie, pour tout état M {\displaystyle M} et a A {\displaystyle a\in A} par M a = a 1 M {\displaystyle M\cdot a=a^{-1}M} .

On a M x = x 1 M {\displaystyle M\cdot x=x^{-1}M} pour tout mot x {\displaystyle x} . Il en résulte que

i L x T L x 1 L T L ε x 1 L x L {\displaystyle i_{L}\cdot x\in T_{L}\iff x^{-1}L\in T_{L}\iff \varepsilon \in x^{-1}L\iff x\in L} .

Ceci prouve que l'automate A ( L ) {\displaystyle {\mathcal {A}}(L)} , reconnaît bien le langage L {\displaystyle L} .

Relation de Myhill-Nerode et résiduels

On définit une relation L {\displaystyle \sim _{L}} sur le mots, appelée relation de Myhill-Nerode, par la règle : x L y {\displaystyle x\sim _{L}y} si et seulement si x 1 L = y 1 L {\displaystyle x^{-1}L=y^{-1}L} . inséparables. La relation L {\displaystyle \sim _{L}} est une relation d'équivalence sur les mots, et donc partitionne l'ensemble de tous les mots en classes d'équivalences. Les classes de l'équivalence de Myhill-Nerode sont donc en bijection avec les résiduels de L {\displaystyle L} . Il en résulte qu'un langage est rationnel si et seulement si l'ensemble de ses résiduels est fini[5].

Minimalité

La minimalité de l'automate A ( L ) {\displaystyle {\mathcal {A}}(L)} peut être établie de plusieurs façons équivalentes. Soit A = ( Q , i , T ) {\displaystyle {\mathcal {A}}=(Q,i,T)} un automate déterministe complet accessible reconnaissant le langage L {\displaystyle L} . Pour tout état q {\displaystyle q} , on note L q = { w A q w T } {\displaystyle L_{q}=\{w\in A^{*}\mid q\cdot w\in T\}} . C'est donc l'ensemble des mots w qui étiquettent un chemin de q vers un état final. Soit x {\displaystyle x} un mot tel que i x = q {\displaystyle i\cdot x=q} . Un tel mot existe parce que tout état de l'automate est accessible. On a alors L q = x 1 L {\displaystyle L_{q}=x^{-1}L} puisque

w L q q w T i x w T = i x w T x w L w x 1 L {\displaystyle w\in L_{q}\iff q\cdot w\in T\iff i\cdot x\cdot w\in T=\iff i\cdot xw\in T\iff xw\in L\iff w\in x^{-1}L} .

En d'autres termes, les états de tout automate A {\displaystyle {\mathcal {A}}} déterministe complet accessible reconnaissant le langage L {\displaystyle L} s'identifient aux quotients gauches, deux états qui sont équivalents dans l'automate A {\displaystyle {\mathcal {A}}} sont les mêmes dans l'automate minimal.

Morphisme d'automates

Selon le degré de généralité recherché, il y a des variations dans la définition d'un morphisme d'automate. Soient A = ( Q , i , T ) {\displaystyle {\mathcal {A}}=(Q,i,T)} et A = ( Q , i , T ) {\displaystyle {\mathcal {A'}}=(Q',i',T')} deux automates finis déterministes accessibles et complets. Un morphisme de A {\displaystyle {\mathcal {A}}} dans A {\displaystyle {\mathcal {A'}}} est une application f : Q Q {\displaystyle f:Q\to Q'} telle que :

  • f ( i ) = i {\displaystyle f(i)=i'}
  • f ( q a ) = f ( q ) a {\displaystyle f(q\cdot a)=f(q)\cdot a} , pour tout lettre a {\displaystyle a} ,
  • f ( T ) T {\displaystyle f(T)\subset T'} .

La deuxième propriété s'étend aux mots par récurrence : on a f ( q x ) = f ( q ) x {\displaystyle f(q\cdot x)=f(q)\cdot x} pour tout mot x {\displaystyle x} . Le langage L ( A ) {\displaystyle L({\mathcal {A}})} reconnu par A {\displaystyle {\mathcal {A}}} est contenu dans le langage L ( A ) {\displaystyle L({\mathcal {A'}})} reconnu par A {\displaystyle {\mathcal {A'}}} puisque pour un mot x {\displaystyle x} de L ( A ) {\displaystyle L({\mathcal {A}})} , on a i x T {\displaystyle i\cdot x\in T} , et f ( i x ) = f ( i ) x = i x T {\displaystyle f(i\cdot x)=f(i)\cdot x=i'\cdot x\in T'} .

Si de plus f ( T ) = T {\displaystyle f(T)=T'} , on dit que le morphisme est surjectif, et alors L ( A ) = L ( A ) {\displaystyle L({\mathcal {A}})=L({\mathcal {A'}})}  ; en effet, soit x L ( A ) {\displaystyle x\in L({\mathcal {A'}})} , et soit t T {\displaystyle t'\in T'} l'état terminal tel que i x = t {\displaystyle i'\cdot x=t'} . Soit t Q {\displaystyle t\in Q} l'état tel que i x = t {\displaystyle i\cdot x=t} . Alors f ( t ) = t {\displaystyle f(t)=t'} , et donc t T {\displaystyle t\in T} .

Soit maintenant A = ( Q , i , T ) {\displaystyle {\mathcal {A}}=(Q,i,T)} un automate reconnaissant un langage L = L ( A ) {\displaystyle L=L({\mathcal {A}})} et soit A ( L ) {\displaystyle {\mathcal {A}}(L)} l'automate minimal de L {\displaystyle L} défini ci-dessus. On définit un morphisme d'automate

f : A A ( L ) {\displaystyle f:{\mathcal {A}}\to {\mathcal {A}}(L)}

comme suit : pour tout état q Q {\displaystyle q\in Q} , soit w {\displaystyle w} un mot tel que i w = q {\displaystyle i\cdot w=q} . Alors

f ( q ) = w 1 L {\displaystyle f(q)=w^{-1}L} .

La définition est indépendante du mot w {\displaystyle w} choisi, et c'est bien un morphisme surjectif.

Il résulte de cette construction que

  • l'automate minimal, image homomorphe de tout automate équivalent, a bien le plus petit nombre possible d'états;
  • l'automate minimal est unique à un renommage des états près puis qu'étant donné deux tels automates, il existe un morphisme de l’un sur l'autre, donc un isomorphisme entre les deux.

Cette propriété remarquable des automates finis déterministes n'est plus vraie pour des automates finis non déterministes.

Voir aussi

Bibliographie

Ouvrages
  • Olivier Carton, Langages formels, calculabilité et complexité, [détail de l’édition] (lire en ligne)
  • Jacques Sakarovitch, Éléments de théorie des automates, Vuibert, , 816 p. (ISBN 978-2-7117-4807-5)
    Traduction anglaise avec corrections : Elements of Automata Theory, Cambridge University Press 2009, (ISBN 9780521844253)
  • Patrice Séébold, Théorie des automates : Méthodes et exercices corrigés, Vuibert, , 198 p. (ISBN 978-2-7117-8630-5)
  • Jean-Éric Pin, « Automates finis », dans Jacky Akoka et Isabelle Comyn-Wattiau (éditeurs), Encyclopédie de l'informatique et des systèmes d'information, Paris, Vuibert, , xxxv+1941 (ISBN 978-2-7117-4846-4), p. 966-976.
  • (en) John E. Hopcroft, Rajeev Motwani et Jeffrey D. Ullman, Introduction to Automata Theory, Languages, and Computation, Addison-Wesley, , 3e éd. (ISBN 978-0-32146225-1)
  • Samuel Eilenberg, Automata, Languages and Machines, Vol. A, Academic Press, (ISBN 978-0-12-234001-7)
Cours
  • Luc Maranget, « Chapitre 7 Les automates », Notes de cours à l’École polytechnique.
  • Jean-Marc Fédou, « 8. Automates finis », Université de Nice.
  • Sylvain Lombardi, « Automates, Notions de base », Université Marne-la-Vallée.
  • Élise Bonzon, « Théorie de Langages - Automates finis », Université Paris Descartes.
  • Benjamin Monmège et Sylvain Schmitz, « Automates et langages », Préparation à l’agrégation de mathématiques 2011–2012, LSV, ENS Cachan & CNRS.
  • Abdelmajid Dergham[6],Université Mohammed Premier Oujda.

Notes et références

  1. Eilenberg 1974.
  2. Janusz Brzozowski, « Unrestricted State Complexity of Binary Operations on Regular Languages », dans Descriptional Complexity of Formal Systems, coll. « Lecture Notes in Computer Science » (no 9777), (arXiv 1602.01387v3), p. 60-72 — La version de arXiv contient des corrections mineures.
  3. Ces constructions se trouvent dans le livre de John E. Hopcroft et Jeffrey D. Ullman, Formal languages and their relation to automata, Addison-Wesley, .
  4. Sakarovitch 2003.
  5. C'est sous cette forme que le théorème est énoncé dans le traité d'Eilenberg (Eilenberg 1974, Théorème 8.1 (The Quotient Criterion), page 55.)
  6. « computer sciences - Compilation (SMI S5) », sur SiteW.com (consulté le )
v · m
Automates finis et langages réguliers
Articles généraux
Automates finis
Automates finis particuliers
Langages réguliers
Des automates aux langages
Des langages aux automates
Minimisation
Équivalences
  • icône décorative Portail de l’informatique
  • icône décorative Portail de l'informatique théorique