Le niveau de la syntaxe

Le niveau de la syntaxe

Le niveau de la syntaxe explique comment mettre bout à bout des unités lexicales afin de bâtir des énoncés dont le sens global est plus que la simple somme des sens de ces unités. Il constitue la "première articulation" de toute langue naturelle. Sous l'influence de Chomsky, ce niveau est celui qui a fait l'objet du plus grand nombre de travaux, d'études et de modèles ces 50 dernières années. La présentation qui en sera faite ici ne pourra être donc que très partielle et partiale.

1	Description linguistique

1.1

De l'analyse distributionnelle à la notion de grammaticalité

Jusqu'aux années 50, le courant dominant en matière de description linguistique (particulièrement aux Etats-Unis) s'appelle l'analyse distributionnelle. Suivant cette approche, pour étudier une langue, il faut tout d'abord disposer d'un échantillon aussi représentatif que possible de cette langue : un corpus. Une langue n'a pas besoin d'être comprise pour être étudiée : toutes ses propriétés doivent pouvoir être extraites des régularités et redondances observées dans le corpus.

La distribution d'une unité présente dans un corpus est définie comme l'ensemble de ses environnements, c'est-à-dire des suites d'unités qui la précédent et qui la suivent dans ce corpus, dans une fenêtre dont la taille est bornée à l'avance. L'ensemble des unités qui partagent un environnement constituent une classe distributionnelle. Par exemple, on peut espérer que "bébé" et "marmot" appartiennent à la même classe parce qu'ils doivent apparaître, dans tout bon corpus, dans les mêmes environnements (précédés de "le" et suivis de "pleure", par exemple...). On peut définir une grammaire, dans un tel système, comme un ensemble de classes et de listes d'environnements associés. En d'autres termes, une grammaire n'est rien d'autre que l'usage distributionnel qui est fait de ses unités linguistiques. Un des problèmes de cette théorie est en fait d'expliquer comment caractériser la notion d'"unité" par des critères purement observationnels.

Mais Harris, un des principaux promoteurs de l'analyse distributionnelle, eut un étudiant qui s'appelait Chomsky. Pour Chomsky, tout corpus est nécessairement incomplet parce fini, alors qu'une langue permet de construire un nombre potentiellement infini de phrases différentes à partir d'un nombre fini d'unités. Pour ranger les unités dans des classes, ce n'est pas l'existence d'environnements communs dans le corpus qui sera déterminante, mais un critère nouveau fondamental : celui de grammaticalité.

Une grammaire, dans ce cadre, est en effet un dispositif capable d'opérer des jugements de grammaticalité, c'est-à-dire de trier les suites d'unités en "correctement formées" (grammaticales) ou non, comme dans le schéma de la figure 5.1. C'est ce dispositif qui caractérise la compétence d'un locuteur (cf. la présentation des concepts chomskiens dans la partie historique du chapitre 2).

Figure 5.1 : rôle d'une grammaire selon Chomsky

Pour bien comprendre les conséquences de cette conception nouvelle, il faut mesurer les distinctions suivantes :

la grammaticalité est différente de la fréquence d'apparition dans un corpus. Par exemple, dans un contexte comme "le petit _ est mort" (où le tiret remplace une unité lexicale), les unités "téléphone" et "chanterons" sont (quasiment) tout aussi improbables. Pourtant, le statut des deux énoncés ainsi construits ne serait pas le même : "le petit téléphone est mort" est parfaitement grammatical, ce qui n'est pas le cas de "le petit chanterons est mort".
la grammaticalité n'est pas non plus synonyme d'"interprétabilité". Chomsky propose un exemple qui a été beaucoup repris et commenté à ce sujet : "d'incolores idées vertes dorment furieusement" est un énoncé grammatical, mais auquel il est pour le moins difficile d'attribuer un sens. Inversement, un énoncé comme "vous faire moi rigoler" est interprétable quoique non grammatical.

En fait, Chomsky propose de remplacer le critère empirique observable de "présence dans un corpus" par un critère mental plus abstrait, dont les effets ne sont visibles qu'indirectement : on peut demander à un locuteur d'opérer autant de jugements de grammaticalité que l'on veut, même s'il est incapable d'expliquer comment il s'y prend. Sa "grammaire mentale" est pour lui une "boîte noire" dont il ne perçoit que les entrées et sorties. Le rôle du linguiste est d'essayer d'ouvir la boîte noire...

Notons enfin que l'analyse distributionnelle connaît un certain regain d'intérêt ces dernières années. La diffusion d'Internet et des documents électroniques a en effet permis la constitution de corpus numériques, sur lesquels certains des tests promus par cette analyse ont pu être programmés. Nous reviendrons sur cette vision des choses dans le chapitre 8 de ce document.

1.2

Des phrases aux propositions

Avant de détailler les structures syntaxiques mises en évidence par la linguistique contemporaine, une question préliminaire se pose : celle de la nature des "suites d'unités" que l'on peut soumettre au test de grammaticalité, autrement dit auxquelles on peut associer de telles structures. Nous avons jusqu'à présent évité le terme de "phrase", parce qu'il pose le même genre de problèmes que celui de "mot" (cf. chapitre 4, section 1.1). Une phrase, en effet, est très difficile à caractériser, aussi bien avec des critères formels (suite de mots entre deux séparateurs forts parmi {., !, ?} ?) qu'avec des critères sémantiques.

Plusieurs unités de descriptions sont constituées de plusieurs "mots" tout en restant généralement plus petites qu'une phrase. Parmi celles-ci, citons :

les chunks : plus petites séquences de mots auxquelles on peut associer une catégorie (cf. plus loin suivant quel critère) comme "groupe nominal" ou "groupe verbal". Mais un tel groupe ne constitue un chunk que si lui-même ne contient pas un autre groupe de même nature. Par exemple, dans "le chat du voisin", il y a en fait deux chunks distincts : "le chat" et "du voisin". Mais cette unité n'apporte pas suffisamment de propriétés nouvelles pour justifier de passer à un "niveau d'analyse" fondamentalement nouveau.
les termes : noms communs, entités nommées ou groupes nominaux éventuellement composés d'autres groupes nominaux. Les termes identifient un concept précis dans un domaine de spécialité (comme "maladie de la vache folle") et peuvent de ce fait servir de "mots clés" dans une indexation. Clairement, ils ne suffisent pas non plus à eux seuls à faire des phrases.
les clauses : séquences de mots contenant au moins un sujet et un prédicat (notions sémantiques sur lesquelles nous reviendrons). Mais, comme presque toujours en linguistique, aucune définition ne fait vraiment consensus à leur sujet. Une phrase peut en général se découper en plusieurs clauses emboîtées les unes dans les autres, comme dans l'exemple suivant (traduit de l'anglais), où chaque couple de parenthèses marque les frontières d'une clause : "((La dérégulation des compagnies de chemins de fer, qui a commencé en 1980)), a permis (aux affréteurs de marchandises de négocier leurs tarifs.))".

En fait, la seule structure intermédiaire dont nous ferons usage par la suite est celle de syntagme. Un syntagme est un mot ou une suite de mots consécutifs auquel on peut associer une catégorie syntaxique, sur la base du critère de substituabilité que nous avons déjà employé dans le chapitre 4, section 1.4. Mais cette notion, aussi pertinente soit-elle, ne justifie pas à elle toute seule qu'on lui consacre un "niveau d'analyse" spécifique, puisque, justement, les informations qu'on peut lui associer sont déjà présentes au niveau des mots.

Les linguistes utilisent souvent la notion d'"énoncé", en tant qu'unité de production textuelle ou de prise de parole. Mais ce terme reste encore un peu trop vague à notre goût. En fait, ce qui nous intéresse dans une "phrase", c'est sa capacité à dire des choses sur le monde. Ce qui à nos yeux légitime l'existence d'un niveau d'analyse spécifique, c'est donc l'existence de suites d'unités auquel on peut attribuer une valeur de vérité (vrai/faux). Une telle suite s'appelle une proposition. Ce critère distinctif a l'avantage de caractériser un niveau de combinaisons non réductible aux précédents. Comme celui qui a permis de définir les "morphèmes", il est de nature sémantique. Son inconvénient est qu'il écarte certaines "phrases" courantes comme les exclamations ou les questions, qui ont pourtant une structure syntaxique qui mérite d'être étudiée. Nous pouvons toutefois considérer ces dernières comme des cas particuliers (on peut associer une valeur de vérité à un couple (question, réponse) et nous ne nous interdirons pas de les analyser.

Ce parti pris sémantique n'est certainement pas celui qui serait adopté dans une perspective purement chomskienne qui, elle, entend dissocier la grammaticalité de l'interprétabilité et clame la primauté de la syntaxe sur la sémantique. Mais le point de vue que nous argumentons tout au long de ce document, c'est que c'est toujours le niveau le plus complexe et le plus sémantique qui dirige les autres niveaux. En dernière instance, c'est donc finalement le niveau de la sémantique propositionnelle (en bas à droite de notre schéma de la figure 2.1) qui guide l'ensemble de nos analyses.

Plutôt que de parler de "phrases" nous parlerons donc aussi souvent que possible de "propositions". Par la suite, il peut nous arriver d'employer le terme de "phrase", bien pratique, de même que nous utilisons celui de "mot" tout en ayant critiqué son caractère d'unité linguistique pertinente.

1.3

Structures syntaxiques

Commençons par illustrer comment procéder à une analyse syntaxique "syntagmatique" sur un exemple. Nous partons de la proposition "l'oiseau pose ses pattes sur une branche." Notre objectif est de décomposer cette suite d'unités en groupes adjacents qui "vont ensemble". Notre principal outil en la matière sera notre critère de "substituabilité", déjà plusieurs fois utilisé (cf. chapitre 3, section 1.2 et chapitre 4, section 1.4). Ce qui doit rester stable au fil des substitutions, ce sera de nouveau le critère de grammaticalité. Il s'agira d'appliquer au niveau des suites de mots la technique qui a déjà permis de regrouper dans une même catégorie grammaticale certains mots.

Repartons donc des affectations des mots présents dans cette proposition à ces catégories :

l'	oiseau	pose	ses	pattes	sur	une	branche
Det	Nom	Vtr	Det	Nom	Prep	Det	Nom

Dans la deuxième ligne de ce tableau, les abbréviations désignent les catégories grammaticales suivantes :

Det est la catégorie des "déterminants" qui précèdent et introduisent les noms communs : on voit qu'elle regroupe les articles définis (comme "le"), indéfinis ("une") et certains pronoms ("ses"). On ne distinguera pas par la suite le genre et le nombre de ces déterminants (pas plus qu'on ne le fera pour les noms ou les adjectifs) mais, bien sûr, il faudrait en tenir compte en théorie pour garantir les accords entre ces mots, qui sont partie intégrante de la grammaticalité ;
Nom est la catégorie des noms communs
Vtr est la catégorie des verbes transitifs (on notera Vintr celle des verbes intransitifs)
Prep est la catégorie des prépositions comme "sur"

Pour aller plus loin, on se pose la question suivante : quelles suites de mots consécutifs dans cette phrase peut-on remplacer par une autre suite, voire par un unique autre mot en préservant la grammaticalité (à défaut du sens) de la suite ainsi construite ? Nous obtiendrons alors les réponses successives suivantes...

Tout d'abord, le groupe "l'oiseau" peut très bien être remplacé par un nom propre comme "Titi" (on préserve même alors une partie du sens, mais cela n'a rien d'obligatoire). C'est aussi le cas de "une branche" qui peut être substitué par "Jean", ainsi que "ses pattes", à la place duquel on peut mettre "Médor". En effet "Titi pose Médor sur Jean", bien qu'un peu surréaliste, est grammatical (de même que "Jean pose Jean sur Jean", par exemple). Nous noterons l'ensemble de toutes les successions d'unités lexicales substituables à ces suites la classe des "groupes nomimaux" et nous la noterons GN. Nous avons déjà ainsi isolé dans notre proposition initiale des groupes adjacents que l'on peut visualiser par des parenthèses étiquetées :

(l'oiseau)_GN pose (ses pattes)_GN sur (une branche)_GN

Ensuite, on peut constater qu'il est possible de remplacer le groupe "sur une branche" par d'autres groupes nominaux introduits par une préposition comme "avec un soupir", "dans une heure" ou "comme une fleur". On appelle "groupe prépositionnel", abbrégé en GP, de telles suites. Son identification dans notre phrase initiale amène le nouveau parenthésage suivant (l'étiquette du groupe est attachée à la parenthèse fermante qui le délimite) :

(l'oiseau)_GN pose (ses pattes)_GN (sur (une branche)_GN)_GP

Maintenant, avec quoi regrouper le verbe "pose" ? Depuis Chomsky, les linguistes ont pris l'habitude de considérer que, puisqu'un verbe transitif suivi de son complément d'objet direct (même si nous n'avons pas encore vraiment parlé de cette dernière notion, qui est plutôt sémantique) peut être substitué par un verbe intransitif unique (comme "ronfle"), cela signifie qu'il existe une catégorie "groupe verbal" qui les réunit tous. On note GV un tel groupe. Dans notre exemple, nous constatons même que l'on peut remplacer non seulement "pose ses pattes" par "ronfle" mais aussi "pose ses pattes sur une branche". Ce dernier groupe est ainsi lui-même un autre groupe verbal. Notre parenthésage se complexifie donc pour donner :

(l'oiseau)_GN ((pose (ses pattes)_GN)_GV (sur (une branche)_GN)_GP)_GV

Notre proposition initiale est donc finalement globalement composée d'un groupe nominal suivi d'un groupe verbal, qui eux-mêmes se décomposent en sous-groupes de différentes natures. Pour visualiser cette structure hiérarchique, on utilise habituellement une représentation arborescente, où figurent tous les noms de catégories intermédiaires. La figure 5.2 l'illustre pour notre exemple.

Figure 5.2 : un premier arbre d'analyse syntaxique

Cette représentation arborescente est exactement équivalente (mais en plus lisible) au parenthésage étiqueté suivant :

((l'oiseau)_GN ((pose (ses pattes)_GN)_GV (sur (une branche)_GN)_GP)_GV)_S

Les arbres d'analyse syntaxique, dont la figure 5.2 est le premier exemple, ont comme les précédents arbres en quelque sorte "la tête en bas". Les mots de la phrase y jouent le rôle de feuilles. On étiquette traditionnellement la racine avec le symbole S qui vient de l'anglais "sentence". Les noeuds internes reçoivent les étiquettes grammaticales intermédiaires. On aurait très bien pu aussi le construire du "haut en bas" en cherchant à découper progressivement la suite des mots plutôt que de "bas en haut" comme présenté ci-dessus, en cherchant progressivement à regrouper ensemble les mots isolés.

un syntagme est donc un groupe de mots qui correspond à un sous-arbre d'un arbre d'analyse syntaxique complet. Par exemple "pose ses pattes" est un syntagme de catégorie GV. D'où le terme "syntagmatique" qui est souvent associé aux grammaires chomskiennes. Le mot anglais "sentence" devrait d'ailleurs plutôt être traduit par "syntagme" que par "phrase" en français.

1.4

Ambiguités

Pour illustrer la difficulté d'associer une structure syntaxique à une proposition, partons d'un autre exemple apparemment très similaire au précédent :

mon	frère	adore	les	pulls	avec	des	rayures
Det	Nom	Vtr	Det	Nom	Prep	Det	Nom

La succession des catégories associées aux mots de cette phrase est exactement la même que celle de la précédente. Pourtant, en cherchant à regrouper ensemble ses mots pour les substituer à d'autres, on en vient à identifier "les pulls avec des rayures" comme un groupe nominal, alors que ce n'était pas possible pour "ses pattes sur une branche". Ainsi, la structure que l'on construit sera cette fois celle de la figure 5.3, où le groupe prépositionnel "avec des rayures" se rattache à une catégorie Nom plutôt qu'à une catégorie GV.

Figure 5.3 : un autre arbre d'analyse syntaxique

Clairement, pour trouver la "bonne" structure, il est difficile de faire abstraction du sens. Certaines phrases autorisent même plusieurs interprétations différentes possibles correspondant à plusieurs arbres différents : on dit qu'elles sont ambigües. C'est le cas de "l'homme observe sa voisine avec des jumelles" qui, de nouveau, est associée à la même succession de catégories que les deux exemples précédents. Cette phrase peut se comprendre de deux manières différentes :

soit elle signifie que les jumelles sont l'instrument grâce auquel l'homme réalise ses observations : dans ce cas, il faut reprendre la même structure que celle de la figure 5.2 ;
soit elle signifie que la voisine observée possède des jumelles (quel que soit le sens de ce dernier mot d'ailleurs), auquel cas c'est la figure 5.3 qui convient.

Plusieurs phénomènes syntaxiques classiques peuvent donner lieu à une ambiguité. Dans la phrase précédente, on a un problème de rattachement prépositionnel, le groupe GP pouvant s'accrocher soit à un GV (ou un V), soit à un Nom (ou un GN). Parmi les autres phénomènes du même genre, on peut citer :

problème du rattachement adjectival : "(les oiseaux) et (les poissons rouges)" ou "(les oiseaux et les poissons) rouges" ? ; "une roue d'(auto usagée)" ou "(une roue d'auto) usagée"?..
problème du rattachement adverbial : "il veut (bien parler)" ou "(il veut bien) parler" ?
problème de coordination : "je veux (du pain et du beurre) ou du fromage" ou "je veux du pain et (du beurre ou du fromage)" ?

Un cas extrême d'ambiguité syntaxique (plusieurs structures possibles pour une même séquence de mots) est fourni par Chomsky lui-même : selon lui, il y a quatre façons différentes d'analyser "Time flies like an arrow", données par les quatres arbres de la figure 5.4.

Figure 5.4 : quatre analyses syntaxiques de la même phrase

Ces quatre arbres exploitent l'appartenance de certains mots anglais à plusieurs catégories grammaticales : "time" et "fly" peuvent être un verbe ou un nom, tandis que "like" peut être un verbe ou un adverbe. Ils coïncident avec quatre interprétations différentes de la phrase, qu'on peut respectivement traduire en français comme suit :

"Le temps vole comme une flèche" (arbre en haut à gauche) : c'est l'interprétation la plus "naturelle" de cette phrase ;
"Les mouches du temps aiment une flèche" (arbre en haut à droite) : plus exotique...
"Chronométrez les mouches comme (vous chronométriez) une flèche" (arbre en bas à gauche) : cette interprétation nécessite de supposer une ellipse (omission) du verbe "chronométrer" qui n'est pas répété ;
"Chronométrez les mouches qui ressemblent à une flèche" (arbre en bas à droite).

1.5

Problèmes avec la structuration arborescente

On l'a déjà vu dans les exemples précédents : pour construire la "bonne structure" associée à une phrase, mieux vaut souvent avoir une bonne idée de ce qu'elle veut dire. On n'a apparemment aucune raison syntaxique de traiter différemment "le chat mange la souris" et "le chat mange la nuit". Pourtant, dans le premier cas, "la souris" est l'objet de l'action, tandis que, dans le deuxième cas, "la nuit" précise le moment de sa réalisation. On peut reconnaître leur différence de statut au fait que certains GN peuvent changer de place et pas d'autres : "la nuit le chat mange" ou même "la nuit mange le chat" préservent le sens initial de la phrase mais pas "la souris mange le chat"... Les relations de type "sujet", "complément d'objet direct", etc. sont en général appelés rôles sémantiques. L'identification de ces rôles, sur lesquels nous reviendrons dans le chapitre traitant de sémantique propositionnelle (chapitre 7, section 1.2), se superpose en quelque sorte sur la structure arborescente de la proposition. C'est bien là le signe que cette structure arborescente n'explique pas tout à elle toute seule.

Dans ses écrits les plus récents (notamment depuis la théorie "X-barre" et le programme minimaliste), Chomsky précise la structuration interne générale des syntagmes. Il remarque ainsi que chaque syntagme contient une unité lexicale privilégiée qu'il désigne comme sa "tête" : la tête d'un syntagme nominal est ainsi son nom commun principal, celle d'un syntagme verbal son verbe principal, etc. Les autres composants du syntagme s'organisent autour de sa tête de façon régulière, et ce quelle que soit la nature de ce syntagme. Ainsi, en français, les têtes sont en général précédées d'un spécifieur et suivies de compléments, comme l'illustre la figure 5.5.

Figure 5.5 : stucture interne d'un syntagme en français

Cette structure interne aux syntagmes explique certains des "mouvements" possibles qu'ils peuvent subir, comme ceux que l'on vient d'évoquer, ou ceux nécessaires pour transformer une proposition affirmative en une question.

Les structures arbrorescentes ne semblent pourtant pas toujours suffisantes pour rendre compte de toutes les constructions linguistiques. Citons, parmi les difficultés :

l'ellipse, qui autorise l'effacement de certains constituants pour éviter une répétition, comme dans "elle est d'accord, moi non".
l'apposition, qui est la juxtaposition de syntagmes de même nature ayant le même référent sémantique : "Jean, mon voisin, un bon ami, m'a rendu visite".
la thématisation, où l'ordre des mots permet d'introduire des référents sur lesquels on met successivement l'accent : "moi, mon papa, sa voiture, elle est rouge".

Dans toutes ces situations, c'est le rattachement entre eux des syntagmes qui est délicat. D'autres constructions semblent nécessiter des "branches qui se croisent" : la figure 5.6 en donne quelques exemples. Dans cette figure, on n'a pas explicité les arbres complets des phrases parce que, précisément, leur structuration est problématique. Les raisons qui donnent envie de "raccrocher entre eux" certains mots ou groupes de mots ne sont d'ailleurs pas toujours les mêmes dans ces exemples (rattachement des pronoms, caractère discontinu du passé composé, correspondances sémantiques...). En fait, certaines traditions d'analyse syntaxique se passent même complètement des arbres, et mettent en avant à la place la notion de dépendances entre unités lexicales. Une dépendance est une relation orientée entre deux mots. Dans cette tradition, l'analyse grammaticale est donc conçue comme un réseau de dépendances (ressemblant fort aux exemples de la figure 5.6) et non comme un arbre.

Figure 5.6 : relations croisées dans des phrases

Nous nous en tiendrons néanmoins par la suite aux arbres et aux analyses syntaxiques qui les fondent, basées sur la notion de substituabilité entre groupes de mots. Un arbre rend visible la construction interne commune d'un nombre potentiellement infini de phrases différentes : c'est ce qui fait son expressivité.

On dispose maintenant depuis quelques années de corpus arborés, c'est-à-dire de textes parenthèsés et étiquetés syntaxiquement, rendant explicite la structure des phrases qu'il contient. Ces données, mises au service des informaticiens et des linguistes qui veulent les exploiter, jouent un grand rôle dans la recherche actuelle.

Notons enfin que la notion d'arbres que nous avons utilisée ici constitue une "structure de données" fondamentale en informatique : par exemple, le système de dossiers (ou répertoires) et de fichiers, qui gère toute l'organisation de la mémoire des ordinateurs, est de nature arborescente. De même, le langage HTML, dans lequel sont écrites toutes les pages du Web, est aussi basé sur une description arborescente du contenu d'une page. Les informaticiens ont donc l'habitude de manipuler de telles données.

2	Modélisation informatique

C'est sans doute dans le domaine de la modélisation de la syntaxe que le plus de travaux ont été produits ces 50 dernières années en TALN. Les recherches ont avancé en parrallèle avec plusieurs autres branches de l'informatique : ainsi, par exemple, les "langages évolués" dans lesquels les informaticiens d'aujourd'hui écrivent leurs programmes (Java, C++, Python, etc. en sont des exemples) nécessitent eux aussi, pour être "compilés", c'est-à-dire traduits en "langage machine" exécutable par les ordinateurs, une phase "d'analyse syntaxique". Les outils à la fois théoriques et pratiques développés dans ce cadre ont ainsi pu être ré-exploités pour traiter les langues naturelles.

Nous allons dans ce qui suit aborder ce que l'on désigne traditionnellement en informatique comme la "théorie des langages", qui traite des grammaires et des langages en général. Même si cette théorie permet aussi de décrire la structure des langues formelles artificielles (comme les langages de programmation), c'est bien sûr surtout son adéquation aux langues humaines qui nous intéressera ici.

2.1

Le retour des automates finis

Une grammaire, on l'a vu à la figure 5.1, doit désormais être conçue comme un dispositif capable de "classer" une suite de mots quelconque en "grammaticale" ou "non grammaticale". Quelle traduction informatique donner à ce dispositif ? La difficulté du problème, déjà évoquée dans le chapitre 2, section 3, réside dans le paradoxe suivant : même en supposant l'ensemble de tous les mots possibles d'une langue comme fini (ce qui, on l'a vu, est réducteur), on peut construire avec cet ensemble fini un nombre potentiellement infini de phrases grammaticales, et un nombre potentiellement infini de "phrases" non grammaticales. Comment les trier avec un dispositif nécessairement fini (puisque traduisible en un programme) ? Nous allons voir que la clé du problème tient dans une notion fondamentale en informatique : la récursivité.

Nous avons en fait déjà rencontré dans le chapitre 4, section 2.2 un modèle qui peut rendre le service qu'on attend d'une grammaire : c'est celui des automates finis. Imaginons en effet un automate dont le vocabulaire fini V contient l'ensemble de tous les mots possibles du français (flexions et conjugaisons comprises), et dont chaque "chemin" correspondrait à une phrase syntaxiquement correcte. Confronté à une suite de mots quelconque, l'automate n'aurait qu'à vérifier si cette suite correspond à un de ses chemins pour savoir si elle est grammaticale.

L'exemple de la figure 4.4 montre que même un automate très simple peut "reconnaître" une infinité de chemins différents possibles. La récursivité, chez lui, réside dans les transitions qui "bouclent", parce que leur état d'arrivée est identique à leur état de départ (il y en a 2 dans l'exemple).Par définition, il est possible d'utiliser un nombre quelconque de fois ces transitions, et donc de juger grammaticales un nombre infini de chaînes possibles. La "productivité infinie" des langues naturelles peut-elle se ramener à un phénomène du même genre ? Certaines constructions répondent effectivement à ce schéma, comme celle de la figure 5.7, qui reconnaît le langage exprimé par l'expression rationnelle : "la.Ferrari.passa.(très)^*.vite". Cette configuration un peu marginale n'épuise évidemment pas toutes les sources d'"infini" possibles autorisées par la langue française. Mais il n'y a aucune raison non plus pour que les "boucles" présentes dans les automates finis se limitent à une seule transition. On peut très bien imaginer des suites de transitions successives permettant de retourner dans un état précédemment quitté. Ce type de récursivité est dit indirect, alors que les automates des figures 4.4 et 5.7 ne contiennent que de la récursivité directe..

Figure 5.7 : automate reconnaissant une petite (mais infinie !) portion du français

Un autre exemple d'une portion infinie (mais moins triviale que précédemment) du français pouvant être modélisée par un automate fini est donné en figure 5.8 : ce dernier permet cette fois de désigner un membre quelconque de la famille d'un certain individu (ici : Jean), et de dire qu'il (ou elle) dort.

Figure 5.8 : automate fini reconnaissant un ensemble infini de phrases

Dans ce nouvel automate, comme dans celui de la figure 4.3, les transitions étiquetées par plusieurs mots séparés par un "/" synthétisent en fait autant de transitions différentes que de mots cités. Les "..." signalent qu'il faudrait ajouter quelques unités lexicales dans le vocabulaire pour être vraiment exhaustif. Ce dispositif reconnaît des phrases comme "la mère du frère de l'oncle du père de Jean dort", et une infinité d'autres ! Il contient plusieurs cas de récursivité indirecte ; par exemple, il existe des transitions allant de l'état 2 à l'état 5, et une autre allant de l'état 5 à l'état 2 : en enchaînant deux transitions, on peut donc partir de l'état 2 et y revenir, et ceci un nombre quelconque de fois.

Un dernier exemple de portion du français représentable par un automate : l'ensemble des phrases produites par le "pipotron", un générateur de phrases aléatoires qui pratique avec aisance la langue de bois (cf. Pipotron, par exemple). Le principe du pipotron, c'est une succession de choix indépendants de mots ou groupe de mots dans une série de listes. Tous les choix possibles construisent une phrase grammaticale. Quelques-uns d'entre eux sont reproduits dans l'automate de la figure 5.9 ; il suffirait d'y ajouter quelques transitions pour les reproduire en intégralité.

Figure 5.9 : automate produisant quelques phrases du "pipotron"

Les Cent mille milliards de poèmes de Raymond Queneau est un recueil de poèmes conçu suivant le même princicpe. Le livre se présente comme une série de "languettes" qui prennent la place des 14 lignes d'un sonnet. A la place de chaque ligne, il y a le choix entre 10 languettes différentes, chacune contenant un alexandrin de même rime. Chaque choix est indépendant et toutes les combinaisons possibles d'alexandrins forment finalement un sonnet complet. Les 10 choix possibles de chaque ligne ouvrent autant de possibilités à la ligne suivante, ce qui fait au bout du compte 10*10*...*10=10¹⁴ poèmes différents... Mais, ce nombre a beau être impressionnant, il n'atteint malgré tout pas la combinaison infinie de choix permise par certains des exemples précédents. Comme le pipotron, le livre de Queneau ne spécifie en fait qu'un langage fini : les automates correspondant à ces jeux combinatoires ne permettent aucun retour en arrière : pas de boucle, pas de récursivité...

2.2

Limites des automates finis

La grammaire de la langue française peut-elle donc se représenter sous la forme d'un énorme automate fini où figurerait de la récursivité ? Il semble bien que non, mais cela mérite argumentation. Nous allons présenter successivement trois des principaux arguments cités à l'encontre de cette hypothèse. Ce sont un peu trois façons différentes de dire la même chose, mais en mettant l'accent sur une facette ou sur une autre de l'analyse linguistique.

L'argument sans doute le plus facile à comprendre est dû à Pinker, psycholinguiste canadien, et relève surtout de la psychologie cognitive. Il consiste à constater que stocker en mémoire ce qui constitue la "compétence" des locuteurs d'une langue sous la forme d'un unique automate ne serait ni économique ni efficace. En effet : en français, comme en anglais et dans beaucoup d'autres langues, on utilise la même construction pour les "groupes nomimaux" (GN dans nos arbres), que ceux-ci jouent le rôle de sujet, d'objet, ou de circonstant (pour préciser le temps, le lieu, la manière, etc.) de la proposition dont ils font partie. S'il fallait bâtir un "automate complet du français", il faudrait donc répéter la portion d'automate qui décrit la construction des groupes nominaux à plusieurs endroits dans cet automate global : au début pour les GN sujets, après le verbe pour les GN objets directs, etc. Ce n'est clairement pas comme cela que la mémoire humaine fonctionne. On a d'ailleurs pu observer que lorsqu'un enfant a entendu une seule fois un nom (ou toute autre unité lexicale, ou toute portion de structure) dans une certaine position grammaticale, il est capable de le ré-employer spontanénemnt et instantanément dans une autre position grammaticale.

Certes, cet argument est plus intuitif que vraiment rédhibitoire : rien n'interdit aux informaticiens d'utiliser pour modéliser la compétence d'autres outils que ceux employés par l'esprit humain. Mais il suggère surtout qu'il doit y avoir d'autres moyens que les automates finis pour reproduire les jugements de grammaticalité : que peut-être un ensemble d'automates spécialisés s'appelant les uns les autres incluant, notamment, un seul automate pour décrire les GN, mais qui pourrait resservir à plusieurs occasions dans l'analyse d'une phrase, serait plus adapté à nos besoins qu'un unique gros automate. C'est exactement ce qui sera l'objet de la section suivante.

Le deuxième argument est très proche du premier : il met en avant le fait que les automates sont incapables de produire les structures arborescentes avec lesquelles nous avons analysé les phrases des sections 1.3 et 1.4. En fait, ces structures sont le résultat direct de notre critère de susbtituabilité : s'il est possible d'étiqueter plusieurs portions d'arbres (ou sous-arbres) par GN, c'est justement parce que ces portions sont interchangeables les unes avec les autres, si l'on s'en tient à juger la grammaticalité de la phrase ainsi produite. A vrai dire, pour vraiment prendre la mesure de cet argument, il faudra attendre la section sur les "grammaires formelles" à suivre : de fait, nous y verrons que les automates peuvent produire des sortes d'arbres, mais d'une espèce un peu malingre et chétive qui ne fait pas honneur à la richesse de la syntaxe.

Cette nouvelle formulation n'est pas plus décisive que la précédente. Encore une fois, rien n'oblige les informaticiens à reproduire dans leurs programmes ce que fait un humain : les analyses syntaxiques sous forme d'arbres que nous avons détaillées étaient en quelque sorte de la "cuisine interne de linguiste". On peut imaginer qu'il existe un dispositif qui n'aurait pas à passer par cet artefact intermédiaire pour rendre son verdict de grammaticalité.

Le dernier argument, enfin, et le plus souvent cité, remonte aux toutes premières intuitions de Chomsky ; il s'appuie, dans sa formulation contemporaine, sur un théorème mathématique. Le théorème énonce qu'il est impossible d'engendrer avec un automate fini certains langages comme le langage L={aⁿbⁿ|n≥ 1} (construit sur le vocabulaire V={a,b}), c'est-à-dire le langage qui réunit toutes les suites constitées d'un nombre quelconque (non nul) de symboles a suivi du même nombre de symboles b. Ce langage comprend les chaînes : ab, aabb, aaabbb, etc. Pourquoi un automate fini ne peut-il reconnaître ce langage ? La démonstration est un peu technique mais son principe en est simple. Supposons qu'un tel automate existe, appelons-le A et cherchons à en déduire une contradiction. Le raisonnement suit les étapes suivantes :

le langage L étant évidemment infini, A doit inclure au moins une boucle récursive (directe ou indirecte).
choisissons parmi le langage engendré par A la suite de symboles correspondant à un chemin dans A qui emprunte exactement une fois cette boucle. Soit w cette suite de symboles. Par définition, on peut la décomposer en 3 morceaux : le morceau correspondant au chemin parcouru "de l'état initial jusqu'au début de la boucle", celui correspondant au chemin "dans la boucle" et celui du chemin "après la boucle jusqu'à un état final" (ce dernier et le premier pouvant éventuellement être vides) : w=u₁u₂u₃ où u₂≠ε est la suite des symboles dans la boucle.
tous les chemins qui commencent et qui se terminent comme le précédent mais qui, au lieu d'emprunter une seule fois la boucle, l'empruntent un nombre quelconque de fois sont des chemins corrects de l'automate : donc toutes les suites de symboles qui appartiennent à l'ensemble u₁u₂^*u₃ font partie du langage de A.
Maintenant, essayez de choisir parmi les suites de la forme aⁿbⁿ celle qui pourra jouer le rôle de w, et en particulier dans cette suite la portion u₂ qui pourra être répétée tout en restant dans le langage L : c'est impossible...

Ce théorème, aussi appelé "lemme de pompage" (parce qu'on y "gonfle" artificiellement, en répétant une de ses parties, une suite de symboles) a le mérite de donner une limite théorique rigoureuse à l'expressivité des automates finis. En quoi concerne-t-il le langage naturel ? C'est la clé du problème. Pour nous en convaincre, Chomsky exhibe plusieurs constructions qui suivent la forme aⁿbⁿ : les plus célèbres sont les "propositions relatives enchassées". Pour l'illustrer, partons de la phrase "l'ours dort". On peut insérer après le nom sujet "ours" un complément pour obtenir : "l'ours (que l'homme a vu) dort". Mais il n'y a aucune raison pour s'arrêter en si bon chemin. Le complément précédent peut très bien être de nouveau inséré pour modifier le nom "homme" juste introduit : "l'ours (que l'homme (que l'homme a vu) a vu) dort". Et ainsi de suite. Si on appelle a la suite de mots "que l'homme", et b "a vu", on s'est bien ramené à une construction du type "l'ours aⁿbⁿ dort", où n'importe quelle valeur de n≥ 1 donne une phrase syntaxiquement correcte. Evidemment, au delà de n=2, la phrase devient très difficilement compréhensible. Mais, pour Chomsky, cette difficulté est un problème de performance, lié aux limites de la mémoire humaine, et ne remet pas en cause la compétence des locuteurs à juger la phrase grammaticale. On voit maintenant l'importance cruciale de cette distinction dans son argumentation.

Tous ces arguments n'empêchent pas les linguistes et les informaticiens de modéliser sous forme d'automates ou d'expressions régulières certains des phénomènes qu'ils étudient. Mais ils savent aussi (ou devraient savoir !) que ce modèle a des limites, et que son usage pour formaliser la syntaxe est l'objet de critiques fondamentales fortes. Ils font donc pour cela appel à d'autres formalismes plus puissants...

2.3

Réseaux de Transitions Récursifs

Les Réseaux de Transition Récursifs (ou RTRs) sont une généralisation des automates finis qui répondent exactement aux arguments de la section précédente. La figure 5.10 en donne un premier exemple simple.

Figure 5.10 : un Réseau de Transition Récursif pour le français

Un RTR se présente comme un ensemble d'automates qui ont les propriétés suivantes :

chaque automate de l'ensemble a au moins un état initial et au moins un état final (comme les automates finis) ;
chaque automate est associé à une étiquette, marquée à sa gauche : on les appelle aussi les symboles non terminaux du RTR, parce qu'ils servent de vocabulaire intermédiaire, et ne se retrouveront pas dans les suites d'unités lexicales dont on teste la grammaticalité. Dans les exemples linguistiques, ces symboles seront des catégories grammaticales. Parmi elles, figure le symbole S désignant la catégorie des propositions syntaxiquement correctes ;
les transitions des automates sont étiquetées soit avec des symboles non terminaux associés à un automate, soit avec des symboles "terminaux", qui sont simplement les unités lexicales.

Dans notre figure, les mots avec lesquels on va reconnaître ou engendrer des phrases figurent à la fin dans de simples listes, alors que les automates qui les précèdent n'ont que des transitions étiquetés avec des catégories. Il faut voir ces listes finales comme des automates élémentaires contenant simplement un état initial, un état final et autant de transitions de l'un à l'autre que de mots dans la liste. Dans cet exemple, on distingue les verbes transitifs étiquetés Vtr, des verbes intransitifs, associés à Vtr.

Quel est le critère de grammaticalité associé à ce nouvel objet ? Il est très similaire à celui des automates finis : une suite de mots est reconnue si elle correspond à un chemin dans l'automate étiqueté par S du RTR. Comme précédemment, les transitions étiquetées par un mot peuvent être franchies par la reconnaissance de ce mot. La nouveauté est que, pour franchir une transition qui porte un symbole non terminal, il est nécessaire de parcourir un chemin complet dans l'automate associé à ce symbole. Les automates du RTR ont donc la possibilité de s'appeller les uns les autres, à la manière des fonctions ou des procédures dans les langages de programmation impératifs. Par exemple, expliquons comment "le chat mange la souris" peut être jugé grammatical dans ce dispositif :

"le" est de catégorie Det et "chat" de catégorie Nom, donc "le chat" est un chemin dans l'automate GN (passant par les états 4, 5 et 6). Ce chemin autorise à son tour à passer de l'état 1 à l'état 2 dans l'automate S.
De même que précédemment, "la souris" est un chemin dans GN. Par ailleurs, "mange" étant de catégorie Vintr,"mange la souris" est un chemin dans l'automate GV (passant par les états 7, 8 et 9). Donc "mange la souris" permet, dans l'automate S, de passer de l'état 2 à 3. La phrase est donc acceptée par l'automate associé à S et donc par le RTR dans son ensemble.

Ce dispositif répond exactement à l'argument de Pinker, puisque les GN en position sujet y sont traités par le même automate que ceux en position d'objet. Si on ajoute un élément à la liste des noms, il pourra donc être utilisé indiféremment dans l'une ou l'autre de ces positions.

De même, les RTRs rendent parfaitement compte des structures arborescentes. On pourrait ainsi paraphraser l'analyse précédente de "le chat mange la souris" sous la forme de l'arbre de la figure 5.11. Quand, par exemple, pour trouver un chemin dans l'automate associé au symbole GN, il faut franchir deux transitions successives portant les symboles Det et Nom respectivement, cela correspond dans cette figure à un sous-arbre de racine GN qui a deux fils : le premier est Det, le second Nom (et ceci à deux endroits différents dans l'arbre, puisque l'automate GN est appelé lui aussi deux fois).

Figure 5.11 : un arbre d'analyse syntaxique

Enfin, le langage L=aⁿbⁿ, impossible à générer avec un automate fini, peut-être reconnu par un RTR très simple : celui de la figure 5.12. Dans ce RTR, l'unique automate a la propriété de pouvoir "s'appeler lui-même" via la transition portant sa propre étiquette (c'est à cause d'elle qu'il n'est pas un automate fini). Chaque appel récursif ajoute un symbole a à gauche et un symbole b à droite, tout en maintenant "au milieu" la possibilité de recommencer un chemin.

Figure 5.12 : un RTR reconnaissant aⁿbⁿ

Cela achève de montrer que les RTRs sont fondamentalement plus puissants que les automates finis. Sont-ils l'outil idéal ? Ils ont effectivement été utilisés dans les années 70, mais ne sont plus vraiment à la mode. Ils constituent pourtant la base de logiciels très populaires comme Unitex, cité en section 2.4 du chapitre 4. Il est temps maintenant d'introduire l'outil de référence qui nous aidera à y voir plus clair dans la structure des langages, et à mesurer à cet aune la puissance des modèles qui les formalisent.

2.4

Grammaires formelles

Les grammaires formelles sont au coeur de la "théorie des langages" des informaticiens. Même si les grammaires définies par cette théorie sont rarement utilisées telles quelles en linguistique, le cadre dans lequel elles s'inscrivent (en particulier la "hiérarchie de Chomsky" dont il sera question plus loin) est un référent incontournable de tout formalisme syntaxique. Nous verrons notamment que les notions d'automates finis et de RTRs en sont des cas particuliers.

On définit précisément une grammaire formelle G comme un quadruplet d'éléments : G=<V, N, P, S> où :

V est le vocabulaire terminal de G : pour une application linguistique, V coïncidera bien sûr avec l'ensemble fini des mots pouvant figurer dans les suites dont on veut tester la grammaticalité. On écrira toujours les éléments de V avec des minuscules latines.
N est le vocabulaire non terminal de G : comme dans les RTRs, ce vocabulaire (lui aussi fini) servira lors d'étapes intermédiaires de calculs. Il est qualifié de "non terminal" car aucun de ses symboles ne doit se retrouver dans les productions finales reconnues ou engendrées par la grammaire. Il contient nécessairement, entre autres, le symbole S, qui identifie les suites grammaticales (4ème élément du quadruplet) : S∈ N. Traditionnellement, les symboles non terminaux sont écrits en majuscules latines.
Le dernier élément, P, est un ensemble fini de "règles de production" ou "règle de ré-écriture". Chaque règle de P est de la forme : α → β où α∈(V∪ N)⁺ et β∈(V∪ N)^*. Ainsi, α et β sont des suites de symboles pris parmi les éléments de V et de N, avec la seule différence que β peut être une liste vide (β=ε est autorisé) mais pas α. Une telle règle doit être comprise comme : "α peut-être remplacé par β".

Etant donnée une grammaire G=<V, N, P, S> et une suite de symboles quelconque u∈(V∪ N)⁺, on dit que G permet de dériver v à partir de u en une seule étape, et on note u → v si les conditions suivantes sont réunies :

u peut se décomposer en trois morceaux : u=xαy avec α≠ε
la règle : α→β ∈ P
v=xβy.

Cela signifie que si une règle de la grammaire précise que "α peut être remplacée par β", cette règle peut s'appliquer à l'intérieur de n'importe quelle suite de symboles qui contient &alpha. Evidemment, on peut appliquer successivement autant de règles que l'on souhaite à une suite de symboles. On notera u &rarr^*v une dérivation en plusieurs étapes successives.

On appelle langage engendré (ou reconnu) par une grammaire G=< V, N, P, S> et on note L(G) l'ensemble des suites de symboles terminaux que l'on peut obtenir par dérivations successives en partant de l'unique symbole S. On a ainsi :
L(G)={w∈ V^*| S&rarr^* w}.

Donnons tout de suite un exemple simple où ces définitions s'appliquent. Soit la grammaire G=<V, N, P, S> définie par :

V={le, la, chat, souris, dort, mange}
N={S, GN, GV, Det, Nom, Vtr, Vintr}
P={S→₁ GN GV, GN→₂ Det Nom, GV→₃ Vintr, GV→₄ Vtr GN, Det→₅ le, Det→₆ la, Nom→₇ chat, Nom→₈ souris, Vintr→₉ dort, Vtr→₁₀ mange}

Montrons la séquence des dérivations successives qui justifie que "le chat mange la souris" fait partie du langage engendré par G. Pour rendre les choses encore plus claires, on a numéroté les règles et on souligne à chaque étape la portion de la suite qui est ré-écrite par la règle en question :
S→₁ GN GV
GN GV→₂ Det Nom GV
Det Nom GV→₅ le Nom GV
le Nom GV→₇ le chat GV
le chat GV→₄ le chat Vtr GN
le chat Vtr GN→₁₀ le chat mange GN
le chat mange GN→₂ le chat mange Det Nom
le chat mange Det Nom→₆ le chat mange la Nom
le chat mange la Nom→₈ le chat mange la souris
On a donc bien : S→^* le chat mange la souris.
L'ordre d'application des règles étant arbitraire, il existe d'autres séquences de dérivations qui produisent le même résultat. Elles correspondent aux différentes étapes de la construction de l'arbre de la figure 5.11. D'autres suites grammaticalement correctes peuvent être obtenues par cette grammaire comme : "la souris dort", ou "le chat mange le chat". Comme aucune contrainte d'accords en genre n'a été prise en compte dans ces règles, on peut aussi produire "la chat mange le souris". Pour remédier à ce problème, il faudrait introduire des symboles non terminaux distincts pour les catégories Det et Nom, suivant qu'ils sont masculins ou féminins, et adapter la règle 2 pour n'autoriser que les associations entre Det et Nom du même genre.

Cette présentation semble privilégier la capacité de synthèse des grammaires formelles. Elles peuvent en fait tout aussi bien servir en analyse : une phrase sera reconnue comme syntaxiquement correcte si, à partir de ses mots et en "remontant le sens" des règles de ré-écriture, on peut arriver au symbole S.

2.5

Transformation des automates et des RTRs en grammaires

N'importe quel automate ou RTR peut être transformé en une grammaire équivalente, c'est-à-dire reconnaissant exactement le même langage. Pour illustrer ce théorème mathématique (que nous ne chercherons pas à démontrer ici), commençons avec l'automate de la figure 5.7, qui reconnaît le langage L=la.Ferrari.passa.tres^*.vite. La grammaire G=<V, N, P, S> qui lui correspond est définie par :

V={la, Ferrari, passa, tres, vite}
N={S=Q₁, Q₂, Q₃, Q₄} : les états de l'automate correspondent aux symboles non terminaux de la grammaire (la lettre Q est traditionnellement utilisée pour nommer ces symboles). L'état initial joue le rôle de S, tandis que l'état final, qui sert ici uniquement de point d'arrivée pour une transition, n'a pas besoin, lui, de donner lieu à un symbole spécifique.
P={S→ la Q₂, Q₂→ Ferrari Q₃, Q₃→ passa Q₄, Q₄→ tres Q₄, Q₄→ vite}

Montrons par exemple comment cette grammaire génère la phrase "la Ferrari passa très très vite" :
S→ la Q₂
la Q₂→ la Ferrari Q₃
la Ferrari Q₃→ la Ferrari passa Q₄
la Ferrari passa Q₄→ la Ferrari passa tres Q₄
la Ferrari passa tres Q₄→ la Ferrari passa tres tres Q₄
la Ferrari passa tres Q₄→ la Ferrari passa tres tres vite
L'arbre qui rend compte de cette suite de dérivations est donné en figure 5.13

Figure 5.13 : arbre produit par une grammaire issue d'un automate

La boucle sur le mot "très" dans l'automate 5.7 était une source de "récursivité directe". On retrouve cette propriété au niveau des règles de ré-écriture de notre grammaire : en effet, la règle Q₄→ très Q₄, qui traduit cette boucle, a la propriété de produire le symbole non terminal Q₄ dont elle part. On peut donc l'utiliser un nombre quelconque de fois, chaque utilisation entraînant l'ajout d'une occurrence du mot "très" dans la phrase.

Par ailleurs on voit que, grâce à cette grammaire, on peut associer un arbre à chaque phrase du langage L. Mais les arbres obtenus ont une forme particulière : à l'image de celui de la figure 5.13, ils ne se développent toujours que "vers la droite". Pour des raisons naturelles, on appelle ce type d'arbre des "peignes". Les peignes ainsi obtenus ne coïncident pas nécessairement avec les structures identifiées par une analyse linguistique.

De manière générale, on suppose disposer d'un automate fini avec un unique état initial et un nombre quelconque d'états finaux (on peut toujours se ramener à un tel automate). Voici la méthode à employer pour transformer cet automate fini quelconque en une grammaire formelle :

le vocabulaire terminal V de la grammaire est identique au vocabulaire de l'automate ;
définir autant de symboles non terminaux Q_n qu'il y a d'états non terminaux n dans l'automate : l'état initial correspond au symbole S (Q₀=S) ;
pour tout état terminal m de l'automate à partir duquel part une transition, introduire un nouveau symbole Q_m non terminal dans la grammaire ;
pour toute transition étiquetée par un symbole terminal quelconque a∈V partant d'un état n et aboutisant à un état m dans l'automate :
- si m est un état terminal, ajouter la règle : Q_n → a
- si m n'est pas un état terminal, ou bien si m est terminal mais il existe une transition qui en part, alors ajouter la règle : Q_n → a Q_m

Les cas de récursivité indirectes seront eux aussi "lisibles" à partir des règles de la grammaire : par exemple, en traduisant l'automate de la figure 5.8, on va obtenir, entre autres, les deux règles suivantes :
Q₂ → père Q₅
Q₅ → du Q₂
En enchaînant ces deux règles, on peut encore produire le symbole dont on part : Q₂ →^* père du Q₂. De manière générale, chaque fois que, dans une grammaire, il existe un symbole non terminal Q tel qu'avec une succession de règles de P on obtient :
... Q ... →^* ... Q ...
alors cette grammaire est récursive et reconnaît une infinité de phrases.

On peut appliquer exactement le même traitement aux RTRs, pour les transformer en grammaires. Dans ce cas, la catégorie associée à un automate sert à étiqueter son état initial. Le RTR de la figure 5.12 peut, lui, être transformé encore plus simplement en la grammaire G=<V, N, P, S> définie par :

V={a,b}
N={S}
P={S→ ab, S→ aSb}

Cette grammaire produit par exemple la phrase "aaabbb" en lui associant l'arbre de la figure 5.14.

Figure 5.14 : arbre associé à "aaabbb"

2.6

Hiérarchie de Chomsky

Les sections précédentes montrent que la notion de grammaire formelle est plus générale que celle d'automate fini ou de RTRs, puisqu'on peut ramener chacun de ces deux formalismes à une grammaire. Mais nous avons aussi vu que les RTRs sont strictement plus expressifs que les automates finis, au sens où ils peuvent générer des langages qu'aucun automate ne peut produire. Aussi existe-t-il dans la famille des grammaires formelles plusieurs "classes" qui se distinguent, précisément, par leur "expressivité". La hiérarchie de Chomsky explicite la nature et les propriétés de ces classes. Combien en distingue-t-on et comment savoir à laquelle appartient une grammaire donnée ? Tout est dans la forme des règles de l'ensemble P. Soit une grammaire G=<V, N, P, S> :

si toutes les règles de P sont de la forme : A→ a ou A→ a B (ou bien si elle sont toutes de la forme : A→ a ou A→ B a) avec A,B∈N et a∈V, alors on dit que G est une grammaire rationnelle ou régulière, ou encore que G est de type 3. Les grammaires qui proviennent de la transformation d'un automate, comme expliqué dans la section précédente, sont de ce type et inversement, toute grammaire de ce type peut être transformée en un automate.
si toutes les règles de P ont une partie gauche réduite à un seul symbole non terminal, c'est-à-dire sont de la forme : A→ ... avec A∈N et n'importe quelle suite de (V∪N)^* à droite de la flèche, alors on dit que G est une grammaire hors-contexte (traduction de l'anglais "context-free") ou algébrique, ou encore que G est de type 2. Les grammaires qui proviennent de la transformation d'un RTR sont de ce type et inversement, toute grammaire de ce type peut être transformée en un RTR.
si toutes les règles de P sont telles que le nombre total de symboles de V ou de N à gauche de la flèche est toujours inférieur ou égal au nombre total de symboles à droite de la flèche, on dit que G est une grammaire sensible au contexte (traduction de l'anglais "context-sensitive") ou encore que G est de type 1.
toutes les grammaires formelles, quelle que soit la forme de leurs règles, sont de type 0.

Il y a donc 4 grandes familles de grammaires, emboîtées les unes dans les autres. Il est en effet facile de se convaincre que les critères qui caractérisent chacune de ces familles sont de moins en moins restrictifs : toute grammaire qui vérifie celui d'une certaine classe vérifie aussi nécessairement ceux des classes de type inférieur. On peut ainsi visualiser les ensembles de grammaires d'un type donné par la figure 5.15.

Figure 5.15 : les classes de grammaires de la hiérarchie de Chomsky

Cette hiérarchie sur les grammaires permet aussi, bien sûr, de classer les langages. Un langage L sur un vocabulaire V peut toujours être considéré comme une partie de V^* (la partie des suites d'unités syntaxiquement correctes). Un langage L est de type n s'il existe une grammaire G de type n telle que L(G)=L et si aucune grammaire de type m>n ne satisfait cette propriété. Par exemple, d'après ce que nous avons vu précédemment, on est assuré que le langage L=aⁿbⁿ est de type 2 (ou encore : "est un langage algébrique").

Certains des noms de ces classes proviennent de propriétés mathématiques que nous n'évoquerons pas. Mais, pour les grammaires de type 2, l'explication est simple : elles sont appelées "hors-contextes" parce que chacune de leurs règles de ré-écriture spécifient comment remplacer un symbole non terminal indépendamment du contexte dans lequel il se trouve, c'est-à-dire des symboles -terminaux ou non terminaux- qui sont ses voisins dans la chaîne de ré-écriture. Cette propriété nous assure que les structures produites par ces grammaires prennent toujours la forme d'arbres.

Au contraire, une grammaire de type 1 peut contenir des règles contextuelles. Prenons l'exemple de la grammaire de type 1 définie par les ensembles V={a,b,c}, N={S, A, B} et les règles : S→ aBSc, S→ aBc, Ba→ aB, Bc→ bc et Bb→ bb. Ces règles ne permettent jamais de raccourcir la chaîne en train d'être produite. La plupart d'entre elles autorisent simplement à déplacer certains symboles ou à remplacer un symbole non terminal par un terminal, mais uniquement s'il se trouve dans un certain contexte, spécifié par ses symboles voisins. Cette grammaire permet d'engendrer le langage L=aⁿbⁿcⁿ (n≥ 1) qui, pour des raisons similaires à celles détaillées en section 2.2 (il existe un "lemme de pompage" adapté aux structures arborescentes), est impossible à produire par une grammaire de type 2 ou par un RTR. Montrons par exemple la séquence de dérivations générant aabbcc (en soulignant chaque fois les suites de symboles correspondant aux parties gauches des règles de ré-écriture) :
S→ aBSc
aBSc→ aBaBcc
aBaBcc→ aaBBcc
aaBBcc→ aaBbcc
aaBbcc→ aabbcc
Cette séquence de dérivations n'est pas représentable dans un arbre.

Pour synthétiser toutes ces propriétés, nous les résumons dans le tableau suivant :

type	nom des grammaires	forme des règles	structures produites	exemple typique	modèle équivalent
3	régulières ou rationnelles	A→ a ou A→ aB	peignes	a^*=aⁿ	automates finis
2	hors-contextes ou algébriques	A→ ...	arbres	aⁿbⁿ	RTRs
1	sensibles au contexte	α→ β avec \|α\|≤\|β\|	?	aⁿbⁿcⁿ	existe mais compliqué
0	quelconques	quelconque	quelconques	quelconques	machines de Turing !

2.7

Position des langues naturelles dans la hiérarchie de Chomsky

A quelle classe de la hiérarchie de Chomsky appartiennent donc les langues naturelles ? La question a été un sujet de débat intense dans la communauté des linguistes-informaticiens. La réponse peut d'ailleurs varier suivant qu'on se contente d'une simple adéquation au critère de grammaticalité appliqué aux phrases, tel que formulé en section 1.1, ou qu'on exige une adéquation plus forte des structures produites par la grammaire aux analyses linguistiques.

Les arguments présentés en section 2.2 tendent tous à montrer que les langues naturelles ne sont pas de type 3. Le fait, désormais clairement établi, que les automates ne produisent que des peignes, alors qu'une analyse en termes de syntagmes requiert des arbres, est à lui seul assez rédhibitoire si on attache de l'importance à cette notion de structure. A contrario, la classe des grammaires de type 2, ou algébriques, est un candidat qui présente de sérieux arguments. Pourtant, nous avons aussi déjà vu en section 1.5 que certaines analyses syntaxiques ne pouvaient pas se contenter de représentations sous forme d'arbres : or, les arbres sont les seules stuctures produites par ces grammaires.

Dispose-t-on, comme c'était le cas pour les automates, d'exemples de langages impossibles à produire par les grammaires algébriques, et pourtant intégrées dans certaines langues naturelles ? Il semble bien que oui... Nous avons déjà évoqué le langage aⁿbⁿcⁿ, qui ne peut être engendré que par une grammaire de type 1. Un autre exemple est le langage {ww|w∈V^*}, c'est-à-dire l'ensemble des suites de symboles (terminaux) quelconques répétées deux fois successivement à l'identique. On peut se convaincre assez facilement que, pour obtenir de telles chaînes, il est nécessaire de générer en même temps les mêmes symboles dans chacune des deux suites -ce qui équivaut bien à avoir une structure avec des branches "qui se croisent", comme sur la figure 5.16, où w=u₁u₂u₃.... Les grammaires de type 2 sont impuissantes à réaliser cela.

Figure 5.16 : relations croisées dans une phrase de la forme ww où

Or, certains linguistes prétendent avoir reconnu des constructions relevant d'un des deux langages précédents dans le dialecte suisse alémanique, ou dans le génitif en géorgien ancien (authentique !), ou encore dans la manière de compter en chinois... L'argument, qui bien sûr suppose aussi l'adhésion préalable à la distinction compétence/performance, est plus difficile à vérifier que celui qui portait sur les propositions relatives enchassées, mais il est de même nature.

Si on accepte cet argument, est-on pour autant contraint de se rabattre sur le candidat suivant de notre liste : la classe des grammaires de type 1 ou contextuels ? Et bien non ! En effet, depuis quelques années, une classe intermédiaire contenant toutes les grammaires de type 2 mais strictement plus petite que l'ensemble de celles de type 1 a été identifiée : on l'appelle la classe des grammaires légèrement sensibles au contexte (traduction anglaise de "middly context-sensitive"). On ne peut malheureusement pas définir cette nouvelle classe aussi facilement que les autres, en posant des contraintes sur la forme des règles. Mais elle présente toutes les "bonnes propriétés" qu'on pouvait espérer : les grammaires qui en font partie permettent de produire les langages précédemment évoqués, et l'analyse syntaxique y est réalisable par des algorithmes efficaces. Plusieurs formalismes ont été proposés pour caractériser les grammaires "légèrement sensibles au contexte": le plus célère d'entre eux est celui des "tree adjoining grammars" ou TAG.

Un certain consensus existe désormais autour de l'idée que la quasi-totalité des langues naturelles sont "légèrement sensibles au contexte". Mais le débat n'est pas totalement clos.

2.8

Autres formalismes

On l'a déjà dit : le domaine de la syntaxe est celui qui, depuis 1957 (date de la publication de "Syntactic Structures"), a cristallisé le plus d'efforts de formalisation. Autant dire que ces quelques pages ne peuvent qu'en donner une vision très partielle. La présentation qui en a été faite ici se focalise sur la théorie des langages, qui constitue en quelque sorte le socle commun sur lequel peuvent s'appuyer aussi bien les linguistes que les informaticiens. Elle repose sur la notion de syntagmes, et sur les grammaires formelles dîtes syntagmatiques qui les explicitent.

Les langues naturelles ne sont pas toujours faciles à décrire avec ce formalisme : celles, par exemple, où les relations syntaxiques s'expriment par des déclinaisons plus que par l'ordre des mots, posent des problèmes spécifiques. Les accords en genre et en nombre des langues romanes (comme le français) obligent également à la mise en place de mécanismes particuliers. Les grammaires formelles décrites précédemment sont donc en fait très difficilement exploitables telles quelles en traitement des langues. Mais elles ont donné naissance à une nombreuse progéniture.

De manière générale, on appelle grammaire de constituants tout formalisme qui réalise des analyses syntaxiques sous la forme de groupes de mots consécutifs récursivement emboîtés les uns dans les autres. On peut rattacher à cette famille les grammaires LFG, GPSG, HPSG...

La principale alternative à ce choix est représentée par les grammaires de dépendances, déjà évoquées en section 1.5. Dans les formalismes de cette famille, les relations de dépendances entre couples de mots remplacent les constituants. Il existe aussi, bien sûr, des systèmes hybrides qui, tout en construisant une analyse de type syntagmatique, marquent des relations de dépendances.

Les formalismes le plus en usage ces dernières années, quels que soient par ailleurs leurs partis-pris théoriques, ont un point commun : ils sont presque tous lexicalisés. Un formalisme lexicalisé opère une distinction claire entre les informations syntaxiques rattachées aux éléments de son vocabulaire (terminal) d'une part, et les règles qui permettent de combiner entre elles ces informations d'autre part. L'idéal est de disposer d'un nombre restreint de règles génériques, communes à toutes les instances de grammaires du formalisme. Ce qui distingue une grammaire d'une autre se limite alors aux informations rattachées à chacun de ses mots. Le principal intérêt de cette distinction est de faciliter les procédures de mises à jour : puisque les règles sont fixées une fois pour toute, seules les informations lexicales peuvent éventuellement être modifiées. Les formalismes lexicalisés les plus connus sont : les grammaires d'unification, les grammaires catégorielles et les LTAG (variante lexicalisée des TAG, évoquées en section précédente). Un exemple de grammaire catégorielle élémentaire est défini et utilisé plus loin, en chapitre 7, section 2.3.

Enfin, un dernier type de formalisme occupe une place un peu à part dans ce panorama : celui des grammaires minimalistes, qui essaient de formaliser les derniers écrits de Chomsky sur la syntaxe. C'est un modèle lexicalisé, qui ne fait usage que de deux règles génériques : une règle de "fusion" et une règle de "déplacement". Sa particularité est de faire l'hypothèse que certaines constructions syntaxiques sont le résultat de déplacements de constituants qui laissent derrière eux des "traces". Une trace est en quelque sorte la "place vide" laissée par un constituant qui a été déplacé : bien qu'invisible, elle est censée avoir des effets mesurables sur l'ensemble de la phrase dont elle fait partie.

L'expressivité de ces formalismes est variable : certains ne peuvent engendrer que les langages appartenant à une certaine classe de la hiérarchie de Chomsky, d'autres sont plus génériques. L'étude des propriétés de ces modèles, leurs extensions et leurs comparaisons sont encore des thème de recherche très actifs à l'heure actuelle.

2.9

Sites Web

Pour s'initier aux grammaires formelles, on pourra avec profit télécharger le petit programme pédagogique "Gram" de Jean Véronis (uniquement pour Windows) :
www.up.univ-mrs.fr/veronis/logiciels/index.html

Il existe par ailleurs de très nombreux programmes, gratuits ou payants, qui implémentent une grammaire d'une langue donnée, dans un formalisme particulier. Aucun n'a pourtant la prétention de modéliser la compétence complète d'un locuteur de cette langue (tous ont leurs points faibles). Il existe aussi des "chunk parsers" ou encore des "shallow parsers", qui réalisent des analyses syntaxiques partielles, "superficielles", au sens où ils se contentent d'identifier certains constituants non récursifs, sans aller jusqu'à poduire une structure complète.

Les sites suivants permettent de produire des analyses syntaxiques en ligne dans diverses langues, et suivants divers formalismes :

Il nous reste maintenant à aborder le dernier niveau de l'analyse linguistique : le niveau sémantique, celui qui traite de la question du sens qui peut être associé à une unité ou à une suite d'unités lexicales. Le principal intérêt d'une langue, c'est en effet qu'elle est signifiante : elle permet de véhiculer du sens. La sémantique est ainsi beaucoup plus qu'un niveau "de plus" dans la chaîne des traitements linguistiques : c'est tout simplement sa justification, sa raison d'être. Dans notre schéma inaugural de la figure 2.1, la sémantique constitue une "dimension" spécifique de l'analyse du langage, et elle se décline en deux niveaux distincts : celui de la sémantique lexicale, et celui de la sémantique propositionnelle. Chacun de ces deux niveaux mérite attention et étude spécifiques, et sont donc l'objet des deux chapitres qui suivent.