Introduction

Introduction

Il ne leur manque que la parole ! Ce que l'on disait volontiers des animaux de compagnie il y a quelques années, on pourrait le formuler maintenant à l'intention des ordinateurs, nos compagnons familiers d'aujourd'hui. Le rêve de dialoguer "naturellement" avec des machines comme avec ses semblables est bien ancré dans l'imaginaire occidental. Tous les films de science-fiction se font l'echo de ce fantasme : impossible d'imaginer un robot un tant soit peu évolué qui n'aurait pas la capacité de parler. En 1950, Turing, le père fondateur de l'informatique, prédit que "dans 50 ans", les ordinateurs auront acquis cette capacité. L'échéance est passée sans que la prédiction ne se réalise. Pourtant, dans le domaine de la technologie numérique, beaucoup de rêves apparemment plus fous ont été largement dépassés. Aujourd'hui, les ordinateurs battent les grands maîtres d'échecs à plate couture, mais ils n'ont toujours pas les compétences langagières d'un enfant de 5 ans. Comment cela se fait-il ? En quoi la capacité de langage est-elle si difficile à "programmer" ? C'est à l'exploration de ces questions que nous invitons dans ce document.

Les travaux de recherche sur le sujet n'ont pourtant pas manqué, et ceci depuis les tout débuts de l'informatique. Une des premières conférences réunissant les pionniers de cette discipline, dans les années 50, portait sur la "traduction automatique". Le contexte politique était propice au développement de la thématique : l'époque était à la guerre froide et intercepter, décoder, traduire automatiquement les messages que s'échangeaient les "rouges" entre eux était pour les Américains un objectif stratégique. Mais l'histoire de ces tentatives est restée longtemps une succession d'échecs et de déconvenues. C'est l'histoire, en fait, d'une prise de conscience pour les informaticiens de ce que les linguistes savaient depuis longtemps : l'extrême complexité des langues naturelles.

Dans les années 70 et 80, les "systèmes experts" (programmes qui simulent, sous la forme de règles, les connaissances d'un expert, pour reproduire son mode de raisonnement) sont à l'honneur. Ils font les beaux jours de "l'intelligence artificielle" dont ils sont alors la principale vitrine. Le thème général du "traitement automatique du langage naturel" (TALN), lui, franchit plus rarement les frontières des laboratoires. Mais il fédère déjà les efforts de nombeux chercheurs. A l'image de ce qui se fait avec les "systèmes experts", on essait alors de ramener l'usage du langage à des règles symboliques. Beaucoup de concepts et de modèles évoqués dans les chapitres qui suivent datent de cette époque.

Les années 90 voient arriver des changements considérables : banalisation des ordinateurs personnels, avec des capacités de stockage et de traitement en progression exponentielle, apparition du Web. L'"ingénierie linguistique" naît à ce moment-là. Nous désignerons par ce terme la branche "utilitaire" des recherches en TALN, celles qui donnent lieu à des programmes applicables à des données réelles. Ces données ne manquent pas. Les textes représentent en effet une grande part de ce qui encombre depuis lors la mémoire des ordinateurs personnels, et constituent l'essentiel de ce qui est disponible sur le Web (l'émergence des sons et des images est plus récente). Tout ce qui peut aider à classer ou traiter les documents textuels, à extraire l'information qu'ils contiennent, devient un enjeu majeur. L'ingénierie linguistique se met ainsi au service de la "fouille de textes". Les approches symboliques laissent souvent la place à des méthodes statistiques.

Dans ce document, nous allons tout d'abord, dans le chapitre 2, parcourir un peu plus précisément l'histoire des liens entre la linguistique et l'informatique, en insistant notamment sur les "niveaux d'analyse" auxquels on peut soumettre le langage. Les chapitres 3 à 7 passent ensuite en revue chacun de ces niveaux. Pour chacun d'eux, nous adoptons une stucture commune avec une partie "description linguistique", puis une sur sa "modélisation informatique". Une liste de ressources relevant de l'ingénierie linguistique (sites Web ou programmes gratuits) mettant oeuvre certains de ces modèles clôt chaque chapitre.

Le chapitre 8 est un peu à part. Il présente quelques-unes des tâches principales de la "fouille de textes" qui, sans être des tâches de traitement de la langue proprement dîtes, bénéficient de techniques issues de l'ingénierie linguistiques. Tout le parcours des recherches en TALN qui aura été évoqué auparavant prendra alors un autre sens. Peut-être n'aurons-nous pas de si tôt des ordinateurs de compagnie avec qui papoter, mais certains outils d'ingénierie linguistique, eux, sont d'ors et déjà intégrés dans des programmes informatiques que nous utilisons tous les jours...