Il ne leur manque que la parole ! Ce que l'on disait volontiers des
animaux de compagnie il y a quelques années, on pourrait le formuler
maintenant à l'intention des ordinateurs, nos compagnons familiers
d'aujourd'hui. Le rêve de dialoguer "naturellement" avec des
machines comme avec ses semblables est bien ancré dans l'imaginaire
occidental. Tous les films de science-fiction se font l'echo de ce
fantasme : impossible d'imaginer un robot un tant soit peu évolué qui
n'aurait pas la capacité de parler. En 1950, Turing, le père fondateur
de l'informatique, prédit que "dans 50 ans", les ordinateurs auront
acquis cette capacité. L'échéance est passée sans que la prédiction ne
se réalise. Pourtant, dans le domaine de la technologie numérique,
beaucoup de rêves apparemment plus fous ont été largement
dépassés. Aujourd'hui, les ordinateurs battent les grands maîtres
d'échecs à plate couture, mais ils n'ont toujours pas les compétences
langagières d'un enfant de 5 ans. Comment cela se fait-il ? En quoi la
capacité de langage est-elle si difficile à "programmer" ? C'est à
l'exploration de ces questions que nous invitons dans ce document.
Les travaux de recherche sur le sujet n'ont pourtant pas manqué, et
ceci depuis les tout débuts de l'informatique. Une des premières
conférences réunissant les pionniers de cette discipline, dans les
années 50, portait sur la "traduction automatique". Le contexte
politique était propice au développement de la thématique : l'époque
était à la guerre froide et intercepter, décoder, traduire
automatiquement les messages que s'échangeaient les "rouges" entre
eux était pour les Américains un objectif stratégique. Mais l'histoire
de ces tentatives est restée longtemps une succession d'échecs et de
déconvenues. C'est l'histoire, en fait, d'une prise de conscience pour
les informaticiens de ce que les linguistes savaient depuis longtemps
: l'extrême complexité des langues naturelles.
Dans les années 70 et 80, les "systèmes experts" (programmes qui
simulent, sous la forme de règles, les connaissances d'un expert, pour
reproduire son mode de raisonnement) sont à l'honneur. Ils font les
beaux jours de "l'intelligence artificielle" dont ils sont alors la
principale vitrine. Le thème général du "traitement automatique du
langage naturel" (TALN), lui, franchit plus rarement les frontières
des laboratoires. Mais il fédère déjà les efforts de nombeux
chercheurs. A l'image de ce qui se fait avec les "systèmes experts",
on essait alors de ramener l'usage du langage à des règles
symboliques. Beaucoup de concepts et de modèles évoqués dans les
chapitres qui suivent datent de cette époque.
Les années 90 voient arriver des changements considérables :
banalisation des ordinateurs personnels, avec des capacités de
stockage et de traitement en progression exponentielle, apparition du
Web. L'"ingénierie linguistique" naît à ce moment-là. Nous
désignerons par ce terme la branche "utilitaire" des recherches en
TALN, celles qui donnent lieu à des programmes applicables à des
données réelles. Ces données ne manquent pas. Les textes représentent
en effet une grande part de ce qui encombre depuis lors la mémoire des
ordinateurs personnels, et constituent l'essentiel de ce qui est
disponible sur le Web (l'émergence des sons et des images est plus
récente). Tout ce qui peut aider à classer ou traiter les documents
textuels, à extraire l'information qu'ils contiennent, devient un
enjeu majeur. L'ingénierie linguistique se met ainsi au service de la
"fouille de textes". Les approches symboliques laissent souvent la
place à des méthodes statistiques.
Dans ce document, nous allons tout d'abord, dans le chapitre
2, parcourir un peu plus précisément l'histoire des
liens entre la linguistique et l'informatique, en insistant notamment
sur les "niveaux d'analyse" auxquels on peut soumettre le
langage. Les chapitres 3 à 7
passent ensuite en revue chacun de ces niveaux. Pour chacun d'eux,
nous adoptons une stucture commune avec une partie "description
linguistique", puis une sur sa "modélisation informatique". Une
liste de ressources relevant de l'ingénierie linguistique (sites Web
ou programmes gratuits) mettant oeuvre certains de ces modèles clôt
chaque chapitre.
Le chapitre 8 est un peu à part. Il présente
quelques-unes des tâches principales de la "fouille de textes" qui,
sans être des tâches de traitement de la langue proprement dîtes,
bénéficient de techniques issues de l'ingénierie linguistiques. Tout
le parcours des recherches en TALN qui aura été évoqué auparavant
prendra alors un autre sens. Peut-être n'aurons-nous pas de si tôt des
ordinateurs de compagnie avec qui papoter, mais certains outils
d'ingénierie linguistique, eux, sont d'ors et déjà intégrés dans des
programmes informatiques que nous utilisons tous les jours...