Aspects acoustiques du langage

Aspects acoustiques du langage

Les langues naturelles sont avant tout orales ; beaucoup n'ont d'ailleurs pas de transcription écrite. Il est donc naturel que de nombreuses propriétés de ces langues découlent de considérations acoustiques. Nous évoquons brièvement les principales dans les sections qui suivent. Comme l'objectif final de ce document est de présenter les techniques et outils de traitements de textes numériques, les données qui nous intéressent relèvent en général plus de l'écrit que de l'oral. Mais certains documents écrits peuvent être la transcription de données orales (avec un alphabet phonétique, par exemple). Nous abordons donc ici rapidement les aspects oraux du langage, dans le but d'introduire les concepts fondamentaux du domaine, et aussi d'illustrer certains modes de raisonnements linguistiques ou certains modèles informatiques qui seront repris, plus tard, à d'autres niveaux d'analyse.

1	Description linguistique

1.1

Phonétique

La phonétique est la branche de la linguistique qui étudie les sons des langues naturelles, indépendamment de leur sens. Pour caractériser les sons émis par des humains qui parlent, on peut partir de leurs descriptions physiques, telles que les mesurent des dispositifs électro-acoustiques comme les oscillogrammes et les spectrogrammes (cf. les diagrammes de la figure 3.1).

Figure 3.1 : oscillogramme (en haut) et spectrogramme (en bas) d'une onde acoustique correspondant à la prononciation d'un morceau de phrase

Dans ces deux types enregistrements, l'axe horizontal marque le déroulement du temps. L'oscillogramme traduit par le mouvement d'une aiguille les variations de l'onde acoustique, tandis que le spectogramme enregistre, pour chaque fréquence sonore (déroulées sur l'axe des ordonnées), l'amplitude (en décibels) de cette fréquence, et la traduit dans l'intensité du pixel correspondant. La phonétique acoustique étudie les propriétés de diagrammes de ce genre.

L'inconvénient de telles descriptions, qui sont de nature continue, est qu'elles ne rendent pas compte du fait que ces sons sont émis par des organes humains. La phonétique articulatoire va, elle, s'attacher à étudier les sons élémentaires d'une langue via la configuration physiologique nécessaire pour les produire. Ainsi, chaque émission vocale peut être décrite par un ensemble de traits articulatoires caractérisant la position des organes intervenant dans la prononciation (langue, gorge, glotte, nez et lèvres). Voici un exemple de description articulatoire (les transcriptions phonétiques sont toujours notées entre crochets) :
[t] : consonne occlusive sourde dentale non nasale
Elle peut être paraphrasée (à la façon du "maître de philosophie" faisant la leçon à M. Jourdain dans Le Bourgeois gentilhomme) comme suit :

consonne : un son qui est produit grâce à un obstacle
occlusive : l'obstacle doit être total
sourde : et ne pas générer de vibrations
dentale : on l'obtient en mettant la langue sur les dents
non nasale : sans qu'aucun air ne passe dans le nez

Toutes les propriétés ainsi détaillées doivent être réalisées en même temps pour que le son soit correctement produit. Une telle description est de nature discrète et représente une certaine abstraction par rapport à la description physique : elle ne tient pas compte des différences physiologiques pouvant exister entre deux individus dont les émisssions varient en timbre, en hauteur et en intensité. Des alphabets phonétiques ont ainsi été définis, dans lesquels chaque symbole correspond à un ensemble de traits articulatoires. Le plus utilisé est l'API (Alphabet Phonétique International) ; il est censé permettre de transcrire les productions orales de n'importe quelle langue naturelle. Il existe depuis 1888, sa dernière révision date de 1993.

1.2

Phonologie

Ce ne sont pourtant pas les éléments de cet alphabet qui constituent les unités de base de l'analyse du langage, parce que les sons ainsi décrits ne sont pas tous pertinents pour une langue donnée. En fait, chaque langue opère une sélection dans la liste des sons que la physiologie rend possibles. Et, parmi les sons "adoptés", elle opère un regroupement en classes d'équivalences. Deux sons élémentaires appartiennent à des classes différentes s'il est possible de trouver deux unités lexicales (c'est-à-dire, pour simplifier, deux mots) différentes (c'est-à-dire associées à des signifiés différents) qui ne diffèrent d'un point de vue acoustique que par ces deux sons. On appelle un tel couple de mots une "paire minimale". Inversement, ils sont équivalents (et appartiennent donc à la même classe) s'il est impossible de trouver deux unités lexicales différentes qui ne diffèrent que par ces deux sons. Par exemple :

"zona" et "sauna" sont des mots différents en français, et ils ne diffèrent que par leur son initial. Ces deux sons ne sont donc pas équivalents en français. Ils le sont pourtant en espagnol, où ils ne permettent de faire la distinction d'aucun couple de mots.
"cote" et "côte" sont des mots différents et ils ne diffèrent que par leur voyelle centrale : ces deux sons ne sont donc pas équivalents en français (même si leur distinction a tendance à s'estomper dans la langue parlée).
en français, le fait de "rouler les r", de les "grasseyer" (comme Edith Piaf) ou de les prononcer "normalement" ne permet de distinguer aucun mot. Ces trois sons sont donc équivalents en français, où ils peuvent au plus passer pour une pointe d'accent mériodional ou vieillot. En espagnol, en revanche, on peut distinguer "pero" (mais) et "perro" (chien) par le fait de rouler ou non le son "r". Ces deux sons ne sont pas équivalents dans cette langue.

Deux sons sont ainsi équivalents si, en remplaçant l'un par l'autre, le mot prononcé reste le même. La relation d'équivalence considérée est donc celle de substituabilité en préservant l'identité de l'unité de niveau supérieur. Une classe d'équivalence de sons élémentaires distinctifs dans une langue donnée est appelée un phonème. Les exemples précédents montrent que la notion de phonème ne coïncide ni avec celle de son élémentaire, ni avec celle de caractère alphabétique, et que chaque phonème est spécifique d'une langue donnée.

La phonologie est la branche de la linguistique qui étudie les propriétés des phonèmes. La transcription phonologique d'un énoncé peut se coder en utilisant certains des symboles de l'API mis entre barres obliques. Par exemple, le phonème correspondant à toutes les prononciations possibles de "r" en français est noté /r/. Le français comprend environ 33 phonèmes : 20 consonnes et 13 voyelles (le nombre de voyelles a tendance à baisser).

1.3

Autres aspects acoustiques

La phonétique et la phonologie n'épuisent pas la description acoustique d'une langue. Dans certaines langues, comme l'anglais, chaque mot reçoit un accent tonique qui se traduit par une augmentation de l'intensité (et/ou de la hauteur) de la voix lors de la prononciation de la syllabe sur laquelle il est localisé.

Dans les "langues à tons", comme le chinois et la plupart des langues du monde, le même son, suivant la tonalité avec laquelle il est prononcé, peut changer le sens du mot dont il fait partie. Ces propriétés sont de nature discrète et peuvent être reproduites à l'écrit par des symboles spécifiques. On admet généralement qu'elles ne concernent pas la langue française.

Enfin, on désigne par prosodie les règles de prononciation globales qui influent sur la mélodie d'un énoncé. En français, suivant l'intonation qu'on y met, "tu viens demain" peut devenir une affirmation, un ordre ou une question sans que le sens des mots présents ne change pour autant. La prosodie est de nature continue. Quelques modes de codages discrets ont toutefois été proposés pour l'intégrer à la transcription écrite de données orales.

2	Modélisation informatique

Encore une fois, la modélisation de l'oral n'est pas notre objectif principal. Le domaine se rattache plutôt au "traitement du signal", branche de l'électronique et de l'automatique plus que de l'informatique, parce qu'elle traite de données continues. Mais certaines des techniques utilisées pour manipuler des données orales sont aussi employées à d'autres fins. Et puis, nous voulons surtout ici faire "sentir" la nature des problèmes qui se posent.

2.1

Domaines et problèmes

Il existe de très nombreuses applications, y compris "grand public", au traitement de la langue en tant que "signal sonore". Nous citons ici les principales :

en analyse : la reconnaissance vocale peut servir à identifier un locuteur par sa voix, à identifier la langue qu'il parle, à reconnaître l'ordre qu'il donne ou à transcrire automatiquement, sous forme écrite, ce qu'il dit. Dans ce dernier cas, on passe généralement par deux étapes successives : d'abord une transcription du son en une séquence de phonèmes, puis en un texte écrit.
en synthèse : il s'agit cette fois de produire une lecture orale à partir d'un texte écrit. Cela revient donc principalement à transformer un texte en une succession de phonèmes, puis en une émission acoustique.

En analyse, de nombreuses difficultés doivent être surmontées : tout d'abord, il faut distinguer le son de la voix des bruits environnants et adapter le système au timbre et à la hauteur de voix du locuteur. Les systèmes monolocuteurs, c'est-à-dire destinés à n'être utilisés que par une seule personne, nécessitent en général une phase d'apprentissage au cours de laquelle il est demandé à cette personne de lire un texte standard : cette phase sert à calibrer la valeur de certains paramètres acoustiques. Ces derniers ne doivent pas pour autant être trop rigidement fixés, pour éviter que le système échoue en cas de modification momentanée de la voix du locuteur, parce qu'il est stressé, malade ou enrhumé, par exemple. Quant aux systèmes multilocuteurs, ils doivent être capables de s'adapter aux variations interindividuelles.

La difficulté majeure à affronter est apparemment celle de la segmentation du flux continu de paroles en unités discrètes. Une fois ce découpage réalisé, identifier le phonème correspondant à chaque unité n'a encore rien d'immédiat. Un même phonème peut être prononcé de façons très différentes, suivant son voisinage avec les autres phonèmes (un /a/ en début ou en fin de mot ne se prononce pas du tout de la même façon), et certains phonèmes ont tendance à être "avalés" dans une prononciation courante.

Pour passer d'une séquence de phonèmes à un texte écrit, il reste à opérer des regroupements, là encore pas toujours évidents à faire, et à éventuellement retrouver parmi des homophones, c'est-à-dire des mots qui se prononcent de la même façon, celui qui doit est utilisé dans la transcription. Parfois, seuls des critères sémantiques permettraient de faire ce choix. Le petit poème suivant, cité par Henri Morier dans son Dictionnaire de poétique et de rhétorique (PUF, 1981) l'illustre de façon ludique :

Gall, amant de reine, alla, tour magnanime,

Galamment de l'arène à la tour Magne, à Nîme,

Dans ces meubles laqués, rideaux et dais moroses

Danse, aime, bleu laquais, ris d'oser des mots roses.

Il y a aussi le problème de la ponctuation, des abbréviations, des nombres, etc. qui nécessitent un traitement spécifique pour être correctement traduits en symboles graphiques. Enfin, pour que le texte écrit final soit correct, il faut aussi tenir compte des accords, et donc de la syntaxe. On commence ainsi à voir que les différents niveaux d'analyse sont souvent interdépendants, et difficiles à isoler les uns des autres dans un traitement.

La synthèse vocale pose, a priori, moins de difficultés, mais elle doit tout de même surmonter quelques pièges. L'un d'eux provient des homographes hétérophones, c'est-à-dire des mots qui s'écrivent de la même façon mais ne se prononcent pas pareil. Le petit texte suivant en est truffé :

Note aux élus qui au Conseil président et au président de la république d'Egypte

Il faut que nous adoptions pour les adoptions des mesures favorables afin que cesse un trafic dénoncé par M. Jean, célèbre reporter. Reporter ce débat serait pure folie. "Dans notre pays il devient impossible d'adopter un fils tant les fils des lacs de l'administration sont troubles comme les eaux des lacs et étriqués comme un jean, dit Jean, et, pour les démêler, vous en suez. Or, à Suez, une mater et les soeurs d'un couvent couvent un réseau à mater. Elles échangent des orphelins mal nourris contre dations." Nous dations de 1995 ces propos dans notre précédent rapport. Intervenir devient urgent, comme urgent ces options à prendre. Il faut que nous options pour l'abolition de ce genre d'exécutions ; nous exécutions des contrôles dans plusiseurs de ces établissements d'un seul jet ; nous affrétions un jet chargé de rations de riz ; nous ne rations pas une occasion de stopper ce trafic influent dont les chefs influent sur vos relations (nous en relations hier encore dans la presse). Donc, il convient que les élus convient les autorités à affronter les problèmes là où ils résident. Un résident confirme : si nous intentions un procès, nos intentions seraient louées puisqu'elles coïncident avec le désir (coïncident à la venue du pape) de démanteler cette mafia. Que nous transitions par Rome s'impose donc sans transitions. Comment se fier à celles qui se parent de cornettes, content des sornettes et violent les lois, et rester un fier citoyen, voire parent adoptif et content de l'être, mais non violent ?

Ici aussi, ce sont plutôt des critères syntaxico-sémantiques qui devraient aider à choisir la bonne prononciation. Enfin, pour restituer à un système artificiel une diction "naturelle", il faut aussi tenir compte des règles de prononciation (quand un "e" est muet ou pas, etc.), de la ponctuation, des enchaînements et des liaisons. La synthèse d'une certaine prosodie, voire d'émotions quand le texte le justifie, est aussi assez délicate.

2.2

Outils formels ou statistiques utilisés

Pour programmer un système de reconnaissance ou de synthèse vocale, de nombreuses techniques ont été testées. Nous nous concentrons ici sur les systèmes d'analyse, qui posent plus de problèmes. A une certaine époque, on a par exemple tenté de traduire sous la forme de "bases de connaissances" façon "systèmes experts" les règles d'identification des phonèmes. Une règle typique d'un système de ce genre serait de la forme :
SI le spectrogramme montre une "barre d'explotion" ET est immédiatement suivi d'une "voyelle arrière-droite" ALORS la consonne correspondante est une "dentale" (c'est-à-dire /d/ ou /t/).

On peut aussi disposer de bibliothèques d'exemples de prononciations de succesions de phonèmes déjà connus, et chercher, face à un nouvel exemple, celui qui s'en approche le plus dans la bibliothèque.

Mais les méthodes les plus performantes en la matière font appel à des techniques avancées en traitement du signal et à des modèles statistiques. Un exemple de modèle statistique élémentaire est ce qu'on appelle un "n-gramme". Un "n-gramme" est simplement une succession de n éléments. Par exemple, si on prend n=2, on obtient des bi-grammes. Modéliser les successions de phonèmes en français par des bi-grammes, cela signifie inventorier tous les couples de phonèmes successifs possibles et calculer, pour chacun d'eux, leur fréquence d'apparitions dans la langue. Pour faire ce calcul, on doit disposer d'un échantillon significatif de données, présentes dans corpus. Certains couples comme /de/ ou /du/ seront très fréquents, d'autres très rares voire toujours absents (comme /pz/). Avec un n-gramme, on fait en général l'hypothèse que le n ième élément d'une suite ne dépend que des n-1 ièmes qui le précèdent. Ainsi, si on a déjà identifié dans un traitement un certain phonème, on dispose grâce aux bi-grammes de la probabilité d'apparition du phonème qui le suit immédiatement. Cette valeur aide à sélectionner parmi les phonèmes possibles celui qui a le plus de chances d'être présent. C'est un premier exemple d'apprentissage automatique à partir de données. Nous en évoquerons d'autres dans le chapitre 8. Plus on choisit une grande valeur de n, meilleure sera la prédiction. Mais le recueil des données nécessaires au calcul des fréquences d'apparition grandit lui aussi... Evidemment, il existe des modèles statistiques fondés sur des hypothèses nettement plus sophistiquées.

On trouve dans le commerce à l'heure actuelle des systèmes de reconnaissance vocale très efficaces. Leurs performances dépendent néanmoins beaucoup de l'environnement (plus ou moins bruyant) et des conditions d'utilisation : un texte lu devant un micro, parlé au téléphone ou capté lors d'un dialogue ne sera pas du tout reconnu de la même façon. Les meilleurs systèmes sont capables de reconnaître un flux de parole continu en faisant moins de 5% de fautes. Des systèmes de synthèse vocale fonctionnent également très bien.

2.3

Sites Web

Plusieurs sites réalisent des synthèses vocales en ligne de différentes langues, en laissant l'utilisateur fixer un certain nombre de paramètres (timbre, sexe, hauteur de la voix), et parfois en lui permettant de visualiser le résultat d'analyses intermédiaires réalisées par le programme. Pour les mettre en difficulté sur le français, il suffit de leur soumettre les phrases du texte de la section 2.1. On peut aussi facilement simuler les accents nationaux, en demandant à une voix de faire la synthèse d'un texte écrit dans une autre langue que celle pour laquelle elle a été prévue...