3. Prétraitement du texte - Archive ouverte HAL
Exercice 1 - Corrigé. Pour chacune des .... Exercice 2 - Corrigé ...... Retrouver la
valeur du bâtiment, du mobilier de bureau et du matériel industriel. Présenter les
...
part of the document
d the private sector. The input text goes through a succession of five modules (preprocessing, syntactic analysis, prosodic generation, phonemisation, acoustico-phonetic processing) and is then pronounced. Its best feature is intelligibility at rapid delivery.
In this paper, the general architecture of the system and the main principles which were carried out for the development of the different units called for generating the speech signal are presented.
Mots clés :
Synthèse vocale, syntaxe, prosodie, transcription graphème-phonème, signal vocal, aveugle.
Keywords :
Text-to-speech synthesis, syntax, prosody, text-to-phonem conversion, speech signal, blind.
Traitement Automatique des langues, volume 42 - N° 1 /2001, pages
Introduction
Nos recherches en synthèse vocale ont été initiées en 1981 avec la mise au point et la commercialisation dun appareil portable à clavier phonémique destiné au handicap vocal [MOR 81]. En 1986, Synthé 3, système de synthèse par diphones doté dun module de transcription graphème-phonème, lui succédait pour devenir en France, jusquau début des années 90, une référence à la fois dans le domaine du handicap vocal et dans celui du handicap visuel.
Dans la continuité de ces travaux, le projet de recherche appliquée Kali démarrait en 1995, réunissant deux laboratoires universitaires et deux partenaires privés. Motivé par des besoins applicatifs précis mais également conduit dans le cadre de la recherche et de lenseignement en phonétique-phonologie des langues, le programme Kali devait répondre à un triple objectif : disposer à terme dune synthèse multilingue et, pour chaque langue, dune voix non seulement intelligible, mais également acceptable pour lutilisateur, enfin mettre en place une plate-forme de travail pour nos recherches en parole. Laction menée conjointement dans le domaine de la linguistique et de linformatique a conduit au développement doutils informatiques pour le traitement des données linguistiques (dictionnaires et règles pour lanalyse syntaxique et le calcul de la prosodie, règles de transcription graphème-phonème, outils décriture et de maintenance des règles) et la génération du signal de parole (analyse du signal vocal, mise au point de bases de diphones). Doté de deux voix masculines et dune voix féminine, pour lheure, Kali fonctionne en langue française. Utilisable par la plupart des logiciels spécialisés pour déficients visuels, il peut également être intégré dans les matériels dédiés utilisés pour le handicap vocal.
Cet article fournit une présentation critique de larchitecture du système dans son ensemble, cest-à-dire des différents modules appelés en vue de la génération du signal de parole, des traitements symboliques à lanalyse acoustico-phonétique. En nous appuyant sur divers exemples linguistiques, nous précisons les principes fondamentaux qui régissent lorganisation interne des modules présentés et la façon dont linformation circule dun module à un autre.
Schéma de principe
Le système sarticule autour de cinq modules de traitement organisés séquentiellement (fig.1).
Figure 1. Architecture de Kali
(Occupation mémoire : 1 Mo + 6 Mo par voix)
Les quatre premiers modules reposent sur une exploitation déclarative des connaissances, la base de diphones, contenue dans le dernier module, est générée par un logiciel interactif de développement. Lobjectif à court terme dune synthèse bilingue (français-anglais) explique ce choix : une présentation déclarative des ressources linguistiques permet de passer rapidement dune langue à une autre, seules les données, les dictionnaires et les règles changent, les outils de traitement restant les mêmes. Par ailleurs, une telle architecture facilite indéniablement la lisibilité, le traçage, la mise à jour et la correction des règles développées au sein de chaque module, donc la maintenance générale du système. Nos règles déclaratives et contextuelles, qui opèrent sur des unités de différents niveaux (chaîne graphémique, mot, constituant syntaxique ou prosodique, phrase, paragraphe), se composent classiquement de deux parties, la première correspond aux conditions dapplication de la règle et la seconde spécifie la structure à engendrer lorsque ces conditions sont réunies.
Afin dillustrer ce fonctionnement modulaire et les critères utilisés pour constituer les ressources associées aux différents modules, nous nous proposons de suivre séquentiellement le cheminement dune phrase exemple, depuis le prétraitement jusquau module acoustico-phonétique. Cette phrase, construite de façon à éclairer le traitement de plusieurs problèmes typiques de la synthèse à partir du texte, est la suivante :
(p) LADN des hommes célèbres intéresse le président.
Prétraitement du texte
En premier lieu, cette opération a pour objet de nettoyer le texte, cest-à-dire de réduire le jeu de caractères à manipuler afin de faciliter le travail des modules subséquents. Elle est fondamentalement liée au problème de resyllabation et seffectue par la consultation dun dictionnaire qui compte 430 entrées. Un deuxième dictionnaire est ensuite activable de façon facultative par lutilisateur afin de transcrire correctement les mots pour lesquels la transcription graphème-phonème par règles, trop généralisante, ne peut sappliquer.
Le problème de resyllabation se pose essentiellement pour les sigles, les abréviations, les chiffres romains et les symboles, qui nécessitent une expansion préalable nécessaire au traitement prosodique pour que celui-ci puisse positionner correctement les accents : par exemple, le sigle ADN sans prétraitement serait considéré comme un mot d une syllabe (/aðdðnð/) et donnerait lieu à une accentuation erronée sur la première voyelle. Certes, ce problème ne se rencontre pas dans les architectures où la transcription graphème-phonème précède la génération de la prosodie. Cette stratégie souvent utilisée [HAM 89] [AUB 91] [BOU 97] présente un avantage indéniable pour la syllabation. Encore faut-il conserver un alignement mot à mot du texte alphabétique et du texte phonémique pendant le calcul de la prosodie, tout en disposant intégralement du marquage syntaxique. Bref, aucune solution nest parfaite et, compte tenu de cet inconvénient, nous avons opté pour larchitecture actuelle au prix dun prétraitement plus lourd.
Illustrons le principe général de la démarche par quelques exemples :
- Les sigles formés de consonnes (ex : DST) ne nécessitent pas de prétraitement particulier, puisque chaque consonne graphémique donne lieu à l occurrence d une syllabe phonémique (/dðeð/(sð/tðeð/). Autrement dit, au niveau prosodique, le calcul accentuel ne demande pas de traitement intermédiaire et, lors de la transcription graphème-phonème, il suffit dactiver les règles dépellation correspondantes. En revanche, comme nous lavons vu avec ADN, les sigles contenant des voyelles graphémiques reposent sur une resyllabation préalable au calcul accentuel. Dans notre exemple, la ligne suivante du dictionnaire sapplique :
ADN = a.d.n.
La notation a.d.n. étant reconnue comme standard des sigles par les autres modules de traitement (y compris les points, intégrés dans le sigle), le mot sera correctement épelé et accentué.
- Le traitement des abréviations, des symboles et des chiffres romains repose sur les mêmes principes. Ainsi :
Mlle = mademoiselle
$ = dollar
IVe = 4ème
Si la distinction majuscules/minuscules quillustre le troisième exemple, permet déviter lhomographie avec le mot ive, en revanche, certains symboles restent particulièrement ambigus (film X, chapitre X). Dans de tels contextes, où la levée de lambiguïté est en définitive du ressort de la sémantique, le caractère est traité par le module de transcription graphème-phonème, en utilisant des heuristiques locales (/iðkðsð/ si précédé de film vs. /dðiðsð/ si précédé de chapitre, charles, etc.).
A ce niveau de l analyse, les majuscules, nétant plus nécessaires, sont converties en minuscules afin de faciliter la suite du traitement.
Enfin, la transcription graphème-phonème nétant jamais parfaite (présence dans les textes de mots spécialisés, de néologismes et demprunts à dautres langues), un dictionnaire de réécriture peut être créé par lutilisateur lui-même pour pallier les manques de la transcription par règles. Ce dictionnaire est fourni avec quelques entrées seulement, servant ainsi de modèle pour la création de nouvelles lignes :
zacharie = zakarie
A lissue du prétraitement, notre phrase (p) devient :
(p1) la.d.n. des hommes célèbres intéresse le président.
Analyse syntaxique
Lanalyse syntaxique constitue aujourdhui une étape fondamentale en synthèse à partir du texte, aussi bien pour résoudre certains problèmes liés à la phonémisation (traitement des liaisons entre mots, résolution des ambiguïtés dues par exemple à la présence dhomographes hétérophones dans un texte) que pour construire le modèle prosodique. Du point de vue de la phonémisation, certes la mise en place dheuristiques locales au sein même du module de transcription reste toujours une solution, mais ceci à condition de multiplier les règles qui, de toutes façons, ne pourront lever toutes les ambiguïtés. A linverse, la reconnaissance et le traitement syntaxique correct des homographes hétérophones se résument la plupart du temps à effectuer une distinction simple entre deux catégories syntaxiques (nom/verbe ou adjectif/verbe par exemple). Lanalyse syntaxique constitue donc un traitement plus économique et plus robuste. Concernant la génération automatique de la prosodie, si les structures intonative et syntaxique ne sont pas nécessairement congruentes, il nen reste pas moins quelles sont associées, dans la mesure bien sûr où lintonation respecte par ailleurs un jeu de contraintes rythmiques fondamentales [ROS 97] [LAC 99]. La segmentation en constituants syntaxiques (ici appelés « tronçons ») représente donc un point dancrage précieux pour poser une structure prosodique de base (cf. infra 4.1.). Nous reprenons pour notre analyse les principes formulés dans le cadre des grammaires de dépendance [GIG 97], selon lesquels la phrase syntaxique peut être vue comme un processus de mise en relation mémorielle, modélisable et généralisable dans une perspective de traitement automatique. Lanalyse seffectue en trois phases : la segmentation en phrases et en mots, létiquetage de ceux-ci et leur regroupement sous forme de tronçons, eux-mêmes mis en relation les uns avec les autres, la dernière étape se fondant sur la modélisation de processus de propagation et de déductions contextuelles.
Ces différents traitements sont réalisés par lutilisation conjointe de dictionnaires et de règles appelés séquentiellement. Enfin, des marqueurs sont générés pour préparer le traitement des liaisons et celui des homographes hétérophones, effectués par le module de transcription.
Segmentation en phrases et en mots
Les unités à isoler sont respectivement les paragraphes, les phrases à lintérieur des paragraphes et les mots dans les phrases. Certes le paragraphe nest pas nécessaire à lanalyse syntaxique, mais il représente une unité de traitement prosodique à considérer (cf. infra 4.1.) : un saut de ligne indique donc le passage à un nouveau paragraphe. La phrase est repérée par un signe de ponctuation terminale ( . ! ?), à une exception près pour le point : plusieurs points encadrant un groupe de lettres successifs sont associés à la présence dun sigle.
Si la segmentation en paragraphes et en phrases ne présente pas de difficulté particulière, il en va autrement pour lunité « mot ». Dune façon très générale, on peut affirmer que le mot se définit comme une chaîne de caractères compris entre deux blancs ou entre un blanc et un signe de ponctuation. Notre principe de segmentation est donc le suivant : les caractères de ponctuation, les tirets, parenthèses, guillemets et leurs variantes servent de séparateurs de mots et sont eux-mêmes considérés comme des mots. Lapostrophe (dans le cas du français) est rattachée au mot qui la précède. A première vue donc, le repérage des mots qui composent une phrase semble simple. Néanmoins, on ne peut pas négliger lambiguïté réelle de certains caractères comme lapostrophe et le tiret (la chaîne aujourdhui correspond à un mot, jarrive est formé de deux mots, ibid. pour porte-monnaie vs. voulez-vous). En conséquence, les critères typographiques sont nécessaires mais non suffisants. Ce point explique en partie lutilisation de dictionnaires.
Étiquetage des mots
Pour ce traitement, dénommé également « catégorisation », sont appelés quatre dictionnaires, des règles de déduction locale, enfin une base morphologique simplifiée.
Le premier dictionnaire regroupe des mots qui avaient été séparés par le premier traitement. Il recense et étiquette ainsi 190 formes graphémiques ambiguës telles que les mots composés séparés le cas échéant par un tiret qui ne peut, dans ce contexte, être considéré comme un mot et comme un séparateur de mot. Pour les entrées polycatégorielles (ex : a priori, adverbe ou nom), les catégories possibles sont indiquées à la suite, lambiguïté étant levée plus tard au niveau de la déduction contextuelle.
Dans le deuxième dictionnaire sont recensés les 100 homographes hétérophones traités actuellement par lanalyseur. Les formes dont la prononciation dépend de contraintes sémantiques (fils, jet, etc.) sont ici ignorées. Ces dernières seront traitées par le phonétiseur dans quelques contextes typiques (fils de fer, jet privé, etc.). Dans notre phrase exemple (p1), le mot président saligne sur une des entrées du dictionnaire :
président = (nom masculin singulier) ou (verbe pluriel 3ème personne)
Les dictionnaires associés à la consultation des mots grammaticaux et des verbes constituent les piliers de lanalyse. Les mots grammaticaux, peu nombreux et très stables, organisent pour une large part les relations entre les constituants syntaxiques, en outre, ils permettent de lever un grand nombre dambiguïtés. Soit la phrase :
(1) Le musicien soufflait sans trêve dans ses bazouks et ses strapons. (B. Vian)
Les déterminants permettent ici de catégoriser comme noms les néologismes bazouks et strapons. Précisons que la nature souvent polycatégorielle de ces entrées, nous amène, comme pour les mots composés, à proposer plusieurs étiquettes grammaticales, filtrées ultérieurement par létape de déduction contextuelle. Les verbes, quant à eux, servent de point dancrage à la segmentation en tronçons : toute séquence qui ne se construit pas autour dune forme verbale est considérée par défaut comme une séquence nominale. Doù la nécessité davoir repéré correctement les verbes au préalable. En outre, les formes verbales, beaucoup moins nombreuses que les formes nominales et plus stables (moins de néologismes et demprunts) justifient ce choix : les parties du discours sujettes à de fortes variations ne peuvent bien évidemment pas faire lobjet dun codage lexical. Pour autant, il est impossible de lister toutes les formes verbales dans le dictionnaire, étant donné le nombre non négligeable de terminaisons qui nous amènerait à multiplier les entrées (quelques dizaines de milliers). Une solution plus judicieuse consiste à explorer simultanément une base de terminaisons (59 groupes différents, étant donné les nombreux verbes irréguliers) et une base de racines verbales (2500 racines). La recherche seffectue sur chaque mot non encore catégorisé, jusquà ce quune correspondance puisse être établie entre une terminaison et un radical. Pour le mot intéresse de notre phrase exemple, la terminaison se est identifiée (groupes coudre et cuire), mais le radical intéres- nexiste pas pour ces groupes. En revanche, la terminaison -e est répertoriée dans le groupe 1, qui contient le radical intéress- :
e = (verbe groupe 1) (singulier 3ème ou 1ère personne)
intéress = (verbe groupe 1)
Le mot est alors étiqueté verbe, singulier, 3ème ou 1ère personne.
A ce stade de lanalyse, certains mots ne sont pas encore étiquetés et dautres le sont dans plusieurs catégories. Cest là quinterviennent les règles de déduction contextuelle. Au nombre de 42, celles-ci utilisent les informations apportées par létiquetage déjà réalisé et les propagent par déduction. Par exemple, si un pronom sujet est suivi dun mot étiqueté déterminant ou pronom objet, ce dernier est ré-étiqueté pronom objet. Ainsi, dans la phrase il lentraîna dehors, la catégorie du l est précisée par la règle de déduction suivante :
(pronom sujet) + ((déterminant) ou (pronom objet))
( (pronom sujet) + (pronom objet)
Les catégories nouvellement attribuées peuvent à leur tour être utilisées pour dautres déductions. En ce qui concerne la chaîne (p1), aucune déduction sur lhomographie nest réalisée ; les règles de déduction contextuelle ne suffisent donc pas à terminer létiquetage. Un complément est alors apporté par une base de suffixes (600 entrées) fondée sur des indices statistiques. Un suffixe, en effet, est souvent porteur dune information syntaxique [BOU 97], y compris pour les néologismes (foultitude, trompage, etc.), par exemple, la finale -age permet didentifier un nom masculin singulier.
A lissue de ces traitements, les mots non étiquetés sont considérés par défaut comme nominaux (voir supra le dictionnaire de verbes). Létape suivante, la mise en relation, permet dactualiser certaines étiquettes, en levant notamment des ambiguïtés de type nom/verbe.
Segmentation en tronçons et mise en relation
Une fois létiquetage terminé, quelques déductions simples effectuées directement par le programme conduisent à regrouper les mots fortement liés syntaxiquement en tronçons (appelés également « chunks » [ABN 92]) ex : déterminant + nom (+ adjectif) ; auxiliaire + verbe, etc. . A ce stade, notre phrase exemple est segmentée en 4 tronçons :
(p2) (la.d.n.) (des hommes célèbres) (intéresse) (le président.)
La mise en relation des tronçons entre eux, très importante pour hiérarchiser les frontières prosodiques (cf. infra 4.1.), est une opération beaucoup plus complexe, qui fait appel à un jeu de 41 règles. Notre système dispose de différentes mémoires dédiées chacune à une relation syntaxique déterminée (ex : relation sujet-verbe, nom-complément de nom, etc.). Chacune de ces mémoires est gérée comme une pile : de gauche à droite de la chaîne à traiter, chaque nouveau tronçon inséré dans une mémoire est empilé et devient donc le premier candidat pour une éventuelle mise en relation. Un groupe qui nest plus en attente dautres groupes (parce que déjà relié) est effacé de la mémoire. Ainsi pour notre phrase exemple, le premier tronçon nominal (la.d.n.) est mémorisé comme sujet possible, donc en attente dun tronçon verbal, le deuxième (des hommes célèbres), est relié au premier (relation nom-complément de nom) et retiré de la mémoire. Le tronçon verbal (intéresse) valide la.d.n. comme sujet, celui-ci est donc effacé de la mémoire. Pour le quatrième tronçon (le président), construit autour dun homographe, la règle appliquée est la suivante :
(verbal) + (homographe nom/verbe) ( (verbal) + (nominal) (relié -1) {N}
En dautres termes, le tronçon homographe est redéfini comme nominal (adjonction du marqueur {N} à destination du phonétiseur) et relié au tronçon précédent. A lissue de la mise en relation, la phrase est représentée de la façon suivante :
Traitement des liaisons
La segmentation en tronçons délimitant des zones de forte cohérence syntaxique [LÉO 93], elle sert de point dancrage au traitement des liaisons. Une première règle simple peut, en effet, être posée : les liaisons sont obligatoires à lintérieur des tronçons (les enfants) et interdites dun tronçon à lautre ((conduit-les) (en voiture)). Quelques exceptions, cependant, méritent une attention particulière. Dune part, à lintérieur dun tronçon, certaines liaisons sont facultatives (nom + adjectif postposé : des résultats intéressants), voire interdites (un résultat intéressant). A linverse, la liaison peut être obligatoire dun tronçon à lautre ((ils) (arrivent), (elles) (en veulent)). Enfin, nombreux sont les contextes où la liaison est facultative malgré la segmentation en tronçons ((il) (mangeait) (une pizza)). Devant cette variation forte, quelle stratégie de marquage adopter ? La liaison obligatoire entre tronçons est résolue au niveau de lanalyse syntaxique par lidentification de deux contextes : il ny a pas de coupure après un pronom sujet ou après un auxiliaire (ils arrivent, ils sont amusants). Les cas de liaison facultative seront résolus lors de la phonémisation (cf. infra 5.2.). En définitive, le rôle de lanalyseur syntaxique est ici de poser des marqueurs de coupure {C} interprétables par le module de transcription : dans un contexte de liaison possible, la présence du marqueur bloque son occurrence. La chaîne (p3) devient alors :
Calcul de la prosodie
La génération automatique de la prosodie suppose deux niveaux de représentation : (i) un niveau qualitatif, fondé sur une modélisation phonologique de lintonation, consiste à générer un jeu de marqueurs abstraits pour rendre compte dune structure prosodique hiérarchisée, (ii) le niveau quantitatif a pour fonction de faire correspondre à ces marqueurs les corrélats acoustico-phonétiques pertinents. Lensemble du traitement (qualitatif et quantitatif) est effectué ici par un jeu de 90 règles, construites sur les bases de lobservation acoustique de deux corpus de lecture oralisée [VAN 99], lextrait dun roman policier (520 mots) et un article de presse (500 mots). La structure prosodique y est présentée comme le produit de plusieurs composants imbriqués et de portée variable : un composant global se manifeste sur lensemble de lénoncé et sur les groupes qui le constituent, un composant local sexprime par la proéminence de syllabes accentuées, de différentes natures.
Ainsi, nous proposons une approche superpositionnelle de lintonation, qui consiste à considérer les accents comme des proéminences locales subordonnées à lintonation de groupes de souffle, de phrases et de paragraphes, elle-même modélisée par une ligne de déclinaison ou downdrift.
Analyse qualitative
Des constituants générés par lanalyse syntaxique, dérive une structure phonologique profonde formée dune succession de groupes accentuels : hormis le pronom sujet toujours atone, tout constituant syntaxique donne lieu à la formation dun groupe accentuel, défini comme une chaîne de syllabes dont la dernière est frappée par un accent démarcatif :
(2) (Le président) (parlera) (demain)
La question qui se pose est alors la suivante : comment dériver une structure intonative hiérarchisée et rythmiquement bien formée à partir de cette représentation accentuelle de base ? Nous développons lhypothèse que la structure intonative sarticule autour de trois types de contraintes fondamentales : textuelles, syntaxiques et rythmiques. Lapplication de ces contraintes fait émerger six degrés de frontières intonatives.
Dans le détail, les contraintes textuelles nous amènent à manipuler trois unités de traitement : le paragraphe, la phrase et le groupe de souffle, ce dernier étant basé principalement sur la ponctuation interne à la phrase. Ces trois unités se caractérisent par une déclinaison et une pause terminale de durée variable (la pause la plus forte est attribuée à lunité paragraphe).
Doù un premier jeu de frontières, hiérarchisées de la façon suivante :
Niveau 1 : FTPg Frontière Terminale de Paragraphe
Niveau 2 : FTPh Frontière Terminale de Phrase
Niveau 3 : FCGS Frontière Continuative de groupe de Souffle
Les contraintes dalignement syntaxique dérivent du calcul des dépendances syntaxiques (contiguës ou à distance). En reprenant les notations utilisées dans la section précédente, nous illustrons la dépendance contiguë par lexemple suivant :
(3) (les enfants) (mangent) (leur soupe)
Dans ce contexte, la relation de contiguïté syntaxique entre deux tronçons linéairement adjacents sexprime sur le plan intonatif par une proéminence accentuelle associée à un allongement de la dernière syllabe pleine du premier tronçon.
Dans les contextes de dépendance à distance, lélément régi et lunité régissante nentrent pas dans une relation linéaire de contiguïté, comme dans lexemple suivant :
(4) (les étudiants) (avaient appris) (en arrivant) (la triste nouvelle)
où le circonstanciel en arrivant isole le complément dobjet de son régissant. Dans ce contexte, la relation de non-contiguïté syntaxique entre deux tronçons linéairement adjacents est marquée intonativement par une proéminence accentuelle associée à un allongement plus prononcé de la dernière syllabe pleine du premier tronçon et par linsertion dune pause dont la durée est proportionnelle au nombre de syllabes à parcourir dans la phrase pour relier lunité régie à son régissant (ici une distance de 4 syllabes). Autrement dit, les deux degrés accentuels générés sont associés à un principe de dominance intonative qui traduit explicitement les deux types de dépendances syntaxiques (contiguës ou à distance). Deux nouvelles frontières sont ainsi définies :
Niveau 4 : FCGI Frontière Continuative Majeure de Groupe Intonatif (relation de dépendance à distance)
Niveau 5 : FcGI Frontière Continuative Mineure de Groupe Intonatif (relation de contiguïté)
En dernier ressort, la prise en compte des contraintes rythmiques consiste à insérer ou effacer certains marqueurs accentuels et pausals. En premier lieu, lapplication dun principe de régulation temporelle conduit à leffacement dune pause générée entre deux constituants non reliés si moins de 8 syllabes séparent les groupes qui contractent cette relation, par exemple :
(5) (il promène) (ses enfants) (dans le jardin)
(6) (il promène) (les enfants) (de Nathalie) (et Vincent) # (dans le jardin)
Dans lexemple (5), lallongement de la dernière syllabe de ses enfants reste important (FCGI), mais la pause (symbole #) est effacée. Nous émettons alors lhypothèse que, lorsque la dépendance à distance est suffisamment longue pour justifier le maintien de la pause (6), il ny a pas de différence fondamentale entre ce type de frontière et celui qui serait généré par lexistence dune virgule typographique. Nous regroupons ainsi dans la même catégorie (FCGS) tous les groupes de souffle de taille inférieure à la phrase. Soit les règles suivantes pour illustration :
((tronçon) et (virgule)) ( FCGS
(tronçon) + ((tronçon) et (distance >= 8)) ( FCGS
(tronçon) + ((tronçon) et (0 < distance < 8)) ( FCGI
(tronçon) + ((tronçon) et (distance = 0)) ( FcGI
Considérons maintenant la contrainte de régulation accentuelle [PAS 90] selon laquelle un groupe constitué dun nombre de syllabes inaccentuées trop important (4 syllabes ou plus) est accentué sur la première syllabe à attaque consonantique de son premier mot lexical (une activité valorisante), et donne ainsi lieu à la formation dun pied métrique. Une dernière frontière est donc enfin définie :
Niveau 6 : FPM Frontière de Pied Métrique
Deux mots enfin sur le principe de non-collision accentuelle [DEL 84] : dans la plupart des modèles, ce principe conduit à bloquer loccurrence de deux accents terminaux contigus en effaçant le premier sil marque un groupe monosyllabique :
(7) (Paul) (dort) ( (Paul dort)
ou en le déplaçant à lintérieur dun groupe polysyllabique :
(8) (Valérie) (dort) ( (Valérie) (dort) ou (Valérie) (dort)
Pour lheure, nous navons pas jugé pertinent dappliquer cette règle, posant comme hypothèse perceptive que la contiguïté accentuelle est acceptable dans la mesure ou les deux accents adjacents nont pas le même degré de proéminence (voir supra : le principe de dominance intonative). Une synthèse de la hiérarchie intonative ainsi définie est proposée tableau 1.
Niveau hiérarchiqueDéclinaison
(F0)PauseAllongement
Proéminence
(F0, intensité)1FTPgFTPgFTPg2FTPhFTPhFTPh3FCGSFCGSFCGSFCGS4FCGIFCGI5FcGIFcGI6FPMTableau 1. Hiérarchie des frontières intonatives et paramètres phonétiques associés (F0 = fréquence fondamentale)
- Les pauses résultent de contraintes typographiques et syntaxiques.
- Une ligne de déclinaison est associée aux groupes intonatifs terminés par des pauses.
- Lallongement caractérise toutes les frontières sauf le pied métrique.
- Les proéminences accentuelles dérivent de principes syntactico-rythmiques.
Analyse quantitative
Lanalyse quantitative implique un choix préalable dunités de mesures aussi pertinentes que possible. Nous avons choisi pour la fréquence fondamentale, lintensité et lallongement, des unités logarithmiques de granularité suffisamment fine pour assurer une bonne précision (tab. 2).
Afin de donner une idée de cette granularité, nous fournissons un équivalent tonal, étant entendu que pour lintensité et lallongement, il sagit du rapport qui correspondrait à lunité tonale pour la hauteur. Les pentes sont exprimées relativement au nombre de syllabes du groupe concerné, et les pauses en nombre de phonèmes (un phonème dure environ 100 ms à vitesse de phonation modérée).
Les variations logarithmiques des trois types de paramètres acoustiques sont calculées par rapport à des valeurs syllabiques de référence (les syllabes inaccentuées) implicitement contenues dans la base de diphones préenregistrée. Un jeu de paramètres phonétiques est défini et quantifié pour chacun des niveaux de la hiérarchie intonative, ainsi que pour les différentes modalités de phrase (déclarative, interrogative, exclamative, suspensive) et de groupe de souffle (pauses syntaxiques et/ou typographiques). Par exemple, la modalité interrogative est représentée par une proéminence terminale (F0 et allongement) et une déclinaison plus forte en valeur absolue que la modalité déclarative.
Paramètre acoustiqueRapport correspondant à un incrément de 1Équivalent tonalFréquence fondamentale1,007261/16e tonIntensité1,01461/8e tonAllongement1,01461/8e tonTableau 2. Unités utilisées pour les paramètres acoustiques
Ces unités étant logarithmiques, un incrément de 1 correspond à un rapport (colonne 2) fonction de la granularité recherchée (ex : si la valeur de base 0 correspond à une fréquence de 100 Hz, la valeur 1 correspond à 100,726 Hz).
Linterprétation phonétique des objets posés par lanalyse qualitative consiste en premier lieu à calculer une ligne de déclinaison pour chacun des trois niveaux concernés (tab. 1). La mélodie de lénoncé est ensuite synthétisée en superposant la partition intonative de chaque niveau. La réinitialisation subséquente à la déclinaison (remise à niveau de la fréquence fondamentale) nest pas calculée mais dérive du calcul des pentes.
Précisons ici que la pente, sensiblement constante pour des groupes de souffle de taille réduite (< 5 syllabes), diminue en valeur absolue quand la taille des groupes augmente, de telle façon que lamplitude maximale de variation ne dépasse jamais le registre dun locuteur humain en situation de lecture. Autrement dit, plus le nombre de syllabes augmente, moins la déclinaison est marquée [BEA 94]. Le paramètre de pente p, dépendant du nombre de syllabes s, se décompose donc en deux paramètres : la pente maximale P et lamplitude maximale A, doù le choix dune fonction homographique respectant les conditions aux limites :
INCORPORER Equation.2 [1]
- Si s ( 0, alors p ( P (pente maximale)
- Si s ( (, alors p · s ( A (amplitude maximale de variation)
Le tableau 3 présente nos modèles de lignes de déclinaison pour la modalité déclarative et la virgule.
Niveau hiérarchiqueAmplitude maximalePente maximale1. FTPg-2-0,52. FTPh-4-13. FCGS-10-2Tableau 3. Paramètres des lignes de déclinaison (modalité déclarative)
Dans notre approche superpositionnelle, la phrase isolée (p4) formée dun seul groupe de souffle prend donc pour paramètres respectifs la somme des paramètres des 3 niveaux : -16 et -3,5.
La règle suivante illustre lattribution des valeurs de déclinaison :
(niveau = FTPh) et (mode = déclaratif) ( déclinaison (-4, -1)
Pour la modalité déclarative et la pause typographique et/ou syntaxique, nos modèles de pauses se déclinent comme suit (tab. 4) :
Niveau hiérarchiqueParamètre duréeCorrespondance en ms1. FTPg44002. FTPh66003. FCGSdistance x 0,25 (maximum 6)200 à 600Tableau 4. Paramètres des pauses (modalité déclarative)
Les pauses des niveaux 1 et 2 sajoutent, ce qui veut dire que la dernière phrase dun paragraphe est suivie dune pause de 10 unités (soit 1 s à vitesse de phonation modérée) contre 6 unités pour une phrase située à lintérieur dun paragraphe. Par définition, la pause de niveau 3 ne peut pas coexister avec les deux précédentes (frontière continuative et non terminale).
Le calcul acoustico-phonétique des proéminences locales distingue quatre paradigmes syllabiques :
- les syllabes inaccentuées des mots lexicaux (IML),
- les syllabes inaccentuées des mots grammaticaux (IMG),
- les syllabes accentuées démarcatives de pieds métriques (FPM),
- les syllabes accentuées finales de groupes.
Nos principaux paramètres acoustiques sont donc les suivants pour la modalité déclarative (tab. 5) :
Type de syllabeF0IntensitéAllongementIML000IMG-6-6-8FPM1280FcGI181018FCGI241024FCGS32032FTPh-28 -56-18 -3620 40Tableau 5. Paramètres acoustiques en modalité déclarative
La dernière syllabe de la phrase possède deux valeurs afin dopérer un glissando entre le début et la fin de la voyelle.
La règle suivante illustre lattribution des paramètres acoustiques :
(syllabe = FcGI) et (mode = déclaratif) ( param acou (18, 10, 18)
A la fin de lanalyse quantitative, il reste à concrétiser le modèle en plaçant, sur chaque noyau syllabique préalablement identifié, les marqueurs nécessaires au module acoustico-phonétique qui se chargera de les interpoler plus finement, phonème par phonème. Les lignes de déclinaison sont donc superposées et interpolées de façon à attribuer une valeur à chaque syllabe, les contextes de proéminence et dallongement spécifiés et les pauses finales de groupes insérées. Le début de la phrase (p4) peut alors être représenté de la façon suivante :
(p5) (6, 0, 0)la.(5, 0, 0)d.(22, 10, 18)n.{C} (-3, -6, -8)des (2, 0, 0)hommes (
)
Avec 14 syllabes, une pente limite de -3,5 et une amplitude limite de 16, lamplitude de la déclinaison est de -12 selon la formule [1], doù des valeurs allant de 6 à 6 (6 à 2 pour le début de la phrase, paramètre de gauche de chaque triplet). Sur la troisième syllabe, une proéminence de 18 unités superposée à la déclinaison porte la modification de F0 à +22. A linverse, la quatrième syllabe (mot grammatical) subit une réduction vocalique elle aussi superposée à la déclinaison.
Transcription graphème-phonème
Notre module de transcription graphème-phonème est fondé sur un jeu de règles hiérarchisées, organisées sous forme d'une liste arborescente [MOR 98]. Considérons par exemple l extrait des règles suivant :
& " a" & að
|& " am" {cns}& Að)ðùð (ample, chambre)
|& " a" mm& að (gamme)
|& " a" mn& að (amnistie)
|& d" am" n& aðùð (damné, condamner)
|& " an" {cns}& Að)ðùð (manche, banque, grange)
où : " xxx" = chaîne à transcrire
{cns} = contexte graphémique consonantique
& = contexte quelconque
Chaque règle est écrite dans le contexte graphique où elle s applique, en retrait dun nombre dindentations lié à son niveau hiérarchique. Des exemples sont fournis entre parenthèses pour illustrer une règle et la contrôler. La liste de règles ci-dessus peut être représentée par un arbre de dépendance, comme suit :
INCORPORER MSDraw \* fusionformat
Où, chaque règle correspond à un nud de larbre, ses exceptions étant associées aux nuds qui lui sont connectés. Une telle structure optimise le parcours de linterpréteur en éliminant les tests inutiles. Comparé aux systèmes actuels, dans lesquels les règles sont structurées sur une dimension, de la plus particulière à la plus générale [BEL 92] [BOU 97], la structure arborescente présente lavantage de donner une place précise à chaque règle. Elle permet ainsi d'éviter la perte progressive de lisibilité au fur et à mesure de limplémentation de nouvelles règles, tout en conservant une cohérence théorique aux sous-ensembles créés : en parcourant l'arbre, nous retrouvons les règles de base du français près de la racine (ai, ain, am, an, etc.), puis dans les niveaux suivants des règles plus particulières (consonnes finales muettes ou non, terminaisons en -ent, h disjonctif ou non, i-voyelle, s entre voyelles, ti-voyelle prononcé /sðið/ ou /tðið/, etc.), et aux derniers niveaux les règles les plus particulières.
La prononciation du français comporte plus de 1 000 règles élémentaires du type de celles citées. En ajoutant les mots d'emprunt et les noms propres les plus courants, on arrive à plusieurs milliers de règles. Kali comporte actuellement 5 000 règles de transcription.
Traitement du e caduc
Notre traitement du e caduc sappuie sur la règle des trois consonnes [GRA 14], selon laquelle le e précédé de deux consonnes phonémiques se prononce si le contexte droit est également consonantique (garnement). Il est effacé dans les autres contextes (pomme, fièrement). Etant donné quil sagit ici de tester des contextes phonémiques auxquels les règles nont pas accès (seuls lenvironnement graphémique peut être défini au sein de la structure de règles), la règle principale génère un marqueur intermédiaire à destination de linterpréteur :
e
{(} (pomme, fièrement, garnement)
Ainsi, pour la transcription du e de garnement, linterpréteur, ayant déjà transcrit la chaîne /gðaðrðnð/, place le marqueur dans un tampon en attente de la transcription du phonème qu il précède. Celui-ci correspondant bien à un phonème consonantique (/mð/), l interpréteur teste le tampon, le vide et complète la chaîne phonémique /gðaðrðnð(mð/.
Une règle complémentaire a, par ailleurs, été définie pour transcrire correctement les e des syllabes initiales de mots (pelage vs. plage, refaire, je). Enfin, dautres règles, plus particulières, sont écrites dans le fichier de règles, comme dans lexemple suivant où le schwa est maintenu malgré la présence dune seule consonne devant lui :
|soupes{voy}
( (soupeser)
Traitement de la liaison
Le module de transcription graphème-phonème définit les liaisons potentiellement obligatoires, principalement derrière les auxiliaires, les verbes avec inversion du sujet, les déterminants, les pronoms personnels sujets et les adjectifs antéposables :
|célèbre" s" [zð] (célèbres idées)
Le phonème de liaison est placé entre crochets. Lorsque l interpréteur le rencontre, il le place dans un tampon qui sera validé si le phonème suivant est une voyelle.
La rencontre dun marqueur de coupure {C} ou dune pause, en provenance de lanalyseur syntaxique, efface la liaison proposée. Ainsi, dans la phrase (p5), le premier marqueur {C} rencontré est sans action car aucune liaison nest proposée. En revanche, le deuxième marqueur efface le tampon de liaison [zð] créé à la lecture du s de l adjectif célèbres.
Des liaisons obligatoires sont également implémentées dans les mots composés (Etats-unis, de part et d autre). Pour le traitement des liaisons facultatives, nous avons opté pour une stratégie minimaliste qui consiste à ne pas générer la liaison entre un nom et un adjectif postposé ou un verbe et son complément sauf dans les contextes de figement lexical (des personnes âgées).
Traitement de lhomographie
La majorité des homographes hétérophones (une centaine) repose sur lambiguïté verbe/nom ou adjectif (terminaisons -ent, -tions, -er). Lanalyseur syntaxique a déjà défini la catégorie de ces derniers (taux de réussite supérieur à 95 %) et a placé un marqueur spécifique {V} ou {N} (verbal ou nominal). Il reste maintenant à tester l un ou l autre de ces marqueurs dans une exception à la règle de base :
|présid" ent" Að)ð (le président)
|{V}présid" ent" (ils président)
Pour les homographes hétérophones ne reposant pas sur une ambiguïté de catégorie, la désambiguïsation dépend de critères sémantiques difficiles à modéliser. Nous répertorions alors des contextes typiques :
|fi" ls" ùðsð (mon fils)
|fi" ls" (à plomb+de fer) lð (fils à plomb, fils de fer)
Le signe + correspond à l opérateur ou qui permet de juxtaposer une variété de contextes entre parenthèses. Plusieurs dizaines de contextes sont ainsi définis pour le mot fils.
Transmission des marqueurs prosodiques
Lorsque linterpréteur rencontre des marqueurs prosodiques (F0, intensité, durée intrinsèque et extrinsèque), il les transmet à la chaîne phonémique en construction, permettant ainsi de conserver lalignement de ceux-ci entre la chaîne alphabétique et la chaîne phonémique. Cette dernière possède alors toute linformation nécessaire à la production de la parole. Par exemple, le début de la phrase (p5) devient :
(p6) (6, 0, 0)lðaðùð(5, 0, 0)dðeð(22, 10, 18)Eðnð(-3, -6, -8)dðeðùðzð(2, 0, 0)(mð (& )
Module acoustico-phonétique
Le principe de la synthèse par concaténation de diphones, qui produit une voix de qualité pour un coût de développement raisonnable [CHA 89] [HAM 89] [ALE 96] [DUT 97], a été ici retenu. Le moteur du module est le générateur de parole et sa ressource principale une base de diphones. Nous utilisons pour le français un jeu de 33 phonèmes et un silence, soit 34 x 34 = 1 156 diphones représentant toutes les combinaisons de deux phonèmes. La base de diphones est préalablement fabriquée, à laide dun logiciel de traitement de la parole développé dans notre laboratoire, par prélèvement des diphones à partir de voix naturelles enregistrées. A chaque locuteur différent correspond une base de diphones spécifique, donnant au système de synthèse vocale la « voix » de ce locuteur. Un corpus oral destiné au prélèvement des diphones a été mis en place pour chaque locuteur, lenregistrement étant effectué à la fréquence déchantillonnage de 22050 Hz, valeur la plus utilisée actuellement pour les applications multimédia de bonne qualité.
Lagencement des diphones étant différent pour chaque message à synthétiser, il est nécessaire que ceux-ci soient normalisés pour éviter les discontinuités de fréquence fondamentale, dintensité, de durée, de timbre et de phase. Il faut donc établir une norme portant sur chacun de ces paramètres, pour chaque phonème interface entre diphones. Sur un jeu de 34 x 34 diphones, un même phonème est représenté 68 fois à lune ou lautre extrémité des diphones. En ce qui concerne la fréquence fondamentale et lintensité, la moyenne de ces 68 occurrences donne une valeur assez précise que nous pouvons considérer comme la norme du phonème considéré pour le locuteur choisi. La normalisation consiste alors à modifier les extrémités des diphones pour les faire correspondre à cette norme, tout en interpolant les valeurs intermédiaires. La durée des diphones ne peut pas être calculée de cette façon, car chaque occurrence de diphone est un exemplaire unique, doù une grande dispersion des valeurs de durée. Nous avons donc construit un modèle de durée dépendant de la catégorie de chacun des deux phonèmes constituant le diphone (voyelle, glissante, fricative sourde, fricative voisée, etc.) à partir de mesures des durées dans des parties non accentuées de corpus oraux. Le diphone est alors allongé ou raccourci pour coïncider avec la durée modèle. La normalisation de timbre et de phase, plus complexe et imparfaite, peut se faire par analyse spectrale-modification-resynthèse ou, comme dans notre cas, par un mélange progressif dans le domaine temporel aux extrémités du diphone.
Les traitements que nous venons dévoquer sont pour la plupart fondés sur le phénomène de quasi-périodicité du signal vocal dans ses parties voisées. Ils nécessitent une synchronisation des objets de calcul sur les périodes de ces parties et impliquent de ce fait un repérage préalable de celles-ci.
Nous détaillons dans cette section les principes retenus pour le repérage des périodes, la modification de la fréquence fondamentale et de la durée, la normalisation du timbre et de la phase, et montrons, à partir de notre exemple de phrase, comment le module acoustico-phonétique produit le signal vocal synthétique.
Repérage des périodes
Dans le domaine de la synthèse vocale, chaque laboratoire possède son algorithme de repérage des périodes, qui se compose généralement de deux opérations principales : filtrage passe-bas et auto-corrélation. Le filtrage (à 400 Hz pour notre part) est destiné à éliminer le bruit des parties sourdes et les artéfacts non périodiques, pour ne conserver que les premiers harmoniques des parties voisées. Ensuite, le signal est auto-corrélé avec un décalage variable, jusquà un maximum correspondant théoriquement à la période T. Or cette méthode présente des maxima non seulement pour un décalage de T, mais aussi de 2T, 3T, etc. voire de T/2, doù un taux derreur non négligeable. La réduction de ces erreurs demande une expertise beaucoup plus complexe, encore loin des capacités humaines.
Comme nous voulions un repérage sans erreur, nous avons adopté une méthode semi-automatique en trois étapes : (i) repérage des maxima relatifs dintensité (un ou plusieurs par phonème voisé) et marquage dune période pour chaque maximum, (ii) propagation des marques de périodes par itération de part et dautre du maximum, (iii) marquage des parties non voisées par interpolation. Lintervention humaine est ainsi optimisée : après létape (i), subsiste environ une erreur toutes les 10 s, dont la correction consiste à modifier seulement une ou deux marques (fig. 2).
Figure 2. Première étape du repérage des périodes
Chaque marque est placée sur la plus grande pente détectée localement. Lintervention humaine va permettre de déplacer la marque (4 bis), erronée, jusquà sa position correcte (4).
Ensuite, létape (ii) bénéficie des marques déjà connues et permet ainsi dajouter au score de corrélation celui de la comparaison des durées de deux périodes successives. En clair, il est impossible que la périodicité passe brutalement au double ou à la moitié de la valeur précédente. Les rares erreurs se situent aux frontières des parties voisées, cest-à-dire aux endroits où lalgorithme itératif doit être arrêté. Létape (iii) a seulement pour fonction de segmenter les parties non voisées de façon à permettre des traitements du même type que ceux des parties voisées.
Modification de la fréquence fondamentale et de la durée
Les méthodes utilisées pour modifier la fréquence fondamentale et la durée en restant dans le domaine temporel dérivent généralement de la méthode TD-PSOLA, utilisée par le système Proverbe, du CNET [CHA 89]. Elles présentent le gros avantage de nécessiter peu de calculs, ce qui permet de les appliquer en temps réel pendant la production de la parole pour concrétiser la prise en compte des variations prosodiques, tout en conservant au mieux la qualité du timbre original.
En pratique, le signal de période courante T est découpé en signaux élémentaires de largeur 2T, résultant du produit du signal dorigine par une fenêtre en cloche, de largeur 2T, centrée sur la partie de plus forte énergie de chaque période. Si les fenêtres sont sinusoïdales (fenêtres de Hanning), la somme des signaux élémentaires, qui se recouvrent mutuellement sur la largeur dune période, reproduit le signal dorigine (fig. 3). La forme des fenêtres diffère selon les auteurs. Après des essais perceptifs sur plusieurs types de fenêtres, nous avons constaté que cétait moins la forme de la fenêtre que sa position par rapport au signal qui était importante, et nous avons adopté la forme sinusoïdale, qui présente lavantage dune bonne répartition de lénergie, permettant détendre le traitement des parties voisées du signal à celui des parties sourdes.
Figure 3. Juxtaposition des signaux élémentaires après fenêtrage
La diminution de la période consiste à resserrer les signaux élémentaires tout en diminuant conjointement la largeur des fenêtres sinusoïdales, de façon à conserver une répartition uniforme de lénergie. Laugmentation de la période correspond à lopération inverse, à ceci près quil nest pas souhaitable de dilater les fenêtres, car, trop larges, elles contiendraient alors des traces non négligeables de la périodicité dorigine, créant des phénomènes de réverbération préjudiciables à la qualité de la parole. Les fenêtres sont donc écartées sans modification, ce qui ne détériore pas significativement la qualité de la voix synthétique. En revanche, les parties non ou peu voisées (en pratique inférieures à un certain taux de voisement) dont lénergie est répartie plus uniformément, peuvent bénéficier de la dilatation des fenêtres, évitant ainsi un phénomène de périodisation, qui serait lui aussi préjudiciable à la qualité de la voix [ALL 77] [GRI 84].
La modification de durée (ou de son inverse, la vitesse de phonation) est effectuée en dupliquant ou en retirant des signaux élémentaires. Le problème de largeur des fenêtres ne se pose pas ici, les fenêtres à superposer étant de tailles égales ou voisines. En conséquence, la modification de durée par les méthodes temporelles affecte très peu la qualité du signal résultant.
Lévaluation perceptive de nos méthodes de modification nous a permis dobtenir les résultats suivants (V = vitesse de phonation) :
- F0 ± 3 tons détérioration négligeable
- F0 ± 1 octave détérioration nette (acceptabilité moyenne)
- V x 2 ou V / 2 détérioration négligeable
- V x 3 ou V / 3 détérioration nette (acceptabilité moyenne)
Les variations maximales dues à la prosodie dépassent rarement 3 tons sur la fréquence fondamentale et un rapport 2 sur les durées. En définitive, nous pouvons souligner la performance de nos méthodes de modification, qui nont pas dinfluence notable sur la qualité finale de la voix synthétique.
Normalisation du timbre et de la phase
Selon le contexte et compte tenu de la variabilité inhérente à un locuteur donné, le timbre dun même phonème peut différer dune occurrence à lautre, créant une discontinuité spectrale lors de la concaténation des diphones (fig. 4). Il est donc nécessaire de lisser cette discontinuité.
Figure 4. Concaténation des diphones ba et al
La discontinuité de timbre apparaît ici nettement au niveau de la limite L.
Le système MBROLA [DUT 97] utilise le principe danalyse-modification-resynthèse des diphones. Schématiquement, lanalyse spectrale met en évidence un ensemble de formants propre à chaque phonème. Le principe consiste à infléchir ces formants au voisinage de chaque extrémité du diphone de façon à les faire coïncider avec la norme établie pour le phonème considéré, puis à resynthétiser le diphone à partir du nouveau spectre. Se pose alors le problème des phases de chaque harmonique, qui doivent coïncider lorsque les diphones sont juxtaposés, sous peine de discontinuités. Il faut donc normaliser également les phases des extrémités et les réajuster progressivement à lintérieur du diphone, ce qui modifie sensiblement le spectre. La voix est plus lisse quavec les méthodes temporelles, mais dun aspect un peu plus synthétique, bien que dexcellente qualité.
De son côté, le système Proverbe traite le problème dans le domaine temporel en établissant une zone de transition entre diphones adjacents et en effectuant un mélange progressif de ceux-ci en temps réel, par la méthode TD-PSOLA, au moment de la production de la parole. Les harmoniques et leurs phases glissent ainsi dun phonème à lautre sans discontinuité. Nous avons opté pour une méthode similaire, mais en leffectuant au moment de la constitution de la base de diphones, ceci afin de diminuer le temps de calcul lors de la production de la parole. Nous procédons en deux étapes : (i) au moment du prélèvement, un tri des diphones candidats est effectué en fonction de critères dacceptabilité auditive (nous comparons la qualité de mots fabriqués avec les divers candidats) et dun score de distance spectrale permettant de minimiser les discontinuités de timbre ; (ii) un mélange progressif (utilisant nos fenêtres sinusoïdales) est effectué aux extrémités du diphone avec un phonème type, déterminé lui aussi à laide dun score de distance spectrale, et prélevé à lextrémité du diphone qui le contient. A lissue de ces traitements, les diphones peuvent être concaténés directement.
Production du signal vocal
Les diphones à concaténer sont choisis en lisant la chaîne phonémique, par exemple, pour la phrase (p6) :
#lð ð ðlðað ð ðaðdð ð ðdðeð ð ðeðEð ð ðEðnð ð ðnðdð ð ðdðeð ð ðeðzð ð ðzð( ð ð(mð ð ðmðsð ð ðsðeð ð ðeðlð ð ðlðEð ð ðEðbð ð ðbðrð ð(& )
où # = silence
Chaque diphone pointe sur un signal déjà normalisé, prêt à l emploi. Restent à exploiter les paramètres morphologiques et acoustiques présents dans la chaîne phonémique pour doter la parole dun certain relief. Les paramètres morphologiques (allongements et compressions pour le français) proviennent du module de transcription graphème-phonème. Dans le cas de la phrase 6, nous avons transcrit un allongement pour lépellation du a (distinct de la transcription de à) et pour la voyelle de des (distinct de la transcription de dé). A ces paramètres morphologiques correspondent des paramètres acoustiques (ex : allongement de 10 unités pour ùð , soit environ 15 % de la durée de la voyelle) qui sont ajoutés aux paramètres acoustiques provenant du module de génération de la prosodie. De plus, les paramètres acoustiques sont étendus aux phonèmes qui n en comportaient pas. Le début de la phrase (p6) peut alors être représenté de la façon suivante :
(p7) (6, 0, 0)#(6, 0, 0)lð ð ð ð ð(6, 0, 0)lð(6, 0, 10)að ð ð ð ð(6, 0, 10)að(5, 0, 0)dð (& )
Les diphones comportent maintenant un marqueur acoustique sur chacun de leurs phonèmes. Les paramètres acoustiques sont interprétés en temps réel en termes de variations par rapport aux valeurs de base, en utilisant les mêmes méthodes de modification par fenêtres sinusoïdales que lors de la normalisation. Ces valeurs sont à atteindre à chaque extrémité du diphone (correspondant à la partie stable de chaque phonème). Les valeurs intermédiaires correspondant aux autres périodes du diphone sont interpolées. Au fur et à mesure de sa construction, le signal de parole est envoyé à la carte-son qui le diffuse à la fréquence d'échantillonnage de 22 050 Hz. Pendant ce temps, le programme de l'utilisateur reste disponible pour dautres tâches grâce à lutilisation de processus simultanés.
Conclusion
Nous nous sommes ici attachés à décrire larchitecture dun système de synthèse vocale à partir du texte en français dédié aux malvoyants. Ce programme de recherche appliquée nous a conduit à privilégier les critères defficacité, de fiabilité, d'évolutivité et de maintenance. Néanmoins, la nécessité de répondre à un problème applicatif concret avec des outils particuliers, nocculte pas certaines questions majeures en recherche fondamentale, bien au contraire. Les problèmes posés par la génération automatique de la prosodie sont révélateurs à cet égard. Nos travaux nous ont ainsi permis de préciser lapport des contraintes textuelles dans la construction de la structure intonative et ont fait émerger une hiérarchie dans les paramètres mobilisés (durée et déclinaison) pour la production dunités distinctes comme les phrases et les paragraphes. Si cette stratégie danalyse a des retombées pratiques évidentes en ce qui concerne lagrément découte, la concaténation de patrons prosodiques de phrases étant à lorigine de linévitable monotonie de la parole synthétique de la plupart des systèmes aujourdhui, poursuivre dans cette voie ouvre nécessairement des perspectives de collaboration avec la linguistique textuelle et discursive. Concernant ensuite le lien entre syntaxe et prosodie tel quil a été formulé ici : le choix dune grammaire qui repose sur le calcul de mises en relations syntaxiques, cest-à-dire sur la mise en évidence de processus dynamiques en nombre finis à lorigine de la production ou de linterprétation des structures, semble plus appropriée pour préciser les mécanismes sous-jacents à la construction prosodique que la description statique et peu économique de ces structures y compris exprimée sous la forme condensée de grammaires formelles. Dans cette approche, en effet, la phrase est considérée comme le codage linéaire dune représentation dépendantielle abstraite, qui doit obéir à deux contraintes cognitives fondamentales : (i) la contrainte de minimisation de leffort mémoriel implique la minimisation des distances entre deux nuds syntaxiquement contigus dans lordre linéaire, (ii) linformation contenue dans la représentation profonde ne doit pas être perdue au cours de la linéarisation. La dimension temporelle associée implicitement à ces deux contraintes ne passe pas toujours, comme on la vu, par des restrictions distributionnelles. Dans de tels contextes, cest bien en définitive la structure prosodique (temporelle et tonale) qui permet de répondre à ces principes : la variation dans le marquage et la durée des pauses, ainsi que dans le calcul des proéminences accentuelles permet dévaluer la distance entre deux nuds linéairement adjacents et ainsi de récupérer linformation nécessaire à lauditeur pour reconstruire larbre de dépendance associé au matériau linéaire produit. La compression syllabique des mots grammaticaux nous fournit un autre exemple dalignement entre les contraintes temporelles de nature rythmique et le traitement syntaxique. Selon plusieurs travaux menés sur le rythme du français [PAS 90] [DEL 95] [ZEL 98], les constructions prosodiques répondent à un principe de progression, selon lequel, les syllabes sallongent progressivement du début à la fin dun constituant prosodique. Or, faire subir aux mots grammaticaux une compression syllabique par rapport à une durée moyenne de référence revient implicitement à appliquer ce principe, puisque les mots grammaticaux se situent essentiellement à linitiale de constituants prosodiques. Pour conclure sur ce point, loin dêtre antagonistes, les contraintes syntaxiques et rythmiques résultent de compromis et déchanges pour actualiser de manière optimale la structure sonore du message.
En ce qui concerne la transcription graphème-phonème, la prise en compte de la hiérarchie linguistique des règles de prononciation nous a conduits à adopter une structure arborescente dès lécriture des règles, dont les retombées pratiques en termes defficacité et de performance sont indiscutables : le fichier de règles sagrandit rapidement en restant lisible et le taux de bonne transcription par phonème atteint à ce jour 99,66 %, plaçant dores et déjà notre système parmi les plus performants. Cependant, nous nous heurtons à un problème qui na pas reçu jusquici de réponse théorique satisfaisante, à savoir la transcription des noms propres et mots demprunt, qui mobilise chez le lecteur des connaissances linguistiques étendues et multilingues, difficiles à théoriser et à modéliser. La seule alternative actuelle est strictement pragmatique : grâce à la collaboration des déficients visuels qui utilisent Kali, les erreurs de transcription sont recensées et ordonnées selon leur fréquence, ce qui facilite grandement le développement de nouvelles règles.
Le dernier problème que nous souhaitons soulever concerne la qualité intrinsèque de la voix synthétique, qui entre pour une large part dans lintelligibilité et lagrément découte. Notre stratégie visait essentiellement lefficacité, cest-à-dire ici lintelligibilité. Une évaluation comparative de notre système avec les principaux systèmes francophones, en cours de réalisation, nous a déjà confirmé lintelligibilité remarquable de Kali. En revanche, lagrément découte reste assez moyen. Une réflexion sur les causes possibles de ce phénomène nous a conduits à effectuer des expériences destinées à isoler chaque étape de construction de la parole synthétique, remettant ainsi en cause certains de nos principes. Il semble que le point faible de notre voix synthétique réside dans lutilisation de phonèmes types comme points cibles aux extrémités des diphones, notamment en ce qui concerne les voyelles. Dans la parole naturelle, en effet, une voyelle nest pas toujours entièrement articulée : souvent obtenue par contraste avec les phonèmes qui lentourent, elle na pas le même timbre quune voyelle prononcée isolément (phénomène de coarticulation). Ici, chaque voyelle est entièrement réalisée car il est nécessaire de pouvoir raccorder un diphone donné avec tous ceux qui possèdent le même phonème en interface. Cette méthode a pour conséquence une élocution un peu saccadée, articulée à lexcès, moins fluide que la parole naturelle. En contrepartie, la parole obtenue est très intelligible, même à vitesse délocution élevée. Une prosodie assez marquée, notamment au niveau du rythme, atténue en partie le caractère saccadé de la voix. Mais cette stratégie a ses limites et il nous semble maintenant indispensable de développer une méthode de mélange progressif en temps réel des diphones adjacents, qui devrait, pour une perte dintelligibilité que nous espérons négligeable, produire une voix moins saccadée et ainsi améliorer grandement lagrément découte.
Enfin, notre travail en synthèse de la parole se poursuit sur la langue anglaise. Il nous permettra délargir les observations et les concepts décrits dans cet article et de mettre à lépreuve le principe fondamental de notre démarche dans le traitement des données symboliques : la mise en place et lexploitation dune architecture informatique commune au traitement de différentes langues, seules les données et les règles manipulées étant sujettes à variation.
Références
[ABN 92] Abney S. (1992) : « Prosodic structure, performance structure and phrase structure », Proceedings, Speech and Natural Language Workshop, Morgan Kaufmann Publishers, San Mateo, CA, pp. 425-428.
[ALE 96] d'Alessandro C., Garnier-Rizet M., Boula de Mareüil P. (1996) : « Synthèse de la parole à partir du texte », Fondements et perspectives en traitement automatique de la parole, AUPELF-UREF, Henri Méloni (éd.), pp. 81-96.
[ALL 77] Allen J.B., Rabiner L.R. (1977) : « A unified approach to short-time Fourier analysis and synthesis », Proceedings, IEEE, 65 (11), pp. 1558-1564.
[AUB 91] Aubergé V. (1991) : La synthèse de la parole : des règles aux lexiques, Thèse de Doctorat, Université de Grenoble.
[BEL 92] Belrhali R., Libert L., Aubergé V., Boë L.J. (1992) : « Des lexiques aux règles : vers une méthode descriptive de la phonétisation du Français », Actes des XIXèmes Journées dÉtudes sur la Parole, Bruxelles, Belgique, pp. 225-230.
[BEA 94] Beaugendre F. (1994) : Une étude perceptive de lintonation du français, développement dun modèle et application à la génération automatique de lintonation pour un système de synthèse à partir du texte, Thèse de Doctorat, Université de Paris XI, Orsay.
[BOU 97] Boula de Mareüil P. (1997) : Étude linguistique appliquée à la synthèse de la parole à partir du texte, Thèse de Doctorat, Université de Paris XI, Orsay.
[CHA 89] Charpentier F., Moulines E. (1989) : « Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones », Proceedings Eurospeech 89, ENST, Paris, vol. 2, pp. 13-19.
[DEL 95] Delais-Roussarie E. (1995) : Pour une approche probabiliste de la structure prosodique, étude de lorganisation prosodique et rythmique de la phrase française, Thèse de Doctorat, Université de Toulouse-Le-Mirail.
[DEL 84] Dell F. (1984) : « Laccentuation dans les phrases françaises », F. Dell et al. (éd.), pp. 65-122.
[DUT 97] Dutoit T. (1997) : An introduction to text-to-speech synthesis, Dordrecht, Kluwer Academic Publishers.
[GIG 97] Giguet E., Vergne J. (1997) : « From part of speech tagging to memory-based deep syntactic analysis », International Workshop on Parsing Technologies 1997, proceedings, MIT, Cambridge, MA, USA, pp. 77-88.
[GRA 14] Grammont M. (1914) : Traité pratique de prononciation française, Paris, Delagrave.
[GRI 84] Griffin D.W., Lim J.S. (1984) : « Signal estimation from modified short-time Fourier transform », IEEE Trans. ASSP, 32 (2), pp. 236-243.
[HAM 89] Hamon C., Moulines E., Charpentier F. (1989) : « A diphone synthesis system based on time-domain prosodic modifications of speech », International Conference on Acoustics, Speech and Signal Processing (ICASSP), T. Durani éd., Glasgow, pp. 238-241.
[HIR 99] Hirst D., Di Cristo A., Espesser R. (1999) : « Levels of representation and levels of analysis for the description of intonation systems », Theory and experiment, Dordrecht, Kluwer Academic Press, pp. 51-87.
[LAC 99] Lacheret-Dujour A., Beaugendre F. (1999) : La prosodie du français, Paris, éditions du CNRS.
[LÉO 93] Léon P. (1993) : Les phénomènes syntactiques : liaisons et enchaînements, Paris, Nathan.
[MOR 81] Morel M. (1981) : « Synthèse vocale par raccordement de segments d'oscillogrammes », Revue d'acoustique du GALF, n° 56, pp. 24-27.
[MOR 98] Morel M., Lacheret-Dujour A. (1998) : « Utilisation d'une structure arborescente pour une hiérarchisation fine des règles de transcription graphème-phonème », Actes des XXIIèmes Journées d'Etudes sur la Parole, Martigny, Suisse, pp. 151-154.
[PAS 90] Pasdeloup V. (1990) : Modèle de règles rythmiques du français appliqué à la synthèse de la parole, Thèse de Doctorat, Université de Provence.
[ROS 99] Rossi M. (1999) : Lintonation, le système du français, Paris, Ophrys.
[TES 59] Tesnière L. (1959) : Éléments de syntaxe structurale, Paris, Klincksieck.
[VAN 99] Vannier G. (1999) : Étude des contributions des structures textuelles et syntaxiques pour la prosodie : application à un système de synthèse vocale à partir du texte, Thèse de Doctorat, Université de Caen.
[ZEL 98] Zellner B. (1998) : Caractérisation et prédiction du débit de parole en français. Une étude de cas, Thèse de Doctorat, Université de Lausanne.
Les laboratoires de linguistique et dinformatique de luniversité de Caen (respectivement lElsap et le Greyc), la société dinformatique Electrel et lassociation daveugles Club Micro son.
Après trois ans détudes menées grâce à un financement européen Feder, Kali a été commercialisé en juin 1999 et sest fait remarquer par deux faits majeurs : lobtention dun prix ADER en recherche appliquée au printemps 1999 et la remise à M. Morel du CRISTAL CNRS en septembre 2000.
Une démonstration interactive est proposée sur le site : www.crisco.unicaen.fr
Ces logiciels permettent aux mal voyants davoir accès à loutil informatique en décrivant oralement les opérations effectuées par lordinateur (accès vocal au contenu de lécran ou à un document imprimé) ; voir notamment le système de lecture optique OpenBook Ruby (Arkenstone), le lecteur décran Jaws (Henter Joyce) et le logiciel dagrandissement de caractères ZoomText.
Au sens typographique du terme.
Cinq catégories de mots grammaticaux sont définies (les déterminants, les pronoms, les prépositions, les conjonctions et les adverbes sils ne dérivent pas dun adjectif suivi du suffixe -ment : fièrement, simplement).
Les finales adverbiales en -ment sont répertoriées dans cette base.
Cette notion dattente peut être rapprochée du concept de saturation valancielle chez Tesnière [TES 59].
Utilisation du logiciel Momel [HIR 99].
Le choix du corpus texte et non phrases isolées a été ici décisif pour vérifier lhypothèse selon laquelle la dimension textuelle du message à synthétiser représente un paramètre essentiel dans la construction prosodique.
Voir Rossi [ROS 99] pour une présentation des différentes théories : superpositionnelle, linéaire, morphologique, hiérarchique.
Tendance de la fréquence fondamentale à décroître progressivement du début à la fin dun énoncé.
Unité démarquée à sa droite par une virgule, un point-virgule ou deux-points.
Où la distance correspond au nombre de syllabes qui séparent deux tronçons contractant une relation de dépendance syntaxique.
La distance est nulle quand les tronçons en relation sont linéairement adjacents (paramètres de relation +1 ou 1, cf. supra, phrase p4).
Unité prosodique caractérisée par un accent rythmique non terminal.
Rappelons que la distance correspond au nombre de syllabes à parcourir dans la phrase pour relier le tronçon qui suit la pause à lunité régie ou régissante.
Dont les syllabes sont fréquemment réduites y compris en lecture oralisée.
Portion de signal allant de la partie stable dun phonème à la partie stable du phonème suivant.
Traitement Automatique des Langues PAGE 28
« Kali », synthèse vocale à partir du texte PAGE 29