Modèlisation des attentes en dialogue oral finalisé - Tel Archives ...
Partant de C++, et de ses défauts, James Gosling a développé le langage Oak,
...... à dépiler les deux valeurs du sommet de la pile, à les ajouter, et à empiler le
...
part of the document
ues qui mont permis daméliorer ce manuscrit, et pour avoir accepté de participer à mon jury à titre respectivement de président et rapporteur.
M. Andréas Herzig et M. Denis Vernant pour avoir accepté respectivement de rapporter cette thèse et den être examinateur.
Le laboratoire CLIPS dont les équipes GEOD et MULTICOM avec qui jai particulièrement apprécié de travailler ou simplement converser dans une ambiance chaleureuse, en particulier Anne-Claire, Solange, Jean-François, Laurent, Audrey, Daniel, Anne, Richard, Doms, Eric, Brigitte B., Brigitte M., Caroline, Francis, Camille, et tous les autres membres de ces deux équipes pour leur aide précieuse et/ou leurs discussions (transcriptions, annotations, analyses, relectures, magiciens dOz, enregistrements vidéos, soutien moral, discussions diverses, gâteaux, etc.) mais aussi Michel, Bernard, Valérie, Nicole, Annie, et tous ceux avec qui jai pu partager des moments enrichissants et conviviaux.
Je tiens à remercier également tous ceux qui ont dû me supporter ou mencourager et menrichir durant toute cette thèse et même avant : mes amis, ma famille, et particulièrement Révol qui naura malheureusement pas pu assister à la soutenance de son filleul, et mes parents pour mavoir incité à « faire des études ».
Quant à Marjolaine
je ne le lui dirai jamais assez.
Table des matières
TOC \h \z \t "Partie;1;Chapitre;2;SousChapitre;3;SousSousChapitre;4" HYPERLINK \l "_Toc83723663" Introduction PAGEREF _Toc83723663 \h 13
HYPERLINK \l "_Toc83723664" Problématique PAGEREF _Toc83723664 \h 19
HYPERLINK \l "_Toc83723665" 1. Pourquoi loral ? PAGEREF _Toc83723665 \h 20
HYPERLINK \l "_Toc83723666" 2. Pourquoi des dialogues finalisés ? PAGEREF _Toc83723666 \h 22
HYPERLINK \l "_Toc83723667" 3. Attentes du point de vue du locuteur PAGEREF _Toc83723667 \h 24
HYPERLINK \l "_Toc83723668" 4. Méthodologie de recherche : démarche incrémentale PAGEREF _Toc83723668 \h 25
HYPERLINK \l "_Toc83723669" A. Contexte pratique et théorique PAGEREF _Toc83723669 \h 29
HYPERLINK \l "_Toc83723670" Chapitre I : contexte pratique détude PAGEREF _Toc83723670 \h 31
HYPERLINK \l "_Toc83723671" 1. Communication humaine : ERIM et l'aide au traducteur PAGEREF _Toc83723671 \h 31
HYPERLINK \l "_Toc83723672" 2. Communication humaine médiatisée : NESPOLE! et lannotation en actes PAGEREF _Toc83723672 \h 32
HYPERLINK \l "_Toc83723673" 3. Communication Homme-Machine : PVE et le modèle générique de dialogue PAGEREF _Toc83723673 \h 35
HYPERLINK \l "_Toc83723674" Chapitre II : Cadre théorique en modélisation du dialogue oral PAGEREF _Toc83723674 \h 39
HYPERLINK \l "_Toc83723675" 1. Philosophie analytique et acte du discours PAGEREF _Toc83723675 \h 42
HYPERLINK \l "_Toc83723676" 1.1. Théorie descriptive dAustin PAGEREF _Toc83723676 \h 43
HYPERLINK \l "_Toc83723677" 1.2. Théorie explicative de Searle PAGEREF _Toc83723677 \h 45
HYPERLINK \l "_Toc83723678" 1.3. Théorie illocutoire de Vanderveken (formalisation des précédentes) PAGEREF _Toc83723678 \h 47
HYPERLINK \l "_Toc83723679" 1.4. Une taxonomie des actes de langage PAGEREF _Toc83723679 \h 50
HYPERLINK \l "_Toc83723680" 1.5. Une direction dajustement PAGEREF _Toc83723680 \h 52
HYPERLINK \l "_Toc83723681" 1.6. Limites PAGEREF _Toc83723681 \h 54
HYPERLINK \l "_Toc83723682" 2. Ethnométhodologie PAGEREF _Toc83723682 \h 55
HYPERLINK \l "_Toc83723683" 3. Psychologie cognitive - Cognisciences PAGEREF _Toc83723683 \h 57
HYPERLINK \l "_Toc83723684" 3.1. La coopérativité selon Grice PAGEREF _Toc83723684 \h 59
HYPERLINK \l "_Toc83723685" 3.2. La pertinence selon Sperber & Wilson PAGEREF _Toc83723685 \h 62
HYPERLINK \l "_Toc83723686" 3.3. Une formalisation : DRT & SDRT PAGEREF _Toc83723686 \h 65
HYPERLINK \l "_Toc83723687" 4. Linguistique PAGEREF _Toc83723687 \h 68
HYPERLINK \l "_Toc83723688" Conclusion : ce qui est utile aux attentes PAGEREF _Toc83723688 \h 71
HYPERLINK \l "_Toc83723689" B. Etude théorique PAGEREF _Toc83723689 \h 73
HYPERLINK \l "_Toc83723690" Chapitre I : Modélisation et traitement des attentes en dialogue aspect théorique PAGEREF _Toc83723690 \h 75
HYPERLINK \l "_Toc83723691" 1. les attentes en dialogue : notions et modélisation PAGEREF _Toc83723691 \h 76
HYPERLINK \l "_Toc83723692" 1.1. La notion dattentes en dialogue PAGEREF _Toc83723692 \h 76
HYPERLINK \l "_Toc83723693" 1.2. Modélisation des attentes en dialogue PAGEREF _Toc83723693 \h 79
HYPERLINK \l "_Toc83723694" 1.3. Les attentes du locuteur PAGEREF _Toc83723694 \h 81
HYPERLINK \l "_Toc83723695" 2. Spécification des attentes PAGEREF _Toc83723695 \h 83
HYPERLINK \l "_Toc83723696" 2.1. Une notation en acte de dialogue issue des actes de langage PAGEREF _Toc83723696 \h 83
HYPERLINK \l "_Toc83723697" 2.2. Spécification des attentes en dialogue PAGEREF _Toc83723697 \h 89
HYPERLINK \l "_Toc83723698" 2.3. Attentes et psycholinguistique PAGEREF _Toc83723698 \h 89
HYPERLINK \l "_Toc83723699" 3. Application PAGEREF _Toc83723699 \h 94
HYPERLINK \l "_Toc83723700" 3.1. Combinaison des 3 approches PAGEREF _Toc83723700 \h 94
HYPERLINK \l "_Toc83723701" 3.2. Mise en uvre PAGEREF _Toc83723701 \h 99
HYPERLINK \l "_Toc83723702" Conclusions théoriques PAGEREF _Toc83723702 \h 104
HYPERLINK \l "_Toc83723703" Chapitre II : Approche à base de corpus PAGEREF _Toc83723703 \h 105
HYPERLINK \l "_Toc83723704" 1. Corpus-pilote homme-homme pour Homme-Homme : Nespole! PAGEREF _Toc83723704 \h 107
HYPERLINK \l "_Toc83723705" 1.1. Protocole Nespole! PAGEREF _Toc83723705 \h 107
HYPERLINK \l "_Toc83723706" 1.2. Description du corpus NESPOLE! PAGEREF _Toc83723706 \h 109
HYPERLINK \l "_Toc83723707" 2. Corpus-pilote homme-homme pour Homme-Machine : PVE PAGEREF _Toc83723707 \h 110
HYPERLINK \l "_Toc83723708" 2.1. Protocole PVE PAGEREF _Toc83723708 \h 110
HYPERLINK \l "_Toc83723709" 2.2. Description du corpus-pilote PVE PAGEREF _Toc83723709 \h 112
HYPERLINK \l "_Toc83723710" 3. Corpus-simulé homme-machine version 0 : Pré-tests PVE PAGEREF _Toc83723710 \h 115
HYPERLINK \l "_Toc83723711" 3.1. Protocole corpus-simulé PVE version 0, pré-tests PAGEREF _Toc83723711 \h 115
HYPERLINK \l "_Toc83723712" 3.2. Description du corpus-simulé PVE version 0, prétests PAGEREF _Toc83723712 \h 116
HYPERLINK \l "_Toc83723713" 4. Corpus simulé homme-machine version 1 : TestsPVE PAGEREF _Toc83723713 \h 119
HYPERLINK \l "_Toc83723714" 4.1. Protocole TestsPVE PAGEREF _Toc83723714 \h 119
HYPERLINK \l "_Toc83723715" 4.2. Corpus simulé PVE version 1, tests PAGEREF _Toc83723715 \h 120
HYPERLINK \l "_Toc83723716" Conclusion sur les corpus PAGEREF _Toc83723716 \h 124
HYPERLINK \l "_Toc83723717" C. Expérimentation et tests PAGEREF _Toc83723717 \h 125
HYPERLINK \l "_Toc83723718" Chapitre I : Plate-forme dexpérimentation (Magicien doz) PAGEREF _Toc83723718 \h 127
HYPERLINK \l "_Toc83723719" 1. Magicien dOz PAGEREF _Toc83723719 \h 128
HYPERLINK \l "_Toc83723720" 1.1. Magicien dOz pour du dialogue PAGEREF _Toc83723720 \h 128
HYPERLINK \l "_Toc83723721" 1.2. Magicien dOz pour du dialogue oral PAGEREF _Toc83723721 \h 129
HYPERLINK \l "_Toc83723722" 2. Architecture générale du système PAGEREF _Toc83723722 \h 130
HYPERLINK \l "_Toc83723723" 3. Reconnaissance de parole, un modèle de langage spécifique. PAGEREF _Toc83723723 \h 132
HYPERLINK \l "_Toc83723724" 3.1. Corpus & vocabulaire pour lapprentissage dun modèle de langage. PAGEREF _Toc83723724 \h 133
HYPERLINK \l "_Toc83723725" 3.2. Apprentissage dun modèle de langage. PAGEREF _Toc83723725 \h 134
HYPERLINK \l "_Toc83723726" 3.3. Evaluation des modèles de langage. PAGEREF _Toc83723726 \h 136
HYPERLINK \l "_Toc83723727" 3.4. Au niveau de lergonomie de linterface PAGEREF _Toc83723727 \h 137
HYPERLINK \l "_Toc83723728" 4. Synthèse de parole française PAGEREF _Toc83723728 \h 138
HYPERLINK \l "_Toc83723729" 5. Magicien dOz et collecte (aide à lannotation) PAGEREF _Toc83723729 \h 139
HYPERLINK \l "_Toc83723730" 6. Magicien dOz et contrôleur de dialogue PAGEREF _Toc83723730 \h 141
HYPERLINK \l "_Toc83723731" 6.1. Plate-forme mettant en jeu un magicien dOz PAGEREF _Toc83723731 \h 141
HYPERLINK \l "_Toc83723732" 6.2. Composants de la plate-forme et choix ergonomiques associés PAGEREF _Toc83723732 \h 143
HYPERLINK \l "_Toc83723733" Conclusion sur le système PAGEREF _Toc83723733 \h 146
HYPERLINK \l "_Toc83723734" Chapitre II : Modélisation stochastique PAGEREF _Toc83723734 \h 147
HYPERLINK \l "_Toc83723735" 1. Limportance des rôles en dialogue oral finalisé PAGEREF _Toc83723735 \h 148
HYPERLINK \l "_Toc83723736" 2. Méthodologie pour la prédiction des actes vs attentes PAGEREF _Toc83723736 \h 149
HYPERLINK \l "_Toc83723737" 2.1. Prédiction des actes PAGEREF _Toc83723737 \h 149
HYPERLINK \l "_Toc83723738" 2.2. Génération et gestion des attentes PAGEREF _Toc83723738 \h 151
HYPERLINK \l "_Toc83723739" 3. Description statistique des corpus PAGEREF _Toc83723739 \h 154
HYPERLINK \l "_Toc83723740" 3.1. Corpus de dialogues homme-homme NESPOLE! PAGEREF _Toc83723740 \h 154
HYPERLINK \l "_Toc83723741" 3.2. Corpus de dialogues homme-machine PVE PAGEREF _Toc83723741 \h 155
HYPERLINK \l "_Toc83723742" 4. Tests en dialogue homme-homme : Sur le corpus NESPOLE! PAGEREF _Toc83723742 \h 156
HYPERLINK \l "_Toc83723743" 4.1. Prédiction dactes PAGEREF _Toc83723743 \h 156
HYPERLINK \l "_Toc83723744" 4.2. Génération et gestion des attentes PAGEREF _Toc83723744 \h 158
HYPERLINK \l "_Toc83723745" 4.3. Test : Comparaison des deux approches PAGEREF _Toc83723745 \h 159
HYPERLINK \l "_Toc83723746" Conclusion en dialogue homme-homme PAGEREF _Toc83723746 \h 161
HYPERLINK \l "_Toc83723747" 5. Tests en dialogue homme-machine : Dans le corpus PVE PAGEREF _Toc83723747 \h 162
HYPERLINK \l "_Toc83723748" 5.1. Statistiques de succession PAGEREF _Toc83723748 \h 162
HYPERLINK \l "_Toc83723749" 5.2. Attentes PAGEREF _Toc83723749 \h 163
HYPERLINK \l "_Toc83723750" 5.3. Comparaison, taux de bonne prédiction PAGEREF _Toc83723750 \h 165
HYPERLINK \l "_Toc83723751" Conclusion en dialogue home-machine PAGEREF _Toc83723751 \h 167
HYPERLINK \l "_Toc83723752" Conclusion dune modélisation stochastique PAGEREF _Toc83723752 \h 168
HYPERLINK \l "_Toc83723753" Conclusions et perspectives PAGEREF _Toc83723753 \h 171
HYPERLINK \l "_Toc83723754" Limites PAGEREF _Toc83723754 \h 173
HYPERLINK \l "_Toc83723755" Perspectives (mise en uvre) PAGEREF _Toc83723755 \h 174
HYPERLINK \l "_Toc83723756" Perspectives (modèle) PAGEREF _Toc83723756 \h 176
HYPERLINK \l "_Toc83723757" Perspectives (communication non verbale) PAGEREF _Toc83723757 \h 177
HYPERLINK \l "_Toc83723758" Compréhension PAGEREF _Toc83723758 \h 178
HYPERLINK \l "_Toc83723759" Attendus PAGEREF _Toc83723759 \h 178
HYPERLINK \l "_Toc83723760" Attentes PAGEREF _Toc83723760 \h 178
HYPERLINK \l "_Toc83723761" Bilan général PAGEREF _Toc83723761 \h 180
HYPERLINK \l "_Toc83723762" Références bibliographiques PAGEREF _Toc83723762 \h 181
HYPERLINK \l "_Toc83723763" Références non citées PAGEREF _Toc83723763 \h 190
HYPERLINK \l "_Toc83723764" Annexes PAGEREF _Toc83723764 \h 193
HYPERLINK \l "_Toc83723765" Statistique de cooccurrence des bi-grammes {Acte, Acte-suivant} PAGEREF _Toc83723765 \h 195
HYPERLINK \l "_Toc83723766" Statistiques sur les attentes PAGEREF _Toc83723766 \h 197
HYPERLINK \l "_Toc83723767" Analyse des résultats dattentes acte par acte pour les différents corpus PAGEREF _Toc83723767 \h 198
HYPERLINK \l "_Toc83723768" 1. Actes posant des attentes PAGEREF _Toc83723768 \h 199
HYPERLINK \l "_Toc83723769" 2. Actes répondant à des attentes PAGEREF _Toc83723769 \h 203
HYPERLINK \l "_Toc83723770" Instructions à suivre pour le système PVE PAGEREF _Toc83723770 \h 207
HYPERLINK \l "_Toc83723771" Système de Reconnaissance + Synthèse PAGEREF _Toc83723771 \h 209
HYPERLINK \l "_Toc83723772" Interface « Client » PAGEREF _Toc83723772 \h 210
HYPERLINK \l "_Toc83723773" Dialogue complet vu de lannotateur PAGEREF _Toc83723773 \h 210
HYPERLINK \l "_Toc83723774" Enoncés proposés au contrôleur PAGEREF _Toc83723774 \h 211
HYPERLINK \l "_Toc83723775" Liste des mots phonétisés et classes PAGEREF _Toc83723775 \h 214
HYPERLINK \l "_Toc83723776" Quatrième de couverture (résumé, summary) PAGEREF _Toc83723776 \h 220
Liste des figures
TOC \h \z \c "Figure" HYPERLINK \l "_Toc83704486" Figure 1: Architecture générale en dialogue homme-machine [Caelen 92] PAGEREF _Toc83704486 \h 23
HYPERLINK \l "_Toc83704487" Figure 2 : Méthodologie incrémentale suivie en dialogue homme-homme PAGEREF _Toc83704487 \h 25
HYPERLINK \l "_Toc83704488" Figure 3 : Méthodologie incrémentale suivie en dialogue homme-machine PAGEREF _Toc83704488 \h 26
HYPERLINK \l "_Toc83704489" Figure 4 : Architecture de traduction de parole par langage pivot ([Besacier 01]) PAGEREF _Toc83704489 \h 34
HYPERLINK \l "_Toc83704490" Figure 5 : Architecture du système de dialogue dans le projet PVE (en grisé, les données spécifiques à la tâche) PAGEREF _Toc83704490 \h 36
HYPERLINK \l "_Toc83704491" Figure 6 : Modèle du code (vue simplifiée) PAGEREF _Toc83704491 \h 40
HYPERLINK \l "_Toc83704492" Figure 7 : Modèle du code PAGEREF _Toc83704492 \h 40
HYPERLINK \l "_Toc83704493" Figure 8 : Modèle projectif du dialogue informatif [Vernant 92] PAGEREF _Toc83704493 \h 54
HYPERLINK \l "_Toc83704494" Figure 9 : Modèle de communication humaine, [Kerbrat-Orrechioni 80] PAGEREF _Toc83704494 \h 58
HYPERLINK \l "_Toc83704495" Figure 10 : Exemple danalyse conversationnelle, modèle genevois [Lehuen 97]. PAGEREF _Toc83704495 \h 69
HYPERLINK \l "_Toc83704496" Figure 11 : Exemple de dialogue géré par le logiciel MINIDIAL [Lehuen 97] PAGEREF _Toc83704496 \h 70
HYPERLINK \l "_Toc83704497" Figure 12 : Attentes et linguistique : écart incident à l'axe régissant PAGEREF _Toc83704497 \h 72
HYPERLINK \l "_Toc83704498" Figure 13 : Réussite (selon conditions) et satisfaction (selon réponse) d'un acte. PAGEREF _Toc83704498 \h 76
HYPERLINK \l "_Toc83704499" Figure 14 : Possibilités de réponses à un interacte, inspiré de [Vernant 97b]. PAGEREF _Toc83704499 \h 80
HYPERLINK \l "_Toc83704500" Figure 15 : Actes orientés vers soi ou vers autrui PAGEREF _Toc83704500 \h 87
HYPERLINK \l "_Toc83704501" Figure 16 : Attentes vues comme une liste de réponses possibles PAGEREF _Toc83704501 \h 89
HYPERLINK \l "_Toc83704502" Figure 17 : Ebauche du modèle des attentes PAGEREF _Toc83704502 \h 94
HYPERLINK \l "_Toc83704503" Figure 18 : Les probabilités comme écart d'incidence PAGEREF _Toc83704503 \h 103
HYPERLINK \l "_Toc83704504" Figure 19 : Architecture du système de dialogue. PAGEREF _Toc83704504 \h 130
HYPERLINK \l "_Toc83704505" Figure 20 : Architecture détaillée, système de dialogue à base de magiciens d'Oz PAGEREF _Toc83704505 \h 131
HYPERLINK \l "_Toc83704506" Figure 21 : Architecture du système de reconnaissance vocale PAGEREF _Toc83704506 \h 132
HYPERLINK \l "_Toc83704507" Figure 22 : Du signal de parole aux actes (et attentes) PAGEREF _Toc83704507 \h 139
HYPERLINK \l "_Toc83704508" Figure 23 : Interface du Magicien dOz pour lannotation en acte de dialogue PAGEREF _Toc83704508 \h 140
HYPERLINK \l "_Toc83704509" Figure 24 : Interface du Magicien dOz pour le contrôleur de dialogue PAGEREF _Toc83704509 \h 142
HYPERLINK \l "_Toc83704510" Figure 25 : Comparaison de divers corpus pour les attentes après une demande dinformation de lagent PAGEREF _Toc83704510 \h 168
HYPERLINK \l "_Toc83704511" Figure 26 : Comparaison de divers corpus pour les attentes après une demande dinformation du client PAGEREF _Toc83704511 \h 169
HYPERLINK \l "_Toc83704512" Figure 27 : Architecture du système - serveurs opportunistes PAGEREF _Toc83704512 \h 174
Liste des tableaux
TOC \h \z \c "Tableau" HYPERLINK \l "_Toc83704445" Tableau 1 : Deux suites possibles à un même énoncé PAGEREF _Toc83704445 \h 32
HYPERLINK \l "_Toc83704446" Tableau 2 : Modalités de Greimas PAGEREF _Toc83704446 \h 41
HYPERLINK \l "_Toc83704447" Tableau 3 : Distinguo sens littéral / sens en contexte PAGEREF _Toc83704447 \h 46
HYPERLINK \l "_Toc83704448" Tableau 4 : Conditions de succès / satisfaction PAGEREF _Toc83704448 \h 49
HYPERLINK \l "_Toc83704449" Tableau 5 : Modalités de Greimas pour nos attentes PAGEREF _Toc83704449 \h 71
HYPERLINK \l "_Toc83704450" Tableau 6 : Classification des actes de [Vilnat 97]. PAGEREF _Toc83704450 \h 84
HYPERLINK \l "_Toc83704451" Tableau 7 : Classification des actes de dialogue de [Ozkan 94] PAGEREF _Toc83704451 \h 85
HYPERLINK \l "_Toc83704452" Tableau 8 : Classification des actes de Caelen en regard de Searle PAGEREF _Toc83704452 \h 85
HYPERLINK \l "_Toc83704453" Tableau 9: Notre taxonomie des actes de dialogue avec des exemples PAGEREF _Toc83704453 \h 86
HYPERLINK \l "_Toc83704454" Tableau 10 : Synthèse de notre taxonomie des actes de dialogue PAGEREF _Toc83704454 \h 87
HYPERLINK \l "_Toc83704455" Tableau 11 : Notre taxonomie des actes de langage comparée à létat de lart PAGEREF _Toc83704455 \h 88
HYPERLINK \l "_Toc83704456" Tableau 12 : Réactions de lallocutaire face à un énoncé PAGEREF _Toc83704456 \h 92
HYPERLINK \l "_Toc83704457" Tableau 13 : Exemple de dialogue avec gestion des attentes PAGEREF _Toc83704457 \h 101
HYPERLINK \l "_Toc83704458" Tableau 14 : Répartition des 4633 actes du corpus Nespole! en fonction des rôles. PAGEREF _Toc83704458 \h 109
HYPERLINK \l "_Toc83704459" Tableau 15 : Exemple d'annotation, corpus pilote pour du dialogue humain (Nespole!) PAGEREF _Toc83704459 \h 109
HYPERLINK \l "_Toc83704460" Tableau 16 : Variantes et paramètres pour le magicien d'Oz (PVE) PAGEREF _Toc83704460 \h 111
HYPERLINK \l "_Toc83704461" Tableau 17 : Répartition des 1138 actes du corpus-pilote PVE en fonction des tâches et du rôle. PAGEREF _Toc83704461 \h 114
HYPERLINK \l "_Toc83704462" Tableau 18 : Répartition des 361 actes du corpus de prétests PVE en fonction des tâches et du rôle. PAGEREF _Toc83704462 \h 118
HYPERLINK \l "_Toc83704463" Tableau 19 : Les six tâches retenues dans l'expérimentation en magicien dOz (PVE) PAGEREF _Toc83704463 \h 119
HYPERLINK \l "_Toc83704464" Tableau 20 : Répartition des 1626 actes du corpus de tests PVE en fonction des tâches et rôles. PAGEREF _Toc83704464 \h 123
HYPERLINK \l "_Toc83704465" Tableau 21 : Description du corpus PVE en fonction des tâches. PAGEREF _Toc83704465 \h 124
HYPERLINK \l "_Toc83704466" Tableau 22 : Evolution de la plate-forme magicien dOz PAGEREF _Toc83704466 \h 141
HYPERLINK \l "_Toc83704467" Tableau 23 : Liste des actes utilisés pour les tests PAGEREF _Toc83704467 \h 149
HYPERLINK \l "_Toc83704468" Tableau 24 : Taux de prédiction dacte par la méthode statistique dans PVE (un acte par tour) PAGEREF _Toc83704468 \h 150
HYPERLINK \l "_Toc83704469" Tableau 25 : Répartition par rôle des 4454 actes du corpus dapprentissage de Nespole!. PAGEREF _Toc83704469 \h 154
HYPERLINK \l "_Toc83704470" Tableau 26 : Répartition par rôle des 74 actes du corpus de pré-tests de Nespole!. PAGEREF _Toc83704470 \h 154
HYPERLINK \l "_Toc83704471" Tableau 27 : Répartition par rôle des 189 actes du corpus de test de Nespole!. PAGEREF _Toc83704471 \h 154
HYPERLINK \l "_Toc83704472" Tableau 28 : Répartition en tâches et rôles des 1544 actes du corpus dapprentissage stochastique PVE. PAGEREF _Toc83704472 \h 155
HYPERLINK \l "_Toc83704473" Tableau 29 : Répartition en tâches et rôles des 443 actes du corpus de test stochastique PVE. PAGEREF _Toc83704473 \h 155
HYPERLINK \l "_Toc83704474" Tableau 30 : Fréquence dapparition des actes de lagent dans les 30 dialogues PAGEREF _Toc83704474 \h 156
HYPERLINK \l "_Toc83704475" Tableau 31 : Fréquence dapparition des actes du client dans les 30 dialogues PAGEREF _Toc83704475 \h 156
HYPERLINK \l "_Toc83704476" Tableau 32 : Pourcentages dactes suivant par rapport à chaque acte (Nespole!) PAGEREF _Toc83704476 \h 157
HYPERLINK \l "_Toc83704477" Tableau 33 : Pourcentages dattentes par rapport à chaque acte posant un but (Nespole!) PAGEREF _Toc83704477 \h 158
HYPERLINK \l "_Toc83704478" Tableau 34 : Matrice de cooccurrence des bigrammes {Acte-courant, Acte-suivant} dans le 31ième dialogue de notre corpus (Nespole!) PAGEREF _Toc83704478 \h 159
HYPERLINK \l "_Toc83704479" Tableau 35 : Taux (%) de prédictions dacte et de prédiction dattentes et nombre à prédire (Nespole !). PAGEREF _Toc83704479 \h 160
HYPERLINK \l "_Toc83704480" Tableau 36 : Pourcentages dactes suivants par rapport à chaque acte (PVE) PAGEREF _Toc83704480 \h 163
HYPERLINK \l "_Toc83704481" Tableau 37 : Pourcentages dattente par rapport à chaque acte (PVE) PAGEREF _Toc83704481 \h 164
HYPERLINK \l "_Toc83704482" Tableau 38 : Statistiques de bigrammes (%) et attentes en fonction de chaque acte (PVE) PAGEREF _Toc83704482 \h 165
HYPERLINK \l "_Toc83704483" Tableau 39 : Description du corpus PAGEREF _Toc83704483 \h 166
HYPERLINK \l "_Toc83704484" Tableau 40 : Résultats de prédiction dacte versus attentes (PVE) PAGEREF _Toc83704484 \h 166
HYPERLINK \l "_Toc83704485" Tableau 41 : Taux (%) de prédictions dacte et de prédiction dattentes et nombre à prédire. PAGEREF _Toc83704485 \h 167
Introduction
La machine ne pourra pas remplacer lhomme dans toutes les situations. Comme le disent Nicolle et Luzzati : « il sagit de prendre les machines pour ce quelles sont, sans faire danthropomorphisme, car chacun préfère dialoguer avec des humains pour ce qui est de la conversation courante. Mais dans beaucoup de domaines, les machines jouent des rôles que les humains ne peuvent pas jouer : elles ne sennuient jamais quand elles répètent la même chose, elles ont une mémoire sûre et sans limite pratique, elles calculent plus sûrement, elles font moins derreurs. Or les limites à leurs usages, les appréhensions et difficultés des usagers, tiennent souvent aux difficultés de linteraction. » REF NICOLLEetLUZZATI99 \h \* MERGEFORMAT [Nicolle & Luzzati 99]
Le dialogue a un certain nombre de spécificités. Sur laspect linguistique, on peut constater que limiter le domaine dapplication ne réduit pas les phénomènes linguistiques à traiter, que ce soit pour les caractéristiques de la langue ou les traitements de limplicite inhérent à tout dialogue. Sil a souvent été dit quil était possible de restreindre fortement lensemble des phénomènes langagiers dans des dialogues orientés par la tâche, cette affirmation est loin dêtre confirmée, comme le note [Sabah 97]. Diverses caractéristiques linguistiques sont incontournables pour que la communication soit réellement naturelle. Plutôt quavoir une grande couverture de la langue (au niveau du vocabulaire ou de la syntaxe), le système de dialogue homme-machine devrait traiter les aspects inévitables du langage comme les anaphores, les ellipses, les mécanismes de référenciation et comprendre deux énoncés identiques apparaissant dans des contextes distincts. Pour ce dernier cas, linterprétation contextuelle doit pouvoir faire des inférences (pour tenter de soulever les implicites) et utiliser le contexte (pour tenter de trouver le sens réel qui peut être différent du sens littéral).
Contrairement à ce qui est couramment admis pour la compréhension de textes, le traitement de dialogue nécessite une souplesse et une tolérance importante aux inattendus, comportements hors des normes langagières classiques. En effet, outre les fautes de frappe et dorthographe pour lécrit, ou de diction pour loral, le dialogue fait apparaître de nombreux usages de formes syntaxiques erronées ou imprévues. On y retrouve les reprises, hésitations ou autocorrections, mais aussi les structures elliptiques qui ne peuvent sinterpréter quen fonction du contexte des interventions précédentes. La syntaxe des énoncés oraux diffère de celle de lécrit. De nombreuses structures considérées comme asyntaxiques à lécrit sont possibles à loral. En particulier, un énoncé oral peut être incomplet. Autoriser une part dimplicite dans ce que dit linterlocuteur impose de savoir le traiter en dégageant le sujet général de la discussion et déduisant de ces informations le but et le plan éventuel de linterlocuteur. En outre, il doit pouvoir réagir en fonction du comportement langagier de linterlocuteur. La compréhension et la gestion de dialogue doivent donc être dynamiques afin de toujours garder le contrôle et répondre correctement.
Le dialogue oral impose une bonne gestion du canal de communication. En particulier, les aspects métadialogiques entraînent des sous-dialogues de répétition, de demande de confirmation, de traitement de contestation de linterlocuteur sur les résultats de reconnaissance vocale ou de la compréhension ou même de la synthèse, de mise en attente, de maintien de dialogue et de relance dès que le traitement dune intervention devient trop long ou lorsque lutilisateur ne répond pas à une sollicitation du dialogue.
Traiter le dialogue oral, humain ou homme-machine nécessite de bien entendre et reconnaître ce qui a été prononcé, mais une simple reconnaissance nest quune brique que lon peut éventuellement remplacer par lécrit par exemple. Outre les aspects propres à loral, le dialogue nécessite une bonne compréhension des énoncés et une bonne interprétation dans le contexte délocution. Cette interprétation peut permettre ensuite une bonne gestion de linteraction.
Linterprétation contextuelle intervient après le niveau de compréhension textuelle. Elle tente de représenter dun point de vue pragmatique le schéma sémantique de lénoncé en fonction de létat de la tâche ou du dialogue. Il est alors nécessaire non seulement de déterminer précisément les références aux actions et aux objets spécifiés dans lénoncé, mais aussi de dégager les intentions du locuteur et de distinguer les actes de langage qui portent sur la tâche (question ou réponse à propos de la tâche) ou sur le dialogue (demande de reformulation, accusé de réception). Un bon typage des actes est important mais non suffisant. « Un acte de langage indirect est lacte de langage produit (indirectement) par le biais de laccomplissement dun autre acte de langage (« direct » par opposition au premier). »[Herzig & Longin 02] Un système incapable de reconnaître un acte indirect, celui porteur du sens véritablement voulu ne pourra pas interpréter correctement un énoncé. Par exemple, un énoncé tel que « Peux-tu ouvrir ce fichier ? » doit sinterpréter comme une demande douverture dun fichier x et non comme une question sur la possibilité dune telle ouverture. Linterprétation devra donc découvrir lacte indirect de lénoncé et déterminer les référents afin que la gestion de linteraction puisse se faire au mieux. Cela fera appel à la sémiotique et en particulier à la pragmatique.
La sémiotique est communément (Morris, 1938) divisée en trois parties :
- La syntaxe traite des relations qui existent entre les signes en vertu de leur forme apparente,
- La sémantique traite des relations entre les signes et leur signification
- La pragmatique traite des relations entre les signes, leur signification et l'usage qu'on en fait en parlant.
Un système dinterprétation doit donc posséder des connaissances nombreuses : des connaissances sémantiques, syntaxiques et lexicales mais aussi des connaissances statiques sur la tâche et lapplication, des connaissances sur la structure du dialogue et des connaissances sur les interlocuteurs.
Suite à linterprétation contextuelle de lénoncé, il faut déterminer les actions à effectuer pour la tâche et celles qui concernent lavancement du dialogue. Le contrôle du dialogue tente de répondre au mieux aux énoncés de lutilisateur. Il est donc important pour le système de déterminer le but que cherche à atteindre lutilisateur, cest-à-dire la tâche quil souhaite réaliser. Pour une bonne gestion de linteraction, il peut être important de bien reconnaître les plans du locuteur mais aussi de pouvoir faire des raisonnements valides. Mais le choix de la réponse la plus appropriée ne peut se contenter de cela. Il doit tenir compte dune stratégie à employer. En particulier, pour améliorer lefficacité du dialogue, la machine a intérêt à adopter une stratégie de coopération le plus souvent possible. La coopération consiste à répondre à lacte indirect du locuteur. Par exemple, avec un énoncé tel que « Peux-tu ouvrir ce fichier ? », répondre « oui » répond à lacte direct qui est ici une question sur la possibilité douverture dun fichier. Ce « oui » est donc non coopératif. Lacte indirect ici est une demande daction douverture du fichier. Effectuer cette commande douverture est donc coopératif. En revanche, effectuer cette commande nécessite de déterminer le référent effectif de « ce fichier » et de laction d « ouverture de fichier ».
La tendance générale est de fonder la gestion de lensemble du dialogue sur un processus de planification unique, sappuyant soit sur un automate précompilé de dialogue (modèle statique comme Halpin [Rouillard 00]) soit sur un ensemble de règles conduisant à un modèle dynamique. Il existe plusieurs niveaux de planification. Le premier niveau concerne le métadialogue incluant les phases douverture et de clôture du dialogue. Le deuxième niveau peut sappuyer sur une gestion plutôt opportuniste. Une telle gestion ne rejette pas les connaissances que doit posséder un système de contrôle performant. Ces connaissances sont de deux types. Les connaissances statiques, telles que le modèle de la tâche ou de lapplication et le modèle de dialogue, sont nécessaires pour déterminer les buts possibles et les moyens possibles de les atteindre. Les connaissances dynamiques, telles que létat de la tâche ou lhistorique du dialogue, permettent de traiter les ellipses, les références, etc.
La présente thèse propose une étude des attentes du locuteur sous diverses faces. Le document est organisé en six chapitres.
A la suite de la définition de notre problématique, le premier chapitre expose le contexte de notre étude qui se répartit en trois projets du laboratoire. Ces projets concernent le dialogue humain, le dialogue humain médiatisé par la machine et le dialogue homme machine.
Le deuxième chapitre présente un état de lart dans le domaine du dialogue. Sa particularité est de puiser dans quatre disciplines les fondements de notre modèle. Nous aborderons donc la philosophie du langage, lethnométhodologie, la psychologie cognitive et la linguistique.
Le chapitre III propose une modélisation des attentes issue des différentes disciplines abordées dans le chapitre II. Nous commencerons par leur notation ainsi que leur justification sur le plan psycho-linguistique. Nous les estimerons et aborderons lintégration de probabilités.
La quatrième chapitre présente lapproche à base corpus utilisée dans le cadre de notre étude. Nous y décrirons donc les différents protocoles employés ainsi que les corpus obtenus, transcrits et analysés.
Le chapitre suivant présente lexpérimentation qui met en jeu une plate-forme de simulation en magicien dOz. Larchitecture de cette plate-forme sera détaillée, mettant en relief les aspects oraux du système et les aspects de simulation ainsi que les choix tecnhiques et ergonomiques qui ont été faits.
La chapitre six présente alors lévaluation suite à lexpérimentation. Il propose une modélisation stochastique quil valide dans le cadre du dialogue humain et dans celui du dialogue homme-machine. Les résultats seront alors discutés afin de conclure sur lintérêt de notre approche.
Problématique
Une problématique intéressante en Dialogue Homme-Machine est d'obtenir un degré de généricité élevé afin d'adapter le système aisément au profil de l'utilisateur et à de nouvelles tâches. Ainsi nous voyons la généricité dans la modélisation du dialogue comme une relative indépendance à l'utilisateur d'une part et surtout à la tâche d'autre part. Il s'agit donc dans un premier temps de dégager les composantes indépendantes et celles liées à la tâche. Nous verrons ici pourquoi nous restreindre au dialogue oral finalisé dans lequel un participant cherche à atteindre un but : réaliser une tâche. Nous aborderons alors les attentes vues du côté du locuteur puis notre méthodologie.
1. Pourquoi loral ?
La parole est aujourdhui étudiée pour différents domaines tels que la reconnaissance vocale, la communication homme-machine ou la communication humaine médiatisée par la machine à travers les projets que nous décrirons plus loin. Mais nombre de systèmes, surtout de reconnaissance vocale, sont créés à partir de textes. Cest le cas notamment des systèmes commerciaux de dictée vocale actuels, qui utilisent des centaines dheures de parole pour apprendre à reconnaître des phonèmes, mais ne se fondent que sur létude de textes écrits issus des journaux Le Monde pour apprendre à reconnaître les phrases prononcées. Or, nous savons que lindividu ne parle pas comme il écrit. Létude de textes semble donc inadaptée pour lélaboration de systèmes de dialogue oral. Une originalité du CLIPS est de se pencher sur létude de dialogues écrits à travers les news où le langage se rapproche du dialogue oral. Mais la meilleure approche reste celle de dialogue oral en situation, afin de bien simuler la situation future. Dans le cadre de la traduction, nous pouvons préciser que la traduction de parole ne représente pas les même problèmes que la traduction de textes. En effet, la parole dépend beaucoup plus de la situation. Elle a un aspect social en plus du contenu purement linguistique. Elle offre des phénomènes langagiers spécifiques et dynamiques et respecte moins les caractéristiques formelles que lécrit. Le texte offre, lui, une formation plus régulière avec notamment les ponctuations que lon ne retrouve pas expressément à loral.
Par ailleurs, les contraintes dialogales sont différentes de la simple dictée vocale. Lémission de parole est mal formée avec les hésitations (« um », « hmm », etc.), les répétitions (« Alors je, je voudrais, ce que je voudrais »), les faux départs (« je vous propose de nous rencontrer mar, heu, mercredi »). De plus, les énoncés, mal construits, contiennent plusieurs idées (« non, mardi ce nest pas possible pour moi, pourquoi pas, mercredi matin, mercredi le 12 »).
Enfin, contrairement aux systèmes de dictée vocale qui préconisent une diction lente dans un environnement calme, un système de dialogue oral doit pouvoir gérer une reconnaissance vocale imparfaite, parfois perturbée par une élocution rapide, souvent perturbée par un environnement bruyant (la toux, le rire, la sonnerie du téléphone, la fermeture dune porte, etc.). Létude dun dialogue oral nous permettra de modéliser les particularités du dialogue dune part et les particularités de loral dautre part. Notre originalité tiendra ici dans le fait que nous étudierons aussi le dialogue dans une langue non maternelle. En effet, les recherches actuelles portent essentiellement sur létude de dialogues en langue maternelle. Si celle-ci montre déjà les particularités liées au dialogue (structure, phénomènes susdits), elle ne montre, en revanche, pas les phénomènes particuliers liés à une mauvaise maîtrise de la langue. Les phénomènes liés au dialogue se retrouveront amplifiés. Et se rajouteront des maladresses qui pourront plus ou moins entraver la compréhension du dialogue. Cest ainsi que, dans notre corpus, nous avons pu remarquer une digression du but original afin de résoudre une incompréhension sur un terme (exemple ci-dessous). Mais dautres phénomènes occasionneront moins de gêne et seront ignorés de linterlocuteur qui aura compris lidée ou jugera ce manque dinformation comme peu pertinent. Ce sont les fautes typiques daccord (« combien des étoiles »), de conjugaison (« il faut que vous appelez »), de syntaxe (« pouvez-vous lire bien ? »), délision (« entre deux et trois étoiles »), de mot en trop (« il y a des différents niveaux de pistes ») ou de mauvais terme (« vous venez par voiture ? ») ou de termes linguistiquement possibles mais qui ne se disent pas (« le numéro téléphonique »).
Pour ces fautes-ci, linterlocuteur a tendance à corriger la faute dans sa représentation de lénoncé.
Mais si le problème est jugé plus important, un sous-dialogue sinstaurera afin de résoudre ce problème. Cest le cas du sous-dialogue suivant :
« C: j'aurais voulu savoir le/ les arrhes qu'il fallait verser avant
A: vous désirez savoir s'il vous plaît ? le ? j'ai pas compris, excusez-moi/
C: le/ les arrhes, le e l/ l'avance qu'il faut faire
A: ah l'agence ? e(m)
C: l'avance pardon
A: ah l'avance ok, »
Dans cet échange, lagent semble ne pas avoir compris le terme arrhes. Le client sait, au vu des différents échanges précédents, que lagent ne maîtrise pas le français. Il commence malgré tout à se répéter comme dans le cas dune incompréhension liée à laudition. Lagent précisant quil na pas compris (et non pas mal entendu), le client suppute une incompréhension sur le terme « arrhes » et cherche à le décrire brièvement. Sensuit une deuxième incompréhension mais celle-ci uniquement auditive au vu de la réponse de lagent qui répète ce quil a compris. La construction du sens se termine par lapprobation de lagent sur la représentation du sens du terme.
Cet exemple illustre également limportance du contexte dans le dialogue.
2. Pourquoi des dialogues finalisés ?
Lobjectif principal est la mise en uvre de systèmes qui analysent et interprètent les énoncés humains (en langue naturelle), afin daider lutilisateur du système à atteindre son but (cest-à-dire la réalisation dune tâche ou la résolution dun problème en utilisant une langue naturelle). Le but nest pas de réaliser des systèmes capables de participer à une conversation quelconque. Nous parlerons donc de systèmes de dialogue finalisé (task oriented). Une première définition de dialogue finalisé a été donnée par [Borillo 93]. C'est pour lui un « échange communicationnel, effectué à distance et visant un objectif demande de renseignement, résolution de problème objectif présent dans la conscience des deux protagonistes, même si ceux-ci ne prennent pas une part égale dans l'échange et n'y apportent pas une égale compétence ou un même niveau de connaissance ». La machine a un rôle collaboratif (en instaurant une relation « opérateur-tâche »).
Le langage humain est très complexe. Malgré son utilisation constante il est ardu de le « maîtriser » réellement. Le dialogue est à la fois « une des capacités qui nous est les plus familières » et « quelque chose que lon ne maîtrise pas » vraiment (au niveau lexical, syntaxique, sémantique et pragmatique) [Bilange 92], [Carré et al. 91] Cest pour cette raison quune minorité de systèmes utilisent la parole comme moyen de communication, car il subsiste encore des problèmes pour limplémentation des données linguistiques (entre autres).
Cela est dû, principalement, au locuteur qui utilise dans son expression, des stratégies variables quil adapte au cours du dialogue (en fonction du but à atteindre) et au fait quil est difficile de planifier des données comprenant de nombreuses ambiguïtés, irrégularités, etc. Cela montre aussi la difficulté qui existe pour faire collaborer deux disciplines telles que linformatique et la linguistique, car « la linguistique vise à décrire la richesse de la langue, alors que les réalisations informatiques tendent inéluctablement à une simplification réductrice» [Luzzati 95].
Cest pour cette raison que la plupart des études sur le dialogue se font à travers lobservation de dialogues finalisés entre participants humains. Car cest « un genre de discours assez bien spécifié fonctionnant sur un certain nombre de paramètres qui réduisent sa portée mais également réduisent sa complexité et sa diversité » [Borillo 93].
« De toute façon, on ne sait vraiment réaliser de tels modules de gestion que dans le cadre de dialogues finalisés [Pierrel 87] REF PIERREL87 \h \* MERGEFORMAT , où linfluence de la tâche a une importance essentielle. [Sabah 89] » REF SABAH89 \h \* MERGEFORMAT
Cest ainsi dans ce cadre là que nous aborderons notre notion dattente car nous pensons que la situation de dialogue finalisé est plus propice à lémergence dattentes claires que des dialogues informels. Nous aborderons alors la notion du but et la finalité des dialogues étudiés. Ainsi, « Avez-vous lheure ? » peut être considéré comme lamorce dun petit dialogue finalisé dont le but est pour le locuteur davoir lheure. A linverse, une conversation de salon nest pas considérée comme finalisée car elle na pas de but précis.
Dans ce cadre de dialogues finalisés, Caelen [Caelen 92] propose une architecture générale pour le dialogue homme-machine comme nous pouvons le voir sur la REF _Ref73869825 \h \* MERGEFORMAT Figure 1.
Figure SEQ Figure \* ARABIC 1: Architecture générale en dialogue homme-machine [Caelen 92]
Dans cette architecture, laction, réponse de la machine est déterminée à partir de données issues de différents modules que nous détaillerons plus loin. Eventuellement multimodale, cette action modifie létat de la situation et des connaissances. Le noyau fonctionnel, structure de donnée commune, reçoit lacte de langage du locuteur et enrichit son schéma au fur et à mesure des connaissances apportées par les autres modules. Il fait notamment intervenir le modèle de la tâche défini comme « script sélectionné ou appris en fonction des connaissances sur lusager et des connaissances pragmatiques (mondes darrière plan, situation, etc.) » [Caelen 92]. Nous verrons plus loin une architecture plus évoluée adoptée dans le cadre du projet PVE.
Nous pensons que la prises en compte des attentes du locuteur peut faciliter linterprétation de lénoncé et le contrôle du dialogue. Nous verrons dans cette thèse lindexation des attentes sur la gestion des buts.
3. Attentes du point de vue du locuteur
Depuis quelques années, certains auteurs comme [Lehuen 97], [Vilnat 97] ou [Lemeunier 00] ont introduit la notion dattente dans leurs modèles de dialogue. En revanche, ces modèles restent très liés à la tâche puisquils proposent des attentes vues du côté de la machine. Ainsi, à tout moment, le système doit connaître ses propres attentes (donc en fonction du moment où il se situe dans le déroulement de la tâche). Loriginalité de notre approche est de regarder ces attentes du côté du locuteur (et non plus de la machine). Repérer les attentes dun être humain est loin dêtre chose aisée mais cela rend possible lindépendance par rapport à la tâche. Cest, pour nous, une solution qui peut nous permettre denvisager un dialogue générique adaptable à une tâche particulière. Ainsi, en plus doffrir une meilleure gestion du dialogue dans le cas du dialogue homme machine et un meilleur suivi du dialogue en dialogue homme homme médiatisé par la machine, cette solution apporte une généricité qui nous semble très importante dans un contexte économique où les systèmes de dialogue devraient se répandre de plus en plus. Dès lors, on pourrait enfin sortir des conditions de laboratoire afin de sadapter aux conditions réelles et ainsi éviter de devoir créer un modèle par tâche au profit dun modèle générique sadaptant à la tâche. Nos objectifs de départ sont donc de modéliser les attentes du locuteur en fonction du contexte et de la tâche en cours. Cela apporte trois originalités. La première est celle décrite plus haut, considérer les attentes du côté du locuteur. La deuxième est de pouvoir ainsi modéliser un contexte social. La troisième est de saffranchir de la tâche contrairement aux modèles actuels qui définissent les attentes comme ce qui est attendu par la machine (ce qui implique une très forte imbrication avec la tâche) et laissent de côté le contexte social trop difficile à modéliser.
Dans cette thèse, nous aborderons le cur de notre approche dont une originalité est de prendre en compte les attentes des interlocuteurs. Nous présenterons ensuite notre modèle (avec une mise en uvre à travers les choix de notation) ainsi que lanalyse de corpus qui lui est associée. Puis, nous montrerons lapport des attentes et leur gestion en comparaison avec une approche plus classique de prédiction dacte [Fouquet 02]. Nous présenterons alors la mise en uvre de notre modèle à travers une expérimentation avec magiciens dOz pour le test et lenrichissement du modèle.
4. Méthodologie de recherche : démarche incrémentale
Pour notre travail, nous avons suivi une méthodologie incrémentale, classique en interaction homme-machine.
Cependant, notre théorie des attentes, qui sous-tend cette méthodologie, est valable en dialogue humain comme en dialogue homme machine. Nous faisons lhypothèse suivante :
Un individu en situation de dialogue (oral ou non, humain ou homme-machine) finalisé aura certaines attentes par rapport à son allocutaire suite à son énoncé.
Nous allons chercher, tout au long de cette thèse, à valider cette hypothèse en dialogue humain comme en dialogue homme-machine. Nous comparerons également les attentes dans ces deux types de situation.
Pour valider notre théorie des attentes en dialogue humain comme en dialogue homme-machine et comparer les deux situations, nous avons dabord appliqué notre méthodologie incrémentale au dialogue humain selon le schéma de la REF _Ref73869905 \h \* MERGEFORMAT Figure 2 :
Figure SEQ Figure \* ARABIC 2 : Méthodologie incrémentale suivie en dialogue homme-homme
Suivant le schéma de la REF _Ref73869905 \h \* MERGEFORMAT Figure 2, nous avons défini le domaine de lapplication cible. Nous avons opté pour le renseignement touristique dans un projet (NESPOLE!) que nous décrirons plus loin. Après une brève analyse dusages, nous avons collecté un corpus de dialogues humains via un outil daudioconférence (NetmeetingTM). Ce corpus a ensuite été transcrit puis annoté afin den faire une analyse pour nos attentes.
Dans le cadre du dialogue homme-machine, la méthodologie suit le même chemin mais se poursuit jusquà lapplication informatique du système de dialogue final. Le cycle vu ci-dessus ( REF _Ref73869905 \h \* MERGEFORMAT Figure 2) se répète donc afin dobtenir la méthodologie incrémentale que nous pouvons voir sur la REF _Ref73870026 \h \* MERGEFORMAT Figure 3, ci-dessous :
Figure SEQ Figure \* ARABIC 3 : Méthodologie incrémentale suivie en dialogue homme-machine
Nous avons donc commencé comme pour le dialogue humain par définir le domaine de lapplication cible, un assistant virtuel dans le cadre dun projet (PVE) que nous décrirons plus loin. La deuxième étape a consisté en une observation des usages des systèmes existants, avec et sans ressources informatiques. Sensuit la collecte par le canal téléphonique dun corpus de dialogues humains réels mettant en jeu des secrétaires et leurs interlocuteurs. La transcription et lannotation de ce corpus ont permis une analyse de celui-ci sur différents points (notamment les attentes, mais aussi un ensemble dénoncés types, une architecture type des dialogues, etc.).
À partir des transcriptions, le vocabulaire de base dans le domaine de lapplication cible a été élaboré, puis une base dénoncés typiques a été constituée en suivant les travaux de [Morel 88] et [Bilange 92]. La mise en place dune plate-forme de type magicien dOz alimentée par ces données a permis un premier enregistrement de corpus de dialogues homme-machine (pré-tests) et une annotation in vivo des énoncés par des actes de dialogue. Après chaque enregistrement, on a fait passer un questionnaire concernant notamment les critiques et points à améliorer au niveau de lergonomie de chaque point dentrée de la plate-forme (client ou agent-simulé).
Une analyse du corpus obtenu a permis daffiner les énoncés au dialogue homme-machine et de rajouter les énoncés non prévus par lanalyse homme-homme mais apparus dans lanalyse homme-machine et considérés comme importants. Une fois la plate-forme améliorée, on a pu effectuer nos tests et enregistrer un corpus de dialogue homme-machine (tests) dans le contexte de lapplication visée. Lannotation des énoncés en actes de dialogue a de nouveau été effectuée in vivo, puis vérifiée a posteriori. A la suite du test, les sujets ont passé un entretien et rempli un nouveau questionnaire concernant la qualité perçue du système, les points à améliorer, etc.
Lanalyse du corpus en termes dattentes et lanalyse des entretiens a permis lélaboration dun système de dialogue quil conviendra ensuite dévaluer. Une nouvelle expérimentation sera donc mise en place. Elle permettra un nouvel enregistrement de corpus de dialogues homme-machine mais cette fois-ci passant par le système et non plus par un compère simulant le système.
A. Contexte pratique et théorique
Chapitre I : contexte pratique détude
Le présent chapitre décrit le contexte pratique de notre étude à travers trois projets qui concernent du dialogue homme-homme ou du dialogue homme-machine.
1. Communication humaine : ERIM et l'aide au traducteur
Nous proposons dans cette thèse une notion dattente qui puisse sa source dans la communication humaine. Dans cette dernière, nous observerons le cas des incompréhensions soulevées par une maîtrise imparfaite de la langue à travers une analyse sous langle psycholinguistique.
Le projet soutenu par la région Rhône-Alpes, ERIM (Environnement Réseau pour lInterprétariat Multimodal) [Fafiotte 00] a pour objectif laide à linterprétariat par la réalisation doutils daide à la traduction en ligne. Lidée est de créer un environnement permettant daider linterprète en vue de lui donner la capacité de sadapter plus rapidement à une conversation quil prend en cours (notamment en cas de changement dinterprète). Nous pouvons aussi imaginer une situation dans laquelle les utilisateurs ne font appel à un interprète que ponctuellement. Dans le cadre dERIM, cependant, nous considérerons que les locuteurs conversent dans une langue commune (par exemple en anglais pour un japonais et un français) et quils ne feront appel à linterprète que lorsque la situation lexigera, cest à dire en cas dincompréhension majeure. Ce que nous appellerons dans ce cas machine de traduction, sera alors le poste intermédiaire qui pourra fournir une aide aux interlocuteurs et à linterprète.
2. Communication humaine médiatisée : NESPOLE! et lannotation en actes
En traduction de parole, comme en communication homme-machine, modéliser le dialogue est très utile. Pour la reconnaissance vocale, cela permet de restreindre lensemble des solutions. Pour la traduction, cette modélisation permet de réduire les ambiguïtés. Nous pensons quune bonne modélisation du dialogue nest possible quà travers la modélisation des attentes dans le dialogue. Les attentes se définissent comme lensemble des réponses possibles à une intervention dans un contexte donné ; par exemple les attentes à une question de confirmation sont oui/non/ne sais pas. Cela peut être également une question de clarification en cas dincompréhension comme dans le REF _Ref74108939 \h Tableau 1 ci-dessous :
A : Habitez-vous à Grenoble ?
B : OuiA : Habitez-vous à Grenoble ?
B : Pardon, vous avez-dit Grenoble ?
A : Oui
B : Non, jhabite dans la banlieueTableau SEQ Tableau \* ARABIC 1 : Deux suites possibles à un même énoncé
Le problème devient plus complexe dans le cas des questions indirectes quil ne faut pas considérer comme des questions de confirmation, par exemple,
A : Avez-vous lheure ?
B : Il est 13 heures
et aussi dans le cas dun échange de propositions portant sur le monde, par exemple,
A : Dans quelle rue habitez-vous ?
B : Paradis
qui sous-tend que Paradis est le nom dune rue dans ce contexte, car dans ce cas lattente est un nom propre (quil ne faudra donc pas traduire dans la conversation par exemple).
Le projet européen NESPOLE ! (NEgociating through SPOken Language in E-commerce) [Besacier & al. 01] est un consortium explorant les futures applications de la traduction de parole dans le cadre du commerce et des services électroniques. Cest un projet de traduction automatique de dialogues multilingues dans le domaine du renseignement touristique. Les partenaires étaient ITC/IRST de Trento (Italie), ISL Labs. de UKA (Karlsruhe, Allemagne), CMU (Pittsburgh, USA), Aethra (une compagnie italienne spécialisée dans les logiciels de vidéoconférence), APT : une agence de tourisme dans la région du Trentin (Italie) et le laboratoire CLIPS (Grenoble, France).
Le scénario pour la première démonstration de NESPOLE! comportait un agent parlant italien, situé dans une agence de tourisme en Italie et un client situé ailleurs (parlant anglais, allemand ou français) utilisant un simple terminal (PC avec cartes son et vidéo, logiciel de vidéoconférence comme NetMeeting"!). Ce choix dépendait de la technologie actuelle. Dans un futur proche, le téléphone portable de troisième génération peut être également utilisé comme terminal.
Le client souhaite organiser un voyage dans la région du Trentino et consulte le site Internet de lagence de tourisme (APT) afin dobtenir des informations. Si le client désire connaître davantage dinformations à propos dun sujet particulier ou préfère un contact plus direct, un service de traduction de parole lui permet dinteragir dans sa propre langue avec lagent italien dAPT. Une session de vidéoconférence peut alors être ouverte entre le client et lagent et le dialogue débute entre eux. Le scénario commence avec lhypothèse que le touriste a déjà visité le site APT www.trentino.to. Comme le confirment nos intuitions mais aussi une courte analyse des courriels reçus par APT à propos de demandes dinformations générales, le touriste na pas parcouru le site Internet ni lu les pages en détail et souhaite demander des informations sur certains détails dun sujet spécifique. Larchitecture employée pour la traduction de parole est proposée sur la REF _Ref73870148 \h Figure 4 ci-après :
EMBED Word.Picture.8
Figure SEQ Figure \* ARABIC 4 : Architecture de traduction de parole par langage pivot ([Besacier 01])
Dans cette architecture, le locuteur A parle devant un système de reconnaissance. Lhypothèse de reconnaissance alimente ensuite le système danalyse qui traduit lénoncé en une forme intermédiaire commune à tous les participants du projet. Cette forme intermédiaire (IF) est une représentation sous forme dacte de parole du contenu de lénoncé. Elle est alors transférée vers le générateur de langue à partir dIF qui opère une transformation de la forme intermédiaire pour aboutir à un énoncé dans la langue cible. Cet énoncé est ensuite synthétisé dans la langue cible. Le locuteur A parle donc dans une langue source qui est dabord traduite en une langue intermédiaire (pivot) avant dêtre traduite en langue cible, langue dans laquelle lallocutaire B entendra lénoncé.
Pour améliorer les systèmes de traduction de parole encore expérimentaux, les verrous scientifiques et technologiques à lever sont la robustesse, le facteur déchelle, la portabilité multi-plate-forme et linteraction multimodale avec un contenu multimédia.
Dans ce projet, nous avons enregistré un corpus [Burger & al. 01] de dialogues entre un agent italien parlant français pour loccasion et des clients français. Une première analyse, sous langle psycholinguistique, de ces dialogues transcrits nous a permis de relever les difficultés de la langue et en particulier à loral dans le cadre du dialogue. Notre conclusion porte alors sur limportance danalyser (et gérer ensuite) les dialogues à un niveau pragmatique. Lannotation de ces dialogues nous a permis de valider notre approche intégrant les attentes.
3. Communication Homme-Machine : PVE et le modèle générique de dialogue
Le dialogue homme-machine, forme dinteraction entre lhomme et la machine, est très différent du dialogue humain. Lhomme et la machine ont une sémiotique non partagée. Leurs connaissances sont différentes. Le champ sémantique est plus restreint, le lexique plus contrôlé. Leurs rôles et leurs compétences sont dissymétriques. La machine nest pas cognitive, ni sociale. Le langage de lutilisateur est plus direct quavec un interlocuteur humain. Ses phrases sont plus courtes et dune complexité syntaxique relativement pauvre. Ce type de dialogue contient beaucoup moins dimplicatures conversationnelles (ellipses, non-dits, implicites, etc. ; cf. chapitre II.3.1 La coopérativité selon Grice p54) quun dialogue humain.
En revanche, un système de dialogue homme-machine est une interface entre lutilisateur qui peut converser en langue naturelle et le système. Il offre donc laccès au système avec un minimum de contraintes et doit être capable alors de comprendre ce que dit son interlocuteur, cest à dire de créer une représentation interne en fonction de connaissances issues de nombreux domaines étudiés par différente disciplines comme nous le verrons dans létat de lart (linguistique, pragmatique, informatique, sciences cognitives, psycholinguistique, etc.)
Le projet RNRT PVE (Portail Vocal d'Entreprise) a pour objectif de concevoir et de réaliser un système de dialogue homme-machine dont le modèle est générique (cest à dire indépendant de la tâche à réaliser) donc adaptable à diverses tâches. Lobjectif est de traiter des dialogues courts (2 à 3 minutes) et complexes (contenant des phénomènes courants comme lanaphore, lellipse, etc.) en langage naturel. Le support choisi est la communication intra-entreprise via un portail accessible par la voix (le téléphone). Ce portail pourrait être comparé à une sorte d'assistant virtuel permettant de résoudre diverses tâches habituellement dévolues à des secrétaires. Suivant alors une relation utilisateur-système de type « maître-serviteur », lassistant doit pouvoir résoudre des tâches aussi diverses que la mise en relation avec un membre de l'entreprise, la prise de rendez-vous, la planification de réunion avec vérification des emplois du temps, la réservation de salle de réunion ou plus rarement la consultation dun agenda commun, lenvoi de documents, etc. Les interactions avec le système se font par un dialogue vocal en langue naturelle.
Dans un tel système, le modèle de dialogue est donc de première importance et nous pensons quune bonne gestion des attentes de lappelant est une condition nécessaire au succès du dialogue. Dans ce projet, nous avons pu mettre en uvre lidée de généricité (indépendance par rapport à la tâche) et valider une plate-forme générique pour élaborer des dialogues vocaux entre un système et un utilisateur.
Le but final est de modéliser un générateur de système de dialogue suffisamment générique pour convenir à un large éventail d'entreprises et surtout de tâches. Un autre objectif est la démonstration de la possibilité d'interaction vocale par le biais du dialogue en langue naturelle.
Les participants à ce projet étaient : l'entreprise Qualipse, le laboratoire CLIPS, le bureau d'étude Amoweba et la compagnie IBM France. L'entreprise Qualipse (ex Neurosoft) a développé le prototype de dialogue. Le laboratoire CLIPS a effectué la collecte de dialogues réels, l'analyse de ces dialogues, la modélisation de ces dialogues et l'évaluation ergonomique du prototype. Le bureau d'étude Amoweba (ex Novadis Service) spécialisé dans l'ingénierie cognitive a réalisé les études d'usages dans diverses entreprises. La compagnie IBM France a fourni une plate-forme de développement pour VoiceXML permettant de s'affranchir des parties reconnaissance de parole et synthèse vocale.
EMBED PowerPoint.Slide.8
Figure SEQ Figure \* ARABIC 5 : Architecture du système de dialogue dans le projet PVE (en grisé, les données spécifiques à la tâche)
Ce projet propose de lever différents verrous propres au dialogue oral. Ainsi, pour la partie reconnaissance de parole, il a fallu aborder les aspects multilocuteur et multilingues, canal téléphonique, robustesse et couverture linguistique (en particulier, les noms propres). Ensuite, au niveau de lanalyse sémantique certaines difficultés ont dû être levées comme la richesse des concepts, la complexité des énoncés, le sens commun ou la couverture sémantique. Ces différentes couvertures (linguistique, sémantique) sont cruciales dans lindépendance dun système à la tâche. Pour lanalyse pragmatique, nous nous sommes attachés aux problèmes de représentation du discours à travers la résolution des référents à la tâche et au discours ainsi quaux connaissances mutuelles. Au niveau de la gestion de la tâche, nous avons étudié les approches à base de planification à mettre en comparaison avec celles prônant laction située. Dans le cadre de la gestion du dialogue, nous nous sommes intéressés à la pertinence des stratégies à employer ainsi quà la généricité du modèle de contrôle de dialogue. La génération offre des intérêts de recherche au niveau du degré de force illocutoire et des effets perlocutoires. Enfin, au niveau de la synthèse vocale nous avons approfondis les problèmes de prosodie dans le dialogue.
L'indépendance totale du modèle de dialogue par rapport au contexte de la tâche est impossible pour plusieurs raisons. Les référents de la tâche interviennent dans les phases de reconnaissance vocale et de compréhension sémantique. Pour cette dernière, il nexiste pas de module à large couverture. Enfin le contexte de la tâche intervient dans l'interprétation pragmatique.
Notre but fut donc délaborer un modèle le plus indépendant possible par rapport au contexte de la tâche notamment par lutilisation de la théorie des actes de langage et de celle des attentes, toutes deux indépendantes de la tâche. Le contrôleur du dialogue ne doit pas être conçu spécifiquement pour l'organisation d'un ensemble de tâches, mais comme un composant indépendant qui contrôle le dialogue en choisissant la stratégie la mieux adaptée à la réalisation des buts dialogiques. Ce contrôleur reçoit en entrée les données issues du gestionnaire de tâche. Les dictionnaires et ontologies sont spécifiques à l'univers du domaine.
L'intérêt d'un modèle générique réside bien sûr dans sa ré-utilisabilité. Si l'on dispose d'un tel système, réaliser une application particulière se réduit à développer un gestionnaire de la tâche et à adapter les ressources linguistiques correspondantes.
Ma contribution dans ce projet fut (selon la méthodologie décrite en REF _Ref73870026 \h \* MERGEFORMAT Figure 3) :
Analyse du type de corpus pertinent pour lélaboration du modèle de dialogue
Collecte dun corpus de dialogues réels dans le cadre de l'entreprise.
Sélection des dialogues les plus pertinents et classement par tâche.
Elaboration dune norme de transcription.
Transcription de ces dialogues.
Elaboration dune grille dannotation
Annotation de ces dialogues en terme de buts illocutoires, stratégies, actes et échanges
élaboration d'une structure d'échanges générique pour chaque dialogue
élaboration d'une structure d'échanges générique à tous les dialogues. Utilisation d'un modèle d'analyse de dialogue (structural avec l'école de Genève Roulet & Moeschler avec composante dynamique Luzzati & Bilange)
Elaboration du vocabulaire utilisé dans le corpus homme-homme
Elaboration des énoncés typiques dans le corpus homme-homme
Elaboration dune expérimentation de type Magicien dOz (version 0) pour recueillir du corpus homme-machine adapté à la tâche à réaliser et valider certaines hypothèses avant la modélisation effective.
Elaboration du vocabulaire utilisé dans le corpus homme-machine
Elaboration des énoncés typiques dans le corpus homme-machine
Validation des premières hypothèses
Elaboration dune expérimentation de type Magicien dOz (version 1) pour recueillir du corpus homme-machine adapté à la tâche à réaliser et valider certaines hypothèses avant la modélisation
Elaboration dun questionnaire
Dépouillement du questionnaire et des résultats
Calcul des Attentes
Modélisation du dialogue avec toutes ces données : opportuniste pour être dynamique et flexible
Chapitre II : Cadre théorique en modélisation du dialogue oral
Le dialogue oral en parole spontanée séloigne sur bien des points du langage écrit. En particulier la complexité structurelle de loral est plus pauvre, les phrases plus courtes usant de moins de relatives ou de subordonnées mais plus de juxtapositions. De plus, la communication directe permet de faire des références implicites à travers de nombreux déictiques, anaphores ou ellipses. Enfin, loral présente de nombreuses agrammaticalités telles que les répétitions, hésitations, corrections, inachèvement, etc.
De nombreux travaux se fondent sur du dialogue écrit supprimant ainsi ces phénomènes ainsi que la phase de reconnaissance vocale et ses erreurs. Ils permettent cependant détudier le dialogue et même certains phénomènes de loral (moins présents à lécrit) .
Le dialogue homme-machine fait intervenir différentes disciplines telles que la philosophie du langage, les cognisciences, l'ethnoscience (et en particulier l'ethnométhodologie) et les technosciences (linformatique).
Les premiers modèles sont inspirés du modèle du code de Shannon & Weaver qui pose la communication en termes de codage du côté de lémetteur, transfert d'information par un canal de communication et décodage du côté du récepteur ( REF _Ref73871266 \h \* MERGEFORMAT Figure 6) :
Figure SEQ Figure \* ARABIC 6 : Modèle du code (vue simplifiée)
Cette théorie suppose alors un modèle sans perte dinformation dans la transmission. La pensée (représentation conceptuelle) de lémetteur est transmise sans perte de sorte que la pensée reçue est identique à celle émise ( REF _Ref73874293 \h \* MERGEFORMAT Figure 7).
Figure SEQ Figure \* ARABIC 7 : Modèle du code
Or le processus de parole est non séquentiel. La parole ne traduit pas exactement la pensée et le décodage ne reformule pas la pensée comme elle a été émise. La communication verbale nest pas un simple transfert de pensées par des mots. Elle implique une interprétation du nouvel environnement acoustique. Il se produit donc quelque chose de plus quun simple décodage du sens linguistique. Nous montrerons dans le présent chapitre différentes approches du dialogue que nous tenterons de combiner par la suite. Nous commencerons par la philosophie du langage avec la notion dacte de langage. Les approches issues des ethnosciences et des cognisciences seront ensuite présentées pour finir par lapproche linguistique.
Selon la sémiotique [Greimas 80,90], le dialogue est un procès (processus) qui fait sens. Tout procès est vu comme un parcours narratif qui vise un gain qui correspond à avoir plus ou être mieux. Les interlocuteurs cherchent donc à remplir une attente. Chaque étape du dialogue est donc motivée par un vouloir avoir plus ou un vouloir être mieux. Greimas définit les interactions dialogales à travers quatre carrés sémiotiques définissant quatre modalités ( REF _Ref78026836 \h Tableau 2).
ontiqueactionnelle & volitiveépistémiquedéontiqueavoirfairesavoirdevoirêtrevouloircroirepouvoirTableau SEQ Tableau \* ARABIC 2 : Modalités de Greimas
Les modalités actionnelles et volitives définissent le vouloir, le faire et leur contraire (v, ¬v, f, ¬f) permettant de dénoter lintention et laction.
Les modalités ontiques définissent lavoir, le être et leur contraire (a, ¬a, e, ¬e). Supposant un but à atteindre, nous laisserons ces modalités de côté dans cette thèse.
Les modalités épistémiques définissent le croire, le savoir et leur contraire (c, ¬c, s, ¬s) permettant de représenter les croyances et les connaissances.
Les modalités déontiques définissent le pouvoir et le devoir et leur contraire (p, ¬p, d, ¬d).
Ces modalités peuvent alors être combinées pour représenter les énoncés des interlocuteurs. On pourra relever parmi ces croisements certains qui seront à la base de nos travaux. Ce seront par exemple, vouloir faire, ne pas vouloir faire, vouloir faire faire, faire faire (directif de Searle), faire croire (par exemple mentir), faire devoir (obliger), faire pouvoir (donner un choix), faire savoir (informer), etc.
Ainsi, un procès émergera par un vouloir. Par exemple un vouloir faire savoir se manifestant sous la forme faire savoir et la réaction de lallocutaire permettra la continuation du procès. Un exemple simple de procès montre lintérêt du point de vue sémiotique :
A veut avoir X donc A veut faire Y
si A peut faire Y alors A fait Y et A a X
sinon A fait faire Y à B, A fait devoir Y à B donc B doit faire Y et A a X
La conversation samorce donc par lespérance dun gain. La communication relève alors dune « tentative dajustement où lon doit ajouter au transport de linformation le jeu des rôles et des actes par quoi les interlocuteurs se reconnaissent comme tels, agissent comme tels et fondent ainsi des communautés linguistiques dans un monde humain » [Wittgenstein 58]
1. Philosophie analytique et acte du discours
La philosophie du langage dont la philosophie analytique est issue s'intéresse à l'individu placé en situation de communication sur un plan intentionnel et actionnel.
La pragmatique est l'étude du rôle que jouent les facteurs contextuels dans la communication verbale. Elle étudie donc le sens des énoncés en contexte en décrivant les inférences nécessaires pour accéder au sens communiqué par lénoncé (différent du sens littéral). Elle peut donc résoudre les implicatures. Elle se rajoute à la couche de sémantique qui se préoccupe du sens de l'énoncé indépendamment du contexte. En effet, elle s'intéresse aux conséquences des énoncés en sus du contenu, faisant intervenir les notions d'intention et d'effet. Elle peut alors traiter des cas complexes qui ne sont solubles que par la prise en compte du contexte. C'est le cas notamment des anaphores, qui reprennent un élément du contexte précédent sans le répéter (ex: je le veux), des ellipses, qui suppriment des mots utiles mais sous-tendus, des déictiques qui servent à désigner un objet déterminé dans la situation (ex: je veux celui-ci) ou même de phrases incomplètes.
Introduite par les philosophes du langage ordinaire [Austin 69] et [Searle 70], la pragmatique use dunités atomiques nommées actes de langage selon lidée que « parler c'est agir sur le monde et sur les autres, c'est une forme de vie » [Wittgenstein 58]. Ces actes sont caractérisés par leurs aspects actionnel, intentionnel, conventionnel et contextuel. Elle combine ces actes pour définir l'intervention comme unité monologique puis l'échange comme unité dialogique.
Concernant les actes, [Bilange 92] soutient que si les reconnaître et les générer suffit pour dialoguer correctement alors la procédure de dialogue peut se concevoir simplement comme une sorte d'automate réglant les enchaînements des actes de langages entre eux.
La théorie des actes se situe dans la théorie des intentions. Si A énonce une proposition, c'est qu'il a l'intention de la produire. Si B veut comprendre cette proposition, il doit interpréter l'intention qui l'a sous-tendue, dans le contexte où elle a été produite. C'est alors qu'intervient la notion de but (état mental ou situationnel que désire atteindre le conversant) qui motive le dialogue et l'oriente. « En tant quactivité orientée vers une finalité, le dialogue amène au fur et à mesure les partenaires de linteraction à progresser vers un but qui signe laccord (ou le désaccord) entre les locuteurs » [Vernant 94]. Cette activité orientée vers un but se manisfeste à travers les actes de dialogue accomplis par les locuteurs.
Frege introduit la notion de force assertive selon lidée que lobjet de la logique ne doit pas être la proposition mais le jugement de cette proposition. Ainsi, il étudie la proposition et lassertion de cette proposition, cette dernière constituant et assurant la vérité de la proposition. Soit une proposition p= « le petit chat est mort ». On peut la considérer simplement sans valeur de jugement. On peut aussi lasserter, laffirmer, donnant ainsi une valeur de jugement à la proposition.
1.1. Théorie descriptive dAustin
Cette notion de force assertive est le point de départ de la réflexion dAustin [Austin 62, 70] qui élabore une théorie descriptive des actes de discours. En affirmant « Quand dire c'est faire », Austin introduit l'idée que le locuteur qui formule un énoncé ne le fait pas uniquement pour énoncer des propositions vraies, fausses ou à vérifier. Il s'exprime bien plus dans l'intention de réaliser une action et produire certains effets sur l'allocutaire. Lénoncé résulte davantage dusages constatifs (lusage scientifique qui décrit le phénomène et sattache à sa vérité, ex : le ciel est bleu) et performatif (la magie sociale qui transforme le discours en action et sattache davantage au succès de la proposition). Il met donc laccent sur la pragmatique en partant du principe que tout énoncé est un acte de langage. Pour formaliser ces interventions, l'auteur a alors distingué deux types dénoncés :
Les constatifs permettent de décrire un état ou une situation à travers des énoncés assertifs.
Les performatifs servent à créer une situation, obtenir une action.
Ces derniers contiennent l'action qu'ils dénotent. Par exemple, dire « Je vous déclare mari et femme » c'est faire l'action du mariage à condition que l'on ait la légitimité et les conditions pour la faire (prêtre, maire, adjoint au maire par délégation de pouvoir, etc.). Le déclarant doit donc avoir le pouvoir social de dire quelque chose qui sera un acte social. Ainsi produire cet énoncé permet de modifier le monde (les deux personnes sont désormais mariées). Un performatif est donc une action sociale soumise à des contraintes (on ne marie pas des pingouins, les mariés doivent être majeurs, non-mariés, de sexe différent [actuellement en tous cas], etc.). Or les deux types dénoncés sont très imbriqués. Un constatif peut recevoir des caractéristiques dun performatif. « Le ciel est bleu » peut être transformé en « jaffirme que le ciel est bleu ». De même, un performatif présuppose un constatif. « Je vous avertis que le taureau va foncer » présuppose un taureau. Pour tout acte du discours il faut alors distinguer trois dimensions (dans chacune desquelles on peut retrouver des fonctions de constatif et de performatif).
Tout énoncé est donc un acte de parole à trois composantes :
(a) le locutoire (le dire) : lénoncé proprement dit. On se place au niveau sémantique de la signification à travers les notions de référence et de prédication. Cest lacte de dire.
(b) lillocutoire (le faire) : laction réalisée par lénoncé. Cest lacte effectué en disant quelque chose qui introduit la notion de force illocutoire. On se place au niveau pragmatique car on sattache à lénoncé produit dans une situation donnée avec des interlocuteurs donnés.
(c) le perlocutoire (leffet produit sur son interlocuteur) : laction produite sur linterlocuteur. Cest lacte effectué par le fait de dire. On sintéresse alors à lauditeur avec des notions dobjectifs et deffets. On fournit les connaissances pour permettre dagir.
Sur un même locutoire (ex : une porte et la fermeture de cette porte) peuvent donc se rattacher plusieurs actes illocutoires (ex : constatif « la porte est fermée », ordre « ferme la porte », performatif « jaffirme que la porte est fermée », etc.) et lacte perlocutoire permet de définir les intentions (e.g. : « ferme la porte » indique que lon veut que la porte soit fermée, mais aussi que ce soit lallocutaire qui ferme la porte).
Un même énoncé peut donc poursuivre plusieurs buts :
- un but illocutoire : leffet espéré de l'action (que la porte soit fermée).
- un but perlocutoire : l'effet espéré sur l'interlocuteur (quil obéisse et aille fermer la porte).
Les deux premières dimensions répondent à des conventions strictes. En effet, la sémantique répond à un lexique et une grammaire conventionnels. De même lordre est conventionnalisé : A donne un ordre à B donc il en a le droit et B doit obéir.
En revanche la dimension perlocutoire ne répond pas à des conventions. Elle nest pas calculable a priori car elle dépend de nombreux paramètres, comme la relation entre les interlocuteurs. Leffet nest pas assuré. Lorsque A donne un ordre à B, B peut ne pas obéir aveuglément et cette limite à lobéissance reste très personnelle. A peut donc être sûr que son ordre sera exécuté alors que B peut oublier, négliger ou refuser cet ordre.
1.2. Théorie explicative de Searle
Searle pense que les unités premières de signification dans l'usage et la compréhension du langage ne sont pas des propositions isolées ni des conditions de vérité, mais plutôt des actes de discours du genre illocutoire [Austin 62] tels que des assertions, questions, promesses, ordres et déclarations. En parlant, nous entendons accomplir des actes illocutoires. Cela fait partie de ce que nous voulons dire et communiquer aux interlocuteurs.
Searle introduit la théorie des intentions comme généralisation de la théorie des actes de langage. Ainsi, pour A, énoncer une proposition résulte de lintention de la produire. Pour B, comprendre cette proposition revient à interpréter lintention qui la sous-tendue, dans le contexte où elle a été produite. Cette théorie situe donc la communication dans une perspective pragmatique.
La taxonomie dAustin a donc été reprise et affinée par Searle [Searle 72] considérant, selon un principe dexprimabilité, qu'un locuteur en parlant effectue simultanément quatre actions :
(a) un acte d'énonciation (le dire) : l'action même de parler, de dire quelque chose, énoncer les mots. C'est l'acte d'énonciation par le fait d'articuler, dactiver ses mâchoires et de produire du son, résultat d'une activité phonétique, grammaticale et sémantique.
(b) un acte locutoire (dire en disant) : l'acte propositionnel qui construit du sens ; référer, prédiquer.
(c) un acte illocutoire (le faire) : l'action qui est réalisée par le fait de dire quelque chose. Cette action consiste à informer, affirmer, suggérer, questionner, promettre, ordonner, demander, conseiller, etc. Elle est affectée d'un certain degré de force illocutoire (ou fonction communicative) qui caractérise la fonction de l'acte et dun contenu propositionnel qui indique ce qui est affirmé, suggéré, demandé, etc.
(d) un acte perlocutoire (faire croire en disant) : l'action qui décrit la production intentionnelle d'effets sur l'interlocuteur. Par exemple, les actes perlocutoires de convaincre, effrayer, insulter, etc. C'est l'idée d'agir sur l'interlocuteur. Ainsi l'énoncé : « passe-moi le sel » ou « ferme la porte » montrent l'intention de voir si l'interlocuteur obéit, « haut les mains » se fait dans lintention de neutraliser et faire peur, etc. On s'intéresse alors à l'effet produit sur l'interlocuteur
Ce principe dexprimabilité permet une description des actes de langage mais aussi leur régulation. Searle inclut cette théorie des intentions dans la pragmatique, incluse elle-même dans une théorie du langage et une théorie de laction.
Par extension, le terme acte de langage regroupe ces quatre actions. Toutefois, dans le contexte de ce travail, ce terme se réfère le plus souvent à l'acte illocutoire qui contient l'action proprement dite et les intentions qui l'ont motivée (buts). En fait, jusqu'au niveau illocutoire (c), un acte de langage peut se représenter sous la forme Fp où p représente le contenu propositionnel et F la force illocutoire. « je t'ordonne de me passer le sel » se décompose en une force directive F marquée par « je t'ordonne » et un contenu propositionnel p marqué par « me passer le sel ».
Jusquau niveau illocutoire (c), le rôle des interlocuteurs nintervient pas. La notion de locuteur nest prise en compte quen termes de locuteur abstrait et non de locuteur parlant. Searle a donc introduit la notion de sens littéral par opposition au sens en contexte. Ce sens littéral est adapté à linterprétation dun acte direct comme lexemple précédent. Mais ce sens littéral ne permet pas linterprétation des actes indirects dont lénonciation nest pas littérale comme dans lexemple du REF _Ref73876080 \h \* MERGEFORMAT Tableau 3.
EnoncéContexteActe résultantIl fait froid iciFenêtre ouverteOrdre (fermer la fenêtre)Fenêtre ferméeAssertion (froid)Tableau SEQ Tableau \* ARABIC 3 : Distinguo sens littéral / sens en contexte
Lénoncé « Il fait froid ici », dans une pièce sans moyen de chauffage, na pas la même interprétation selon que la fenêtre est ouverte ou fermée. Dans le premier cas, cet énoncé peut sanalyser comme une demande (indirecte) du locuteur que son allocutaire ferme la fenêtre (acte dordre avec force faible). Dans le deuxième cas, cest plutôt une simple assertion (directe) exprimée littéralement. Lénoncé ne peut donc pas être interprété sans laction sous-tendue (ici, laction de fermer la fenêtre) ni le contexte dénonciation (fenêtre ouverte ou fermée).
Il est nécessaire, selon une stratégie inférentielle, dassocier à lacte ses conditions de réalisation (situation, monde, arrière-plan, etc.), le pourquoi, les intentions de lénonciateur, le but poursuivi, etc. Cet acte littéral associé au contexte permet par inférence de répondre à lacte indirect. Ainsi un énoncé tel que « Avez-vous lheure ? » qui peut avoir pour réponse directe « oui » ou « non » sera analysé par inférence en acte indirect « Quelle heure est-il ? » qui aura davantage pour réponse « il est 18h00 ».
Searle répertorie cinq actes que nous détaillerons plus loin : assertif, directif, commissif, expressif, déclaratif. Il sintéresse alors au but de lacte, à son mode daccomplissement, au degré de sincérité, au degré de force. Il introduit également quatre types de conditions de félicité (réussite ou succès) dun acte :
Les conditions de contenu propositionnel précisent quil « doit exister une procédure, reconnue par convention, dotée par convention dun certain effet, et comprenant lénoncé de certains mots par de certaines personnes dans de certaines circonstances ».
Les conditions essentielles ou conditions sur le monde définissent quil « faut que, dans chaque cas, les personnes et les circonstances particulières soient celles qui conviennent pour quon puisse invoquer la procédure en question ».
Les conditions préliminaires ou conditions sur la situation, précisent que « la procédure doit être exécutée par tous les participants, à la fois correctement et intégralement ».
Les conditions de sincérité définissent létat psychologique dans lequel le locuteur doit être sil est sincère. « Lorsque la procédure comme il arrive souvent- suppose chez ceux qui recourent à elle certaines pensées ou certains sentiments, lorsquelle doit provoquer par la suite un certain comportement de la part de lun ou de lautre des participants, il faut que la personne qui prend part à la procédure (et par là linvoque) ait, en fait, ces pensées ou ces sentiments, et que les participants aient lintention dadopter le comportement impliqué. » De plus, « ils doivent se comporter ainsi, en fait par la suite ».
1.3. Théorie illocutoire de Vanderveken (formalisation des précédentes)
Vanderveken [Vanderveken 88] a formalisé une logique illocutoire du discours, essentiellement monologique, poursuivant ainsi les travaux de Searle. Selon lui, les actes illocutoires sont « les unités premières de signification dans lusage et la compréhension des langues naturelles ». Ainsi, tout énoncé contient un marqueur de force illocutoire. Il établit donc une taxonomie des actes de discours dans laquelle les « actes illocutoires élémentaires de la forme F(P) sont exprimés dans les langues naturelles par des énoncés élémentaires de la forme f(p) où f est un marqueur de forme illocutoire et p une clause » [Vanderveken 88, p21]. Il distingue six types dénoncé.
Lénoncé déclaratif permet de dire comment sont les choses (« La porte est ouverte »).
Lénoncé conditionnel permet de signifier ce qui se passerait si certains faits existaient (« Jirais bien en montagne, si le temps était plus propice »). Ce type dénoncé a été abandonné par la suite au profit de lénoncé performatif permettant de faire des déclarations, cest à dire agir par les mots (« Je ferme la porte »).
Lénoncé impératif donne des directives à lallocutaire (« Ferme la porte »).
Lénoncé interrogatif permet de poser des questions (« Etes-vous certain ? »).
Lénoncé exclamatif sert à exprimer les états mentaux des locuteurs (« Je suis triste »).
Enfin, lénoncé optatif exprime les souhaits du locuteur (« Jaimerais quil pleuve »).
Avec ces six types dénoncés, il propose cinq usages.
Lusage assertif consiste à exprimer une proposition P avec le but illocutoire de représenter létat des choses précisé par P.
Lusage engageant (ou commissif) consiste à exprimer une proposition P avec le but illocutoire de sengager à accomplir laction future contenue dans P.
Lusage directif consiste à exprimer une proposition P avec le but illocutoire impératif (cest à dire dessayer de faire en sorte que lallocutaire accomplisse laction future contenue dans P).
Lusage déclaratif consiste à exprimer une proposition P avec le but illocutoire daccomplir laction contenue dans P par lénonciation elle-même.
Enfin, lusage expressif consiste à exprimer une proposition P avec le but illocutoire exclamatif (cest à dire manifester létat mental contenu dans P).
Vanderveken sintéresse alors à laspect vériconditionnel de la signification de lénoncé et introduit une distinction entre conditions de satisfaction et conditions de succès munissant les actes illocutoires dintentionnalité.
Une condition de satisfaction porte sur le contenu de lénoncé et correspond aux conditions de vérité de leur contenu propositionnel. Lénoncé « Il pleut » est vrai ou faux. Une assertion sera satisfaite si elle est vraie. Une promesse sera satisfaite si elle est tenue. Un conseil sera satisfait sil est suivi. Cette condition vérifie donc que les effets de lacte illocutoire sont vrais dans le monde.
Les conditions de succès portent plutôt sur les actes et correspondent aux croyances et aux intentions du locuteur. Un acte sera un succès si lengagement est tenu ou si la description est exacte. Ce succès dépendra des six composantes de chaque force : le but illocutoire (définissant les relations entre les mots et les choses) qui dénote lintention de réaliser lacte illocutoire, le mode daccomplissement (moyens et manières daccomplir un acte, par ex. il faut avoir autorité pour commander ou donner une option de refus lors dune demande), le contenu propositionnel (qui doit être tenu pour vrai), le degré de sincérité (qui reflète les attitudes psychologiques ; le locuteur croit le contenu propositionnel), le degré de force illocutoire (un degré de puissance de conditions de sincérités) et certaines conditions préparatoires (des vérités sur le contexte et sur larrière-plan ; le locuteur a des raisons de croire en la vérité du contenu propositionnel).
Succès \ SatisfactionOuiNonOuivraie et jy crois
=> vraieJy crois mais faux
=> erreurNonvraie mais je ny crois pas
=> erreur du mensongefaux et je ny crois pas
=> mensongeTableau SEQ Tableau \* ARABIC 4 : Conditions de succès / satisfaction
Ainsi, une assertion telle que « le soleil brille » est satisfaite si elle est vraie (le soleil brille effectivement) ou non satisfaite si elle est fausse (il pleut par exemple). Les conditions de succès vont permettre de définir alors la volonté de coopération du locuteur. La même assertion sera un succès si le locuteur la croit vraie mais ne sera pas un succès sil ment (donc sil la croit fausse). En croisant ces deux conditions on obtient donc des situations peu analysées auparavant et pourtant très possibles. La vérité, lerreur ou le mensonge apparaissent évidemment mais lerreur du mensonge devient possible. Ainsi lorsque le locuteur ment (il ne dit pas ce quil croit) et commet une erreur (ce quil croit est faux), cette erreur du mensonge aboutit à une assertion vraie.
Vanderveken introduit alors limplication cognitive et dengagement selon lidée que le locuteur sait quel acte il tente daccomplir et quels actes il sengage à accomplir par ce fait : « Quand une force illocutoire F contient une autre F', nous le savons et chaque acte de discours de la forme F(P) nous engage à accomplir l'acte correspondant F'(P). De même, quand une proposition P en implique cognitivement une autre Q (en ce sens qu'on ne peut l'exprimer sans savoir a priori qu'elle implique l'autre Q), il en résulte des engagements illocutoires forts; les actes illocutoires de forme F(P) dont la force est primitive engagent le locuteur à accomplir l'acte correspondant de forme F(Q) quand Q satisfait les conditions sur le contenu propositionnel. Ainsi nous ne pouvons affirmer ou déclarer la conjonction P & Q sans affirmer ou déclarer P. Nous sommes capables de faire pas mal d'inférences pratiques et théoriques valides en parlant. L'engagement illocutoire fort d'un locuteur est décidable et bien fondé alors que l'implication propositionnelle classique ne l'est pas. »
1.4. Une taxonomie des actes de langage
Une taxonomie des actes de langage a été introduite par Searle [Searle 69], puis affinée par Vanderveken. Nous présenterons ici cette taxonomie en la mettant en correspondance avec une notation introduite par Caelen dérivée des modaux de Greimas. A partir de celle-ci, nous avons nous-même établi une taxonomie adaptée à notre notion dattentes. Nous la présenterons en détails dans la partie II.
Lacte assertif est utilisé pour décrire un état de fait existant. Le locuteur exprime comment sont les choses. Le but est de rendre le contenu propositionnel (la proposition) conforme au monde. Lacte assertif permet donc dindiquer une connaissance ou du moins de révéler les croyances du locuteur. Selon la notation de Caelen, cet acte sera de la forme Fs pour Faire savoir. Le locuteur fait savoir une information. « Il fait beau aujourdhui ». Nous y retrouverons alors tous les énoncés daffirmation, dinformation, dassertion, de confirmation, de constatation, de présentation, de description, de commentaires, dexplication, dillustration, dexposition, dépellation, de répétition, de rectification, de concession, de début daction ou de changement dactivité mais aussi les énoncés de négation, de contestation, de critique, de restriction et dabandon. La condition de sincérité est donc que le locuteur croit en la proposition quil énonce.
Lacte directif a pour but dobliger linterlocuteur à réaliser une action future. Le locuteur tente de faire faire les choses par autrui. Le but est alors de rendre le monde conforme au contenu propositionnel dans lequel est comprise laction future à réaliser par linterlocuteur. Lacte directif permet dexprimer les souhaits ainsi que la volonté du locuteur. On y retrouve donc les énoncés contenant des verbes modaux (vouloir, pouvoir, devoir, falloir) ou le verbe aller au futur. Plus généralement, seront directifs tous les énoncés contenant un ordre, une autorisation, une invitation, un conseil, une suggestion, un avertissement, un défi, une question, une interrogation, une demande dinformation, une demande de précision, une demande de confirmation, une requête, une réitération, une relance, une insistance ou une supplication. Cet acte aura différentes notations. Il pourra être Ff (Faire faire) pour faire faire une action : « Attendez un instant, sil vous plaît ». Il pourra être Fd (Faire devoir) quand lobligation est forte : « passe-moi le sel ». Il sera enfin Ffs (Faire faire savoir) pour faire faire savoir une information : « Peux-tu me donner lheure, sil te plaît ? ». La condition de sincérité est donc que le locuteur souhaite que son interlocuteur fasse laction contenue dans la proposition énoncée.
Lacte commissif (ou promissif ou engageant) est un engagement personnel à réaliser une action future. Le locuteur promet de faire quelque chose. Cest donc un directif dans lequel linterlocuteur est le locuteur lui-même. Le but est donc le même mais envers lui-même, cest-à-dire de rendre le monde conforme au contenu propositionnel dans lequel figure son action à réaliser. Lacte promissif permet alors de révéler lintention du locuteur. Il sera, pour nous, de la forme Fp, pour Faire pouvoir et regroupera des énoncés qui permettent douvrir le dialogue mais aussi ceux de promesse, doffre ou de justification personnelle. La condition de sincérité est que le locuteur ait lintention de faire laction contenue dans la proposition énoncée.
Lacte expressif a pour but illocutoire dexprimer létat psychologique associé. Il na pas de but de conformation car il y a déjà congruence entre les mots et la réalité. Il regroupe les énoncés dexpression de souhait, de remerciement, de plaisir, de salutation, dexcuse, dhypothèse, de spéculation, de présupposition, danticipation, de satisfaction, de félicitations, dhésitation, de résignation, détonnement, de regret, de déception, de plainte, de menace, de juron et dinsulte. Le contenu propositionnel est considéré comme présupposé et le locuteur se réjouit ou déplore sa véracité. Lacte expressif permet alors de révéler létat psychologique du locuteur. Il sera noté FsØ pour un Faire savoir à direction dajustement vide.
Daprès Caelen, cet acte est très peu présent en dialogue homme-machine. En dialogue humain, en revanche, il est très présent à loral à travers les phatiques. La condition de sincérité est que le locuteur exprime une propriété attribuée à lun des interlocuteurs.
Lacte déclaratif rend effectif son contenu propositionnel. Le locuteur modifie le monde par cette déclaration. Le but est donc autant de rendre conforme le monde aux mots que les mots au monde. Il nécessite alors des conditions extralinguistiques qui confèrent au locuteur le pouvoir de modifier le monde par le seul accomplissement de cet acte.
Par exemple, « je vous déclare mari et femme » na de valeur de modification du monde que selon certaines conditions. Le locuteur doit avoir le pouvoir de faire cette déclaration (prêtre, maire, adjoint au maire par délégation de pouvoir, capitaine du navire ou consul lors d'une cérémonie). Les interlocuteurs doivent être au nombre de deux, non mariés auparavant. Par ce seul acte dans ces conditions, les interlocuteurs seront mariés. Ce seront donc tous les énoncés de début, de fin ou dabandon daction. Ils seront notés Fa par Caelen. Nous le notons simplement F. Ils nauront pas de condition de sincérité.
1.5. Une direction dajustement
Lapproche issue de la philosophie du discours est essentiellement monologique car elle ne prend pas en compte la dimension dialogique à la différence des jeux de langages de Wittgenstein. En effet, il ny a pas de notion dinterlocution entre un locuteur et un allocutaire. Lapproche propose davantage une relation dirigée, par les effets perlocutoires, entre le locuteur et un auditeur qui peut éventuellement se transformer ensuite en locuteur. Le rôle de lauditeur est secondaire car il doit juste comprendre les intentions du locuteur. Cependant, Searle introduit une distinction implicite pour lajustement du monde aux mots. En effet, il sépare les directifs pour lesquels autrui doit agir et les commissifs pour lesquels cest le locuteur qui doit agir. Cest pourquoi Vernant [Vernant 94] propose une autre taxonomie explicitant cette distinction pour toutes les catégories. Il propose alors cinq directions dajustement.
Lajustement des mots au monde est un ajustement où les mots servent à décrire le monde et les croyances par rapport à ce monde. Ils sajustent à la réalité. On y retrouve alors les actes assertifs. Ces actes seront des constatifs (ex : vous êtes attentifs) lorsque lagent est différent du sujet. Ces constatifs seront alors statifs (ex : la porte est ouverte) ou factifs (ex : le bateau coule). Les actes assertifs seront descriptifs (ex : je vous parle de dialogue) lorsque lagent est le sujet. Ces descriptifs seront alors expressifs (ex : je suis triste) ou comportatifs (ex : jai ouvert la porte). Notons que les expressifs nont, pour Searle, pas de direction dajustement car il y a déjà congruence entre mot et monde et que lon ne peut savoir si ce que lon dit est vrai ou faux. Selon Vernant, on peut le savoir non pas par comparaison avec un état mental (qui reste invisible) mais par comparaison avec le comportement. Vanderveken omet les directions mot-mot et monde-monde mais insiste sur une autre direction, la direction vide dajustement. Cette direction contient les actes dont le but est expressif. En les accomplissant, le locuteur ne cherche pas à établir une quelconque correspondance entre les mots et le monde. Il exprime simplement son état mental (état, gratitude, orgueil, etc.).
A linverse, lajustement du monde aux mots contient les énoncés qui modifient le monde par les simples mots. Ces énoncés ont pour but de transformer le monde par laction future du locuteur (dans le cas dun engagement) ou de linterlocuteur (dans le cas dune directive) afin que ce monde corresponde au contenu propositionnel. On y retrouve ainsi les actes engageants qui seront soit directifs (ex : soyez attentifs) si lagent est différent du sujet, soit commissifs (ex : je vous parlerai de dialogue) si lagent est le sujet.
Lajustement des mots aux mots est un ajustement métadiscursif. On y retrouve alors les citatifs (ex : vous mavez demandé si
) lorsque lagent est différent du sujet et les expositifs (ex : je conclurai en disant) lorsque lagent est le sujet.
Enfin, le double ajustement des mots par rapport au monde contient les actes déclaratifs pour lesquels lagent est différent du sujet. Le but de ces actes est de faire en sorte que le monde corresponde au contenu propositionnel en affirmant que ce contenu est vrai. Nous aurons alors les déclarations comme « le séminaire est terminé » qui ajustent le monde aux mots puisque par ce simple énoncé le séminaire se termine, mais aussi les mots au monde puisque le séminaire est effectivement terminé. Le fait même de lutilisation de lénoncé transforme le monde pour le faire correspondre aux mots.
Lajustement du monde au monde nétant pas du langage, il naura aucun sens ici.
Avec cette notion dajustement, Vernant propose un modèle projectif pour le dialogue. Dans celui-ci, les interlocuteurs communiquent en direction dun but ( REF _Ref74111094 \h Figure 8). Le dialogue est donc une série dajustements qui permettent de progresser vers un accord (la résolution dun but). La convergence nétant pas toujours possible, il offre la possibilité, pour chacun des participants, de diverger au point dabandonner le but si le dialogue séloigne trop de la ligne directrice.
Figure SEQ Figure \* ARABIC 8 : Modèle projectif du dialogue informatif [Vernant 92]
1.6. Limites
Les théories dorigine philosophique ne sont pas linguistiques. Elles ne permettent donc pas de passer directement de lanalyse de surface des énoncés à la détermination de leur force illocutoire. Par exemple, les modes grammaticaux (indicatif impératif, interrogatif, optatif, etc.) ne sont pas des forces illocutoires. Lindicatif peut correspondre à un assertif (« il pleut »). Mais il peut correspondre également à un déclaratif (« la séance est ouverte »), un directif indirect (« il fait froid »), un expressif (« je suis triste »). Ainsi, la modalité est un indice mais ne suffit pas toujours à déterminer lacte. Un directif nest pas toujours exprimé par un mode interrogatif. Ainsi le travail dinterprétation consiste-t-il à analyser des indices linguistiques et dautres indices afin de déterminer lacte produit.
De plus, la logique illocutoire reste essentiellement monologique. Austin et Searle ne prennent pas en compte linteraction. Or, un acte de discours ne prend sens que dans le contexte du dialogue, où la même forme peut recevoir plusieurs interprétations. Une extension est nécessaire pour aborder les problèmes du dialogue (notamment sa dynamique) et de lintersubjectivité.
2. Ethnométhodologie
L'ethnométhodologie est une branche des ethnosciences qui étudie la communication dans une perspective sociale. L'idée sous-jacente est que les individus interagissent dans un cadre normalisé et suivent des règles et des conventions socioculturellement bien définies.
[Garfinkel, Heritage, Schegloff 50] ont montré que nos raisonnements sont socialement normalisés selon un principe d'identité. L'ethnométhodologie étudie donc l'interaction dans un monde social, c'est-à-dire avec des principes de nature sociale. Elle considère un raisonnement normalisé par le milieu socioculturel. Elle suppose ensuite des rôles qui vont induire des comportements et une hiérarchie sociale abordant le concept de dominance à travers des droits et des devoirs, les uns par rapport aux autres, que l'on peut outrepasser. Elle pose enfin le principe d'interaction par inter-compréhension à travers une connivence de nature sociale.
Ainsi, les interlocuteurs doivent partager des connaissances, se situer l'un par rapport à l'autre et agir pour faire une chose ensemble (convaincre, séduire, se valoriser, etc.). Cela implique donc une certaine motivation des deux parties, l'une pour dire quelque chose, l'autre pour montrer son écoute. Cette réciprocité des motivations est fondée sur l'intercompréhension. Lintercompréhension se constitue lorsque le locuteur A définit son projet daction (son intention) en fonction de la réaction quil attend de son allocutaire B afin de réaliser son but. Ainsi, si A propose une conversation à B, A anticipe que son projet de conversation, une fois compris, sera accepté par B comme la raison et la motivation de son action future (sa réponse). Il en va de même pour B au tour de parole suivant.
A court terme, cette réciprocité des motivations permet un réglage des tours de parole par paires adjacentes. Selon un principe d'action-réaction, si A pose une action de question, B proposera une réaction de réponse ou de réfutation de la question. Si un silence, un élément anormal ou non attendu se présente, d'autres types de raisonnement seront utilisés afin de vérifier des hypothèses (B est peut-être sourd, endormi ou grincheux).
A long terme, cest une réciprocité des perspectives qui règle les niveaux supérieurs dorganisation de linteraction liés à une conception hiérarchique de laction. Ce principe fonde la complémentarité ou la symétrie des rôles des partenaires. De lui résulte la stratégie dans linteraction, issue dun accord entre les partenaires selon la théorie des faces proposée par Goffman. Selon [Goffman 73, 74], tout être social possède deux « faces ».
La face négative correspond à ce quil décrit comme "les territoires du moi" « territoire corporel, spatial ou temporel ; biens et réserves, matérielles ou cognitives. ». Elle correspond à la face cachée, cest à dire aux véritables caractéristiques de lêtre.
La face positive correspond grosso modo « au narcissisme, et à l'ensemble des images valorisantes que les interlocuteurs construisent et tentent d'imposer d'eux-mêmes dans l'interaction. ». Elle correspond donc à la face que lon montre de soi-même, cest à dire limage que lon affiche à autrui.
Tout être social va donc, dans linteraction, essayer de cacher sa face négative et de montrer sa face positive, et éventuellement de percer la face négative de linterlocuteur.
Pour Goffman, « lidée selon laquelle on procède à une présentation de son moi aux autres nest guère originale ; ce quil faut souligner en revanche, cest que lon peut analyser la structure même du moi en fonction des dispositions pour donner ces représentations ». En jouant sur un principe de réversibilité, on peut savancer à dire que la représentation est une symbolisation des infrastructures des éléments participant à la mise en scène, et du système des interactions qui les lient. Cest ainsi que lauteur distingue le personnage de lacteur. Le personnage correspond au moi profond de lindividu. Dans lacteur, il extériorise ce moi en ladaptant à une mise en scène particulière en cherchant dans lacte à protéger, préserver ou renforcer son moi profond. Lacteur est un échafaudage de la construction publique du personnage. Il place formellement le concept dinteraction au centre de son uvre et le rend quasi-synonyme de relation. Linteraction est un processus de synchronisation de la relation entre plusieurs êtres. Chacun réévalue en permanence son comportement dans la situation, au regard de ce qui sy passe. « L'interactant socialisé traite l'interaction verbale comme n'importe quel autre type d'interaction, comme une chose qui mérite des précautions rituelles. C'est parce qu'il se réfère automatiquement à la face qu'il sait comment se conduire vis-à-vis d'une conversation. C'est en se demandant sans cesse et à tout coup : est-ce que, en faisant ou en ne faisant pas cela, je risque de perdre la face ou de la faire perdre aux autres ? qu'il décide à chaque moment, consciemment ou non, de sa conduite. »
Selon le degré de maîtrise du code rituel, il est possible de comprendre la signification des propos tenus par les acteurs des entretiens. En effet, un acteur ne maîtrisant pas le code rituel aura tendance à être plus spontané, mais dans le même temps, cette absence de maîtrise liée à l'obsession de la reconnaissance et de la face orientera son discours pour tenter de cacher sa méconnaissance.
Lobjectif de Goffman est alors disoler certains cadres de base de la compréhension [Goffman 91], en faisant lhypothèse qu'il existe un nombre limité de schémas d'interprétation primaires et de transformations possibles de ces cadres de base, communs à ceux qui vivent dans une même culture. Il distingue actes et intentions, cadres de base naturels, physiques, non intentionnels et non animés, et cadres sociaux, intentionnels, incluant volonté, finalité, intelligence et humanité. Ces cadres se transforment continuellement, modifiant linterprétation en contexte. La distinction pourra donc être faite entre le réel et la simulation, par exemple entre la vraie mise en garde et la blague. Elle permet donc dappréhender la dissimulation, le faire-semblant, lironie ou la mauvaise foi, cest-à-dire la coopération et le refus de coopération. En revanche, une divergence dinterprétation, différence de cadrage, peut aboutir aux incidents, quiproquos, etc. Ces divergences sont dautant plus fréquentes que la part du non-dit est grande car ce non-dit englobe le sous-entendu, limplicite, lallusion, les habitudes partagées, les savoirs tacites, etc.
La notion de face renvoie à celle de rôle, cest à dire à la position doù on parle et que lon doit conserver. Suchman [Suchman 87] va plus loin encore en introduisant la notion daction située. Dans un tel type daction, laccent est mis sur la prise de décision en situation, faisant par cela intervenir plus fortement le contexte. Elle montre ainsi que par la grande dynamique du dialogue, les interactants sadaptent et ajustent en permanence, ce qui rend très difficile la prédiction dun acte de parole par un tiers, car ce tiers na pas accès à la double interprétation du locuteur et de lallocutaire. Elle fonde alors sa description de la conversation sur des stratégies opportunistes, qui ne sont instanciables que localement et en tous cas non planifiables à long terme. Par cela, elle remet en cause un grand nombre de théories fondées de près ou de loin sur la logique des intentions. Malheureusement, son apport, très riche par ailleurs, reste plus critique que constructif, car elle ne propose pas de modèle formalisable pour le dialogue.
3. Psychologie cognitive - Cognisciences
Les cognisciences s'intéressent au fonctionnement de lindividu, c'est-à-dire, dans la communication, aux aspects liés à la perception, à la planification et au raisonnement cognitifs. Les premiers modèles dérivent de la théorie du code de Shannon et Weaver [Shannon 59]. Cette théorie suppose une phase de codage puis de décodage des informations linguistiques et extra-linguistiques. Ce codage serait issu de conventions, de connaissances partagées et de suppositions mutuelles. Le modèle de Kerbrat-Orrechioni, dérivé des travaux de Jakobson [Jakobson 60], reprend ce principe en complétant les phases de codage et décodage ( REF _Ref74223178 \h Figure 9).
Figure SEQ Figure \* ARABIC 9 : Modèle de communication humaine, [Kerbrat-Orrechioni 80]
Linformation est encodée sous forme de message et part de lémetteur pour aller vers le récepteur via un canal de transmission. Cette information est décodée par le récepteur après transmission. Ainsi, certaines connaissances entrant en jeu en émission et réception du message sont partagées. En particulier, les connaissances linguistiques et paralinguistiques (gestes, attitudes, etc.) mais aussi culturelles, idéologiques. Lunivers du discours est le même pour les deux parties. Ainsi, un émetteur dans un état dembarras adaptera son message à cet état et ce message ne pourra être décodé et interprété correctement quà la condition de connaître létat de lémetteur. Leffort cognitif semble être aussi important pour coder que pour décoder. Lémetteur formule au mieux son idée tandis que le récepteur choisit la signification adaptée au contexte.
Cest sur cette formulation que nous nous pencherons maintenant à travers deux approches successives : Grice puis Sperber & Wilson. Ces deux approches ont un principe commun qui est que le locuteur choisit ses mots en fonction des destinataires à qui il a affaire. Il choisit la manière la plus pertinente de dialoguer pour une raison pratique, optimiser l'efficacité du dialogue. C'est une conséquence de la rationalité.
3.1. La coopérativité selon Grice
[Grice 68, 75] introduit la conversation (le dialogue i.e. toute forme dinteraction communicationnelle) comme objet propre. Selon lui, les individus sont des agents rationnels, donc toute forme de conversation est une activité rationnelle. Un échange dialogique suit donc une certaine logique fondée sur un principe général de coopérativité. « Un locuteur L, par l'énonciation de x, a l'intention de produire un effet r sur un récepteur R grâce à la reconnaissance de cette intention » [Grice 68]. Ainsi interviennent les notions d'intention et de buts reconnus et acceptés par les interlocuteurs. Grice définit quatre maximes de coopérativité à l'intention des interlocuteurs. Ainsi, s'ils veulent coopérer, les interlocuteurs doivent être sincères et pertinents. Voici ces quatre maximes.
La maxime de qualité définit la sincérité du locuteur à travers trois conseils : « Que votre contribution soit véridique » ou plus simplement dites le Vrai. « N'affirmez pas ce que vous croyez être faux » et « N 'affirmez pas ce pour quoi vous manquez de preuves ». Cette maxime correspond au principe de sincérité de Searle.
La maxime de quantité définit la pertinence du propos, comme le fait de dire ce qu'il faut et pas plus : « Que votre contribution contienne autant d'information qu'il est requis (pour les visées conjoncturelles de l'échange) » et « Que votre contribution ne contienne pas plus d'information qu'il n'est requis ». Ainsi, le locuteur coopératif se devra d'être aussi informatif qu'il le faut mais pas plus qu'il ne faut. Il donnera la quantité dinformation nécessaire et suffisante (suffisante pour éviter les dérives susceptibles de dévier léchange vers des points de détail ou les effets indirects de penser quil y a une raison particulière à un tel excès dinformation).
La maxime de relation définit ladéquation du propos avec une seule règle : « Parlez à propos ». En effet, on ne peut changer de sujet que sous certaines conditions (on ne passe pas du coq à lâne). Cette règle, pourtant concise, cache de nombreux verrous liés à la définition des différents genres et centres de pertinence possibles ou leur modification au cours dun échange.
La maxime de modalité définit la clarté du propos (comment on doit dire ce que lon dit) avec un simple conseil : « Soyez clair », « Evitez de vous exprimer avec obscurité », « Evitez dêtre ambigu ». Ainsi, le locuteur coopératif se devra dêtre le plus clair possible.
Suivre ces règles permet de se montrer coopératif tandis que les transgresser montre un refus de coopérer. Ainsi, l'ironie ou le mensonge ne sont pas coopératifs, et affirmer une chose dont on n'est pas sûr ne lest pas non plus. L'application et la non-application de ces règles permettent un large éventail de jeux possibles avec celles-ci. Le locuteur peut alors refuser de jouer le jeu conversationnel (« - Pouvez-vous me donner lheure ? - Je nai pas le temps »). Il peut être amené à violer involontairement une règle lorsquil narrive pas à toutes les concilier (on peut donner trop peu dinformation pour ne pas dire plus que ce que lon sait). Il peut également violer délibérément une règle introduisant une stratégie indirecte de communication (on peut faire comprendre ce que lon veut dire sans devoir le dire). Cest ce que Grice nomme implicitation conversationnelle, et qui permet un écart entre ce qui est communiqué (pragmatique) et ce qui est dit (sémantique). Le sens pragmatique nest pas seulement un sens décodé (sémantique), mais il contient également un sens inférentiel (les actes indirects, les implicitations). Le problème de limplicite peut être abordé avec lexemple suivant :
A : ma voiture est en panne
B : il y a un garage à lentrée du village
B propose une réplique appropriée car il interprète la déclaration de A comme une requête indirecte. Mais cette réplique ne sera appropriée que si A linterprète comme une réponse appropriée à sa question déguisée. Mais B enfreindrait la règle de pertinence sil pensait le garage fermé. Il dit donc implicitement que le garage est ouvert. En effet, il ny a pas lieu de supposer quil nobserve pas les règles et supposer que le garage est ouvert est nécessaire pour donner sa réplique sans enfreindre la règle de pertinence. De plus, il pense que son interlocuteur peut déduire que le garage est ouvert, donc il ne lexplicite pas.
Ces maximes, proposant des principes non pas moraux mais rationnels, définissent la communication coopérative comme étant la conséquence de la rationalité humaine. Elles sont fondées sur une raison pratique pour augmenter l'efficacité du dialogue. Grice introduit alors le terme d'implicature. Il le définit comme l'ensemble des conséquences de l'application ou du viol de ces maximes, incluant l'usage du langage mais aussi les ellipses, les non-dits, les implicites, etc.
De lénoncé « le projet a quatre partenaires », lapplication de la maxime de quantité (donner autant dinformation quil est requis) permet dimpliciter que « le projet a exactement quatre partenaires ». De la suite dénoncés « Je voudrais un billet pour Grenoble pour demain, départ vers 23h00 de Lyon », « Attention, le dernier tramway est à minuit », lapplication de la maxime de relation permet au locuteur dinférer que son allocutaire a donné une information pertinente à savoir que le train narrivera pas avant minuit et quil ny aura plus de tramway pour se déplacer une fois arrivé à la gare de Grenoble. Une réponse vague, viol de la maxime de quantité, peut sexpliquer par le manque dinformation et lévitement du viol de la maxime de qualité. Une telle réponse permet donc dimpliciter le manque dinformation. A linverse, les figures de rhétorique telles que lironie, la litote ou la métaphore sont des viols de la maxime de qualité puisque les énoncés seront faux, mais on peut aussi violer la maxime de quantité dans le but dimpliciter autre chose que lénoncé, comme dans lexemple de Grice [Grice 75] :
« A rédige une recommandation pour un de ses élèves qui postule un poste en philosophie, et voici le contenu de la lettre : "Monsieur, M. X a une maîtrise remarquable de l'anglais, et il a été assidu à mes cours. Je vous prie d'agréer, etc." (Glose : A ne refuse pas de jouer le jeu, puisque, s'il ne voulait pas coopérer, il pourrait fort bien ne pas écrire du tout. Il a parfaitement la possibilité d'en dire plus, puisque celui qu'il recommande est un de ses étudiants; par ailleurs, il n'ignore pas qu'on lui demande plus d'information que cela. Il faut donc qu'il soit supposé vouloir transmettre une information qu'il répugne à exprimer noir sur blanc. Cette supposition ne tient que si l'on présume qu'il pense que M. X ne vaut rien en philosophie. C'est donc cela qu'il implicite.) »
Ainsi, ces implicatures dépendent fortement du contexte et des locuteurs par le biais de leurs connaissances partagées, explicitement liées au contexte social, à des attentes réciproques, à des conventions d'usage, et non aux seuls mécanismes mentaux, largement décontextualisés, auxquels se réfère le programme cognitiviste.
Cette analyse va donc plus loin que les simples implications logiques car les conclusions que l'on peut tirer de l'énoncé dépendent fortement du contexte. Une proposition p implique une proposition q si et seulement si chaque situation qui vérifie p vérifie q. En revanche, une proposition p présuppose q si la simple assertion de p ou non p implique la vérité de q. Par exemple, « ça manque de sel » suppose que ce fait est vrai mais aussi que le locuteur souhaite le sel. Limplicature est donc fortement liée à lidée de présupposition.
Frege [Frege 71] postule quune proposition contenant un nom propre ou une référence définie véhicule la présupposition que ce nom dénote quelque chose, sans que cette présupposition fasse partie des conditions de vérité de la proposition. Pour quune assertion soit vraie ou fausse, ses présuppositions doivent être vraies ou satisfaites.
Pour [Moeschler & Reboul 94], il est important de distinguer présuppositions, implications et assertions.
La sémantique oppose la présupposition à limplication. Une proposition P implique sémantiquement une proposition Q si et seulement si, chaque situation qui rend P vraie rend Q vraie. Une proposition P présuppose sémantiquement Q si la simple assertion de P aussi bien que de non P implique la vérité de Q.
[Stalnaker 77] formule une définition pragmatique de la présupposition :
« Une proposition P est une présupposition pragmatique dun locuteur dans un contexte donné si le locuteur assume ou croit que P, assume ou croit que son interlocuteur assume ou croit que P, et assume ou croit que son interlocuteur reconnaît quil fait ces hypothèses, ou a ces croyances. »
Ainsi, à un énoncé du type « Veux-tu du café ? », une réponse directe « Non, je nen veux pas » est explicite. Mais une réponse « Je ne veux pas dexcitant » ou « je veux pouvoir dormir » nest pas explicite. La réponse indirecte associée (« je ne veux pas de café ») pourra être implicitée à partir dun raisonnement issu de lénoncé (« je ne veux pas dexcitant » ou « je veux dormir » mais aussi des connaissances partagées (« le café est un excitant », « le café empêche de dormir »).
3.2. La pertinence selon Sperber & Wilson
Les maximes de Grice ont été regroupées par Sperber & Wilson à travers un seul principe de pertinence, adoptant une notion dinférence dérivée de limplicature.
Dune manière générale, les processus cognitifs humains sont organisés de façon à produire les effets cognitifs les plus grands possibles au prix dun effort mental le plus réduit possible. Pour cela, lindividu doit porter son attention sur les informations les plus pertinentes parmi toutes celles dont il dispose, afin de minimiser le coût du traitement cognitif de son destinataire. Sperber et Wilson s'opposent alors au modèle du code présenté précédemment, le jugeant trop simpliste. Pour eux [Sperber 00], le modèle du code se résume en trois thèses :
1. Un code associe à tout sens une expression, et à toute expression un sens.
2. Les langues humaines sont des codes.
3. Le locuteur encode au moyen d'une expression le sens qu'il veut communiquer. L'auditeur décode l'expression et identifie ainsi le sens voulu selon des conventions, des connaissances partagées et des suppositions mutuelles.
Or le sens linguistique sous-détermine le vouloir-dire du locuteur. Lénoncé littéral ne suffit pas à faire passer le sens que veut faire passer le locuteur. Le processus dinférence proposé par Grice est donc nécessaire. L'auditeur ne se contente pas de décoder le sens linguistique (voire les informations extralinguistiques) de l'énoncé, il infère le sens voulu par le locuteur. Il l'infère à partir de deux types d'éléments, qui sont d'une part ce sens linguistique, et d'autre part le contexte. Une inférence est un processus qui part de prémisses et aboutit à une conclusion. En ce sens, elle fonctionne comme un raisonnement, mais elle peut opérer de façon automatique et inconsciente. Dans ce processus dinférence, l'auditeur est guidé par des considérations de pertinence.
L'hypothèse du modèle inférentiel de la communication humaine se résume en trois thèses :
1. Le communicateur produit un indice du sens voulu.
2. Le destinataire, dans tous les cas, infère ce sens voulu à partir de l'indice fourni et du contexte.
3. Un énoncé linguistique est un indice complexe du sens voulu par locuteur. Ce n'est pas un encodage de ce sens voulu.
Selon Sperber & Wilson, le contexte vient de trois sources :
1. Linterprétation des énoncés précédents.
2. Lenvironnement physique.
3. La mémoire à long terme vue comme une suite structurée de concepts (avec une adresse). Chaque adresse contient des « relations logiques quun concept peut entretenir avec dautres concepts (implications, contradictions, etc.) », des informations encyclopédiques regroupant « toutes les connaissances qua le sujet et qui tombent ou qui sont censées tomber sous le concept (elles permettent de préciser lextension du concept) » et des informations lexicales correspondant aux « contreparties en langue naturelle du concept ».
[Sperber & Wilson 90] appellent alors « principe de pertinence » lidée fondamentale selon laquelle lindice communiqué est assorti dune garantie de pertinence. Ce principe de pertinence cognitive semble jouer un rôle essentiel dans la communication humaine en permettant d'orienter des processus inférentiels. Il résulte du rapport entre l'effet cognitif produit chez l'allocutaire et l'effort qu'il a fallu pour le produire. Il nécessite, comme pour Grice, les notions d'intention et de but reconnus et acceptés par les interlocuteurs. La communication a donc pour objet un ensemble d'actions en vue de réaliser un but explicite (partagé) ou implicite (non partagé). Si ce but est implicite, chacun suit son propre but jusquà explicitation ou négociation pour atteindre, après d'éventuels réajustements, un but commun.
Les auteurs reprennent les maximes de quantité de Grice pour définir un modèle inférentiel fondé sur une certaine réciprocité des motivations logiques. Lorsque A dit P à B, B reconnaît lintention de A contenue dans P, donc B répond R à A, et R contient lintention de B. Par exemple, lorsque Anne dit « ferme la porte » à Bertrand, Bertrand reconnaît l'intention de Anne contenue dans cette phrase, il répond « d'accord » à Anne et cette réponse contient l'intention de Bertrand, celle de répondre favorablement à la demande d'Anne. Ainsi, Bertrand fait un choix pertinent.
Sperber & Wilson définissent alors la notion de choix pertinent. Un choix pertinent est un choix prenant en compte le monde d'arrière-plan mais aussi les environnements cognitifs des conversants. Ce choix, qui porte alors aussi bien sur l'individu que sur la situation ou le contexte, se fait par sélection d'éléments saillants afin de focaliser l'attention de l'allocutaire. Ces éléments, appelés faits, peuvent être perçus dans la situation comme dans le monde d'arrière-plan ou inférés par hypothèses.
Les auteurs définissent ainsi un processus de communication comme échange d'indices pertinents (afin de pouvoir servir à retrouver l'intention du locuteur) par présentation ostensive de faits liés à des intentions informative et communicative, l'acte d'ostension consistant à présenter un fait saillant ou rendre saillant un fait au moyen d'indices. Pour eux, la communication ostensive-inférentielle met donc en jeu deux intentions.
L'intention informative est l'intention d'informer l'allocutaire de quelque chose, notamment qu'il attend une réaction de celui-ci et que cette réaction doit être appropriée, c'est-à-dire qu'elle doit permettre de réaliser son but.
L'intention communicative est celle d'informer l'allocutaire de cette intention informative.
À la suite de Bange, [Lemeunier 01] élude cette distinction en considérant que « " l'intention informative " se réalise par " l'intention communicative " [...] c'est-à-dire que, dans une perspective actionnelle, elle a une place subordonnée par rapport au but visé. » [Bange 92] (p. 200). Dans tous les cas, les interlocuteurs doivent se montrer coopérants pour que la communication réussisse. La coopération serait donc une résultante cognitive plus que sociale.
3.3. Une formalisation : DRT & SDRT
Il est nécessaire daller au-delà dune simple compréhension dénoncés pour parvenir à une interprétation contextuelle en fonction, entre autres, de lhistorique du dialogue et de la tâche, des intentions et présuppositions de lutilisateur. La référence est un phénomène vaste et complexe, susceptible de couvrir le champ de nombreuses disciplines. Il sagit de comprendre par quels mécanismes une expression linguistique réfère, cest à dire permet daccéder à des objets ou des événements construits ou extérieurs au discours dont cette expression est issue. Par exemple :
«A : Je peux vous proposer la salle Lafayette ou celle de 30 places
C : Réserve donc la seconde »
On peut observer une variété de phénomènes référentiels comme une référence directe à une salle à laide de son nom, ou la reprise dun référent qui vient juste dêtre mentionné (la seconde).
Les études de [Carbonell et al. 83] ont montré que nous employons volontiers des références pronominales en langue naturelle. Ces procédés anaphoriques, tout comme les ellipses ou les tropes assurent la concision et la souplesse dune langue naturelle. Il est donc intéressant, pour vérifier la validité de notre système de vérifier que ce corpus de dialogue homme/machine en langue naturelle recèle de tels éléments. A ce propos, Jacquet écrit « On peut même penser que la perception dautrui qui fonde lune des régulations essentielles du dialogue est irréductible à la « perception » dont une machine est capable. (
) Cela dit, cette machine (faut-il le rappeler ?) est différente dun autrui. (
) Peut-être que lune des conditions indispensables au bon fonctionnement de lillusion est le transfert des pronoms personnels ? [Jacquet 97]».
Dans les applications de communication homme-machine, la pragmatique joue donc un rôle très important dans l'interaction entre l'homme et l'univers de l'application et pour interpréter complètement lénoncé. Elle considère lénoncé et son contexte. Elle permet notamment de résoudre les problèmes référentiels.
La référence repose sur une large palette de marqueurs possibles. On y retrouve les déterminants indéfinis (un, une, des), définis (le, la, les) ou démonstratifs (ce, cet, cette, ces), les adjectifs possessifs (son, sa, ses), les pronoms personnels (il, elle, ils, elles) et les pronoms possessifs (le mien, le tien, le sien) ou démonstratifs (celui-ci, celui de gauche). La façon dinterpréter ces formes correspond à des modes référentiels variables. On en distingue deux.
Lanaphore consiste à faire reposer linterprétation dune expression référentielle donnée sur un élément antérieur du dialogue. Cest le cas typique du pronom personnel à la troisième personne dont linterprétation repose sur lexistence dun antécédent.
Le déixis considère linterprétation de cette expression en fonction du contexte immédiat dénonciation, notamment le positionnement dans le temps (maintenant) ou dans lespace (ici) du locuteur (je). Cest le cas de lassociation du geste à la parole pour effectuer des références multimodales (pointage avec le doigt, croix ou cercle sur une carte, etc.).
La référence aux objets dans un dialogue homme-machine correspond à lidentification des éléments de la tâche sur lesquels doivent porter les actions ou interrogations exprimées par le locuteur. De manière générale, cette identification seffectue dans le cadre dun ensemble de connaissances partagées par le locuteur et le système de dialogue concernant lexistence effective des objets correspondant. Linterprétation traite donc les déictiques ou indexicaux, les anaphores (co-référence), les ellipses, les phrases incomplètes, les présuppositions et des implicatures (avec l'aspect inférentiel : tout ce qui n'est pas codé dans la langue). Pour traiter tous ces points, linterprétation de lénoncé doit être reliée au contexte du dialogue par la construction dynamique de ce contexte au fil des énoncés.
La théorie de la représentation du discours (DRT) de [Kamp & Reyle 93] cherche à construire une représentation incrémentale (la structure de représentation du discours DRS) distinguant lensemble des variables nécessaires à lidentification des référents et les contraintes portant sur ces variables. Ainsi, un nouvel énoncé dans le dialogue met à jour les référents du discours en fonction des expressions référentielles contenues dans lénoncé. Il tente de résoudre les relations anaphoriques par le biais déquations dégalité. Il ajoute enfin de nouvelles contraintes associées aux prédicats nominaux ou verbaux contenus dans lénoncé. Une DRS peut être traduite en une représentation logique du premier ordre. Elle ne permet pas de représenter les relations rhétoriques dans le discours. Par exemple :
(1) Anne est venue hier
(2) Elle a parlé longtemps
(3) Elle a parlé de sa fille
(4) Elle a parlé de Bertrand
(5) Puis elle est partie
Une représentation en DRT peut conduire à une DRS du genre :
[x,y,z,u,v,w : x=Anne, y=venue, z= longtemps, u=sa fille, v=Bertrand, w=partie, etc.]
Dans cette représentation, le discours peut se poursuivre par un énoncé du type :
(6) Elle a bien grandi
En effet, le référent pour « sa fille », u, est encore accessible après lénoncé (5). Or, dans des conditions normales de discours, (6) ne serait pas autorisé en raison de lorganisation hiérarchique de ce discours, non prise en compte par la DRT. Il semble donc nécessaire de considérer les relations rhétoriques entre les énoncés afin de représenter lenchaînement logique du discours. Dans cet exemple, (5) suit (2), (4) suit (3), mais (3) ne suit pas simplement (2). En fait, si X est la DRS représentant la succession (3)((4), X peut être considérée comme subordonnée par rapport à (2) (qui se retrouve englobante). De même pour Y représentant la succession (2)((5), englobée par (1).
Asher [Asher 96] et Lascarides [Asher & Lascarides 03] proposent dencapsuler ces structures dans une structure plus globale du dialogue grâce à un processus dynamique de construction du sens. Ils introduisent alors la théorie formelle de représentation du discours structuré (SDRT), fondée sur la DRT, et représentant la structure du dialogue comme un composant essentiel à linterprétation du discours et résultant de lintégration des informations pragmatiques et sémantiques. La SDRT permet alors de décrire et dexpliquer de nombreux effets rhétoriques comme lanaphore, lellipse, les ambiguïtés lexicales, et aussi les implicatures et les présuppositions.
[Asher & Lascarides 02] modélisent les buts associés à lacte de langage. Pour eux, le but dune question est de connaître la réponse. La finalité dune requête est que celle-ci soit satisfaite. Mais la notion de but est différente de celle dintention car le but est une propriété de lénoncé là où lintention est une propriété du locuteur.
[Xuereb 04] propose alors (travaux en cours) une application de la SDRT pour le dialogue homme-machine.
4. Linguistique
Les conversations de salon nont pas de but précis. Elles ont pourtant un but phatique ou communicationnel. Elles instaurent une relation entre les interlocuteurs et ont donc un rôle social non négligeable. Laissant de côté les aspects sociaux du dialogue, les linguistes ont davantage cherché à rendre compte de la dynamique du dialogue à travers des modèles structurels.
Les premiers modèles élaborés par lécole de Genève (Roulet [Roulet 85] et Moeschler [Moeschler 89]) proposent une structure hiérarchique et fonctionnelle des dialogues. Ceux-ci voient le discours comme cadre de structuration déchanges linguistiques, considérant que ces structures sont largement déterminées par les contraintes intrinsèques au dialogue. Ils évitent ainsi les notions dintention ou de présupposition quils considèrent trop subjectives.
Ils élaborent donc a posteriori la structure de dialogues entre humains en utilisant des liens de composition, de succession, dimbrication ou de subordination entre les différents constituants. Ils sinspirent de la linguistique, mais aussi de la philosophie précédemment décrite (Austin, Searle, Grice) et de lethnométhodologie (Goffman) pour proposer une structure à quatre types de constituants.
Les incursions (ou transactions pour Bilange) sont les plus grandes unités de dialogue. Elles contiennent généralement un échange douverture, une série déchanges puis un échange de clôture et définissent ainsi les grandes phases du dialogue.
Les échanges constituent les plus petites unités de dialogue. Ils contiennent deux à trois interventions avec changement de locuteur. Pendant cette suite de tours de parole, un but discursif posé en début déchange est maintenu jusquà sa satisfaction ou son abandon. Les auteurs distinguent les échanges confirmatifs pour louverture et la clôture, et les échanges réparateurs (trois interventions). Ces derniers servent à neutraliser la menace potentielle (véhiculée par la première intervention [Goffman 73]) pour la transaction elle-même. Cette menace pour la face négative de linterlocuteur pourra être neutralisée par ces échanges réparateurs. Cependant, les échanges confirmatifs et réparateurs peuvent ne contenir quune intervention lorsquil ny a pas place à une réponse, lorsque la réponse est implicite ou lorsque la réponse est non-verbale [Coulthard 79].
Les interventions sont les constituants de léchange. Sous-discours à fonction thématique, elles sont composées dactes de langage produits par un seul locuteur (tour de parole). Une intervention est initiative lorsquelle ouvre un échange ou rouvre un échange mis en attente. Mettant lallocutaire en position de réaction, elle est généralement suivie dune intervention réactive, elle-même suivie dune évaluative (positive lorsque lon savance vers le but, négative lorsque lon sen écarte) ou dune clôture lorsque le but est atteint. La fonction évaluative a été rajoutée par Bilange [Bilange 92] et sert « à évaluer léchange auquel elle appartient et donc implicitement à amorcer la clôture de léchange »
Les actes de langage correspondent aux actes de parole de Searle [Searle 72] et constituent lunité minimale dénonciation (unité élémentaire de laction). Ils sont donc le grain le plus fin permettant une analyse propositionnelle fine en termes de buts, intentions, etc. Selon les axes éponymes proposés par Bilange [Bilange 92], ils peuvent être directeurs lorsquils explicitent le but du locuteur ou subordonnés lorsquils explicitent son argumentation.
En résumé, Roulet & Moeschler proposent une grammaire de la forme :
Incursion -> Echangeouverture Echangecontinuation* Echangeclôture
Echange -> interventioninitiative interventionréactive (interventionévaluative)
Intervention -> (actesubordonné) actedirecteur (actesubordonné)
Cette grammaire définit les principales phases du dialogue. Elle omet les phases particulières dabandon temporaire (incidence) ou définitif (rupture) qui sont considérés comme des échanges. Lincidence initialise un sous-but et met en attente le précédent (et son échange associé) tandis que la rupture abandonne le but précédent pour initier un sous-dialogue.
EMBED Word.Picture.8
Figure SEQ Figure \* ARABIC 10 : Exemple danalyse conversationnelle, modèle genevois [Lehuen 97].
Linconvénient de cette approche descriptive réside dans son analyse a posteriori nécessitant le dialogue complet avant analyse. Comme la machine doit pouvoir répondre en temps réel, Luzzati propose un modèle dynamique dont lidée principale réside dans la problématique des incidences quun dialogue homme-machine doit éviter. Considérant que la communication homme-machine ne produit que des dialogues à structures hiérarchiques, il propose donc une représentation calculatoire de la structure du dialogue tenant compte des incidences.
Il développe un modèle à deux axes. Laxe régissant (horizontal) correspond à la résolution de la tâche par les participants au dialogue. Laxe incident (vertical) correspond aux moments où, par incompréhension ou manque dinformation, les interlocuteurs sengagent dans des sous dialogues de clarification, précision, explication, reformulation, etc. Le but sera alors de retourner au plus vite sur laxe régissant. Sur cet axe incident se retrouvent donc les incidences du dialogue mais aussi la rupture lorsque lécart devient trop important pour réussir à terminer le dialogue avec la résolution de la tâche. Parfois les quiproquos entre lhomme et la machine sont tels que lincompréhension est totale. Eviter le quiproquo nécessite donc dinstaurer des règles de conversation et des stratégies (ex : revenir au départ au bout dune certaine incidence).
M1 Bonjour, que puis-je pour votre service ?
H1 Rien de particulier
M2 Veuillez reformulez votre phrase s'il vous plaît
H2 Quelle phrase ?
M3 Quel est l'objet de votre requête ?
H3 Quoi ?
M4 Nous nous égarons, effectuez une réservation svp
H4 C'est pour le concert de Beethoven
M5 Beethoven par le Wiener Klavier Trio, mercredi à 21h
H5 Merci, au revoir
M6 Au revoir et à votre service INCLUDEPICTURE "http://groucho.univ-lemans.fr/~lehuen/recherche/these/chapitre2/IMG00015.GIF" \* MERGEFORMATINET Figure SEQ Figure \* ARABIC 11 : Exemple de dialogue géré par le logiciel MINIDIAL [Lehuen 97]
Sur la REF _Ref74197552 \h Figure 11, une première incidence en M2 (demande de reformulation) est suivie dune autre incidence H2 (demande de précision) reformulée en M3 et H3 (nouvelle incompréhension de M3) et enfin un retour express sur laxe régissant.
Il distingue donc les questions et réponses principales et secondaires régissantes et les questions et réponses incidentes et cherche à répondre aux erreurs de compréhension à répétition qui finissent par bloquer le dialogue. Il contrôle alors des variables interactionnelles, qui mesurent les écarts à laxe régissant, et force le retour sur cet axe en cas de trop fort éloignement.
Conclusion : ce qui est utile aux attentes
Nous avons vu dans ce chapitre de nombreuses raisons de sintéresser aux attentes des locuteurs dans le dialogue. Diverses théories peuvent être combinées pour construire une notion dattente pour le dialogue. Nous nous appuierons donc sur des travaux issus de différents domaines tels que la sémiotique, la philosophie analytique, la logique, lethnométhodologie, les cognisciences et la linguistique.
La sémiotique nous apportera la notation des actes avec les modaux de Greimas (faire, savoir, être, avoir, devoir, pouvoir, vouloir, etc.). La combinaison permet des actes de la forme faire, faire-savoir, faire-faire, faire-faire-savoir, faire-pouvoir, faire-devoir, etc. Comme nous nous plaçons dans laction, les modalités vouloir, être et avoir ne permettront pas de représenter des actes, mais elles seront utilisées dans le dialogue. Le vouloir (et ses dérivés, vouloir-faire, vouloir-savoir, vouloir-avoir, vouloir-être) représentera par exemple lintention du locuteur.
OntiqueActionnelle & volitiveépistémiquedéontiqueavoirfairesavoirdevoirêtrevouloircroirepouvoirTableau SEQ Tableau \* ARABIC 5 : Modalités de Greimas pour nos attentes
La philosophie du langage, par son approche pragmatique, nous permettra de représenter les attentes sous forme dactes de dialogue dérivés des actes de langage. Nous avons vu dans ce chapitre lintérêt dune telle approche pragmatique par la nécessité de prendre le contexte en considération (notamment pour les actes indirects). Nous nous intéresserons en particulier à la force illocutoire, car cest sur elles que porteront, selon nous, les attentes (le contenu propositionnel étant fixé). Cest elle qui nous permettra de considérer les attentes du côté locuteur et ainsi indépendamment de la tâche. Nous pensons par ailleurs que lacte perlocutoire correspond à lattente principale du locuteur.
La notion de direction dajustement nous intéressera également, car selon nous, lajustement monde ( mots et le double ajustement posent des attentes. A lopposé, les directions mots( mots (méta-discursif) et mots ( monde (descriptif) ne posent pas dattentes.
Lethnométodologie, à travers la théorie des faces, instaure des rôles. Nos attentes doivent sajuster en fonction de ces rôles. Elles sajusteront aussi à la stratégie employée. Ainsi, la notion de coopérativité a une importance capitale car elle détermine directement le type dacte attendu. En effet, un locuteur coopératif a certaines attentes, un locuteur non-coopératif en a dautres.
Sperber et Wilson critiquent Grice sur la notion dimplicature. Nous pensons que les attentes peuvent apporter une aide à la résolution de ces implicatures.
Les présupposés seront plus ardus à résoudre par les attentes. Les attentes sont assujetties à la notion de pertinence. Elles seront pour nous liées aux notions dintention et de but. En effet, la naissance dun but introduit des attentes. A contrario (et cest pourquoi nous travaillerons sur des dialogues finalisés), labsence de but aboutit, selon nous, à labsence dattentes. Cette notion de but est très importante dans notre approche. En effet, grâce au but, lattente introduit lallocutaire. Si ButA=sA(p) alors AttenteA=FsB(p) cest à dire si le but de A est de connaître p, alors sa première attente sera que B fasse connaître p.
La linguistique structurale introduit la notion dincidences qui peuvent être plus ou moins importantes en fonction des attentes des interlocuteurs. Nous le verrons par ailleurs à travers une étude psycho-linguistique dun corpus homme-homme. Dans un dialogue dirigé par les buts, nous pensons que lacte le plus probable à la suite dun acte est lacte qui va tenter datteindre le but. Ainsi, nous pensons que les probabilités permettent de décrire lécart dincidence par rapport à laxe régissant de Luzzati. Ainsi, lacte le plus attendu reste-t-il sur laxe régissant, tandis que le deuxième sen écarte légèrement, et ainsi de suite jusquaux actes tellement peu attendus quils peuvent remettre en cause le dialogue.
Figure SEQ Figure \* ARABIC 12 : Attentes et linguistique : écart incident à l'axe régissant
Après avoir vu « Pourquoi modéliser les attentes », nous pouvons donc à présent aborder la question : « Comment modéliser les attentes ? »
B. Etude théorique
Chapitre I : Modélisation et traitement des attentes en dialogue aspect théorique
« Afin détablir un dialogue verbal homme-machine, avec une composante dialogale, il faut que la machine se fasse une image de son interlocuteur pour reconnaître ses intentions et ses stratégies. Cest ce qui fait la différence entre la communication homme-machine de type stimulus-réponse, ayant seulement un aspect dialogique, et une dialogue homme-machine plus complet, avec une composante dialogale REF VERNANT94 \h \* MERGEFORMAT . » [Vernant 94].
1. les attentes en dialogue : notions et modélisation
1.1. La notion dattentes en dialogue
La notion d'attentes a été introduite par [Bilange 92] qui la rattache aux mécanismes de prédiction des systèmes de compréhension orale. Elle est également sous-tendue par Trognon et Brassac [Trognon & Brassac 92] à travers leur interprétation dialogique de la logique illocutoire. En effet, dans cette conception, la force illocutoire dun acte nest effective quaprès la réponse de linterlocuteur, car elle est fonction de sa réponse. Ainsi, la réaction à un énoncé donné est conditionnée par le type dacte que lénoncé accomplit. Ils étendent alors la logique dialogique de Vanderveken. Peux eux, la satisfaction dun acte dépend de sa réponse, alors que sa réussite dépend des conditions dans lesquelles il a été accompli. Nous lillustrons en REF _Ref74198744 \h Figure 13.
Figure SEQ Figure \* ARABIC 13 : Réussite (selon conditions) et satisfaction (selon réponse) d'un acte.
Le locuteur A pose un acte FA(p). Lacte FA(p) réussit lorsque les conditions sur le but illocutoire, sur lengagement, sur le contenu propositionnel p sont remplies. Cette réussite dépend également des rôles des participants et de conditions du monde sur le contenu propositionnel. En revanche, cet acte de A nest satisfait quavec lacte de B, FB(q), en réponse à celui-ci. Selon nous, il peut également être satisfait par une action extérieure. La force illocutoire de lacte ne peut donc être déterminée quavec lacte en réponse.
Prenons lexemple dun acte de A de contenu « il fait froid ! » avec pour contexte une porte ouverte. Lacte sera réussi si lon a pu déterminer le but illocutoire b={porte fermée}, si les conditions sur p sont réunies (quil fait effectivement froid), si les rôles des participants sont tels que A peut inciter (ou ordonner) B à fermer la porte, etc. En revanche lacte ne sera satisfait que lorsque B, en réponse à A, fermera la porte ou quune action extérieure (un coup de vent, une tierce personne) fermera cette porte.
La satisfaction dun acte se situe à un niveau pragmatique et entre dans le processus de compréhension en facilitant une interprétation des énoncés. Cette interprétation est généralement statique et s'appuie sur l'idée qu'un contexte préétabli suffit pour des dialogues orientés par la tâche. Elles sont donc établies à partir du modèle de tâche et ignorent le contexte réel de chaque dialogue.
« Si lon est capable de différencier les énoncés daprès les actes illocutoires quils accomplissent et les effets perlocutoires quils peuvent provoquer, on est non seulement capable de déterminer le type de réaction quun locuteur attend mais également en mesure de prédire le type de réaction quun énoncé peut provoquer. » Pierrel & Romary dans [Pierrel 00].
Dans le cadre du dialogue, [Lehuen 97], [Lemeunier 00] ou [Vilnat 97] proposent dintroduire la notion dattentes : pour Lehuen, ces attentes sont « ce qui est attendu par le système au regard de létat courant de la tâche ». Il les définit donc en terme d « objets du domaine dapplication et dactes de dialogue orientés par la tâche » ; pour Vilnat, ce sont « ce que l'utilisateur est susceptible de dire (ce qui implique qu'il n'est pas obligé de le dire), en raison des buts et des plans en cours de développement » ; pour Lemeunier, ce sont « des entités pragmatiques manipulées par le système qui correspondent à ce que l'utilisateur est censé dire et ce à quoi le système est donc censé s'attendre ». Ces attentes sont donc très liées à la tâche dune part et considérées du point de vue du système dautre part.
Selon Lemeunier [Lemeunier 99], les attentes ne sont pas liées directement à la planification. Les hiérarchies sont prévues et reconstruites au fur et à mesure de l'interaction comme le ferait une reconnaissance de plans. Les attentes ne sont pas une modélisation de la tâche, mais des représentations mentales des interactants du point de vue du système informatique. Son approche est donc plus cognitive, mais nentre pas en contradiction avec la planification notamment avec la notion de plans partagés.
Pour Nicolle [Nicolle 99] en revanche, la notion dattente dérive davantage des systèmes multi-agents. Elle abandonne donc la notion de planification au profit de modèles fondés sur des réactions plus élémentaires dirigées vers un but. Ainsi le comportement complexe vu de lextérieur peut être simple du point de vue du sujet qui le réalise.
Nous pensons que trop contraindre la conversation est un handicap pour les agents naturels. C'est pourquoi nous nous intéressons aux travaux effectués en sciences humaines où les rituels et les indications ont dans la communication la même place que les règles strictes des informaticiens. Lemeunier [Lemeunier 00], dans sa modélisation des attentes, utilise une mémoire interactionnelle correspondant aux aspects purement cognitifs de l'interaction courante, sans remémoration des dialogues antérieurs éventuels, et sans prendre en considération les aspects sociaux dont rend par exemple compte la théorie des faces de Goffman. D'autres travaux, surtout dans le domaine des systèmes multi-agents, s'intéressent pourtant à ces aspects [Chicoisne & Pesty 99]. Pour nous, le côté social de linteraction communicative est primordial. Cest pourquoi nous laborderons à travers la théorie des faces de Goffman [Goffman 73, 74] présentée précédemment.
Attentes et planification
La planification est vue, traditionnellement, comme une activité qui consiste à sélectionner une série dactions, selon un ordre plus ou moins défini, afin de passer dun état initial à un état final souhaité. Les agents essayent de reconnaître les plans de leurs interlocuteurs en vue de les utiliser lors de la construction des réponses. Bange décrit la planification comme suit :
« Le terme de schéma daction désigne le savoir pratique disponible sur le déroulement prévisible de laction. Cest cela quon peut appeler aussi plan ou projet daction, même sil ny a pas toujours une planification véritable. Dans la vie quotidienne, il nous suffit en effet souvent de dénommer lactivité que nous projetons et le savoir ainsi actualisé nous permet de prévoir et dexécuter le détail des actions impliquées dans le plan. Cest seulement si la voie qui conduit au but nest pas claire, si laction projetée est trop complexe, quon a une véritable planification de laction. Lacteur tente alors de sen tirer avec des schémas daction connus adaptés à la situation nouvelle par analogie, il pratique une sorte de bricolage de morceaux stéréotypés, ajustés les uns aux autres. » [Bange 92]
Lexemple classique est le repas au restaurant. Nous commençons par demander une table, nous installer. Un serveur nous donne les menus, etc. Nous déroulons un plan classique. Si le plan est visible dans ce cas-ci, de nombreux plans le sont beaucoup moins. Par exemple :
Q1 = Vous payez par chèque ou en espèces ?
R1 = Je ne sais pas si jai pris un stylo ?
Q2 = La machine le remplit toute seule
Lorsque lagent pose son énoncé Q2, il reconstruit le plan de son interlocuteur. Si celui-ci cherche un stylo, cest probablement quil veut payer par chèque. Notons au passage que lemploi de lanaphore le faisant référence au chèque fait appel aux connaissances partagées, cest-à-dire quun chèque se remplit (par défaut avec un stylo). Linterlocuteur devra donc résoudre cette anaphore pour comprendre cet énoncé Q2.
Q2 = vous avez une pièce didentité ?
R2 = Non mais cétait pour signer
Lorsque cet agent continue son énoncé Q2, son interlocuteur reconstruit le plan quil imagine que lagent sest construit à son sujet. Dans sa réponse R2, linterlocuteur montre quil sait Q2 (i.e. que la machine remplit les chèques). Notons par ailleurs que linterprétation de R2 est aisée pour un être humain, mais très difficile pour un système qui pourra voir le non comme une réponse à Q2. Cest ainsi quAllen et Perrault posent limportance des plans en considérant que « ce modèle est en mesure de rendre compte des réponses qui fournissent davantage d'informations qu'il nen est explicitement demandé, des réponses à des fragments de phrases, ainsi qu'à des actes de langage indirects. » [Allen & Perrault 80] REF ALLENPERRAULT80 \h \* MERGEFORMAT
La planification peut donc être dirigée par les buts. Elle nécessite alors une modélisation précise des plans et buts des interlocuteurs. Le plan sera alors vu comme une suite dactions permettant de passer dun état initial du monde vers létat souhaité (le but). Ces plans dépendent donc fortement de la tâche. Les incidences en dehors de celle-ci ne peuvent pas être traitées, faute de plan accessible. La notion dattente, telle quelle est vue jusquà présent, reste liée à la tâche. Elle peut selon nous être résolue par cette planification.
A linverse, la planification peut être dirigée par les données. Elle est alors linguistique et nécessite une modélisation pragmatique précise contenant une modélisation sémantique et le rattachement du contenu propositionnel aux actions possibles. On parle alors davantage de modèles opportunistes qui cherchent à gérer lévénement en fonction de la situation, cest à dire par laction située. Nos attentes se rapprochent davantage de ces modèles opportunistes.
En effet, les attentes du locuteur ne sont pas régies par des scénarii préalablement codés afin de pouvoir réagir à toutes les éventualités et notamment aux incidences (qui peuvent être hors tâche) dans le dialogue oral. Elles sappuient en revanche sur la notion de but, et donc sur la planification dirigée par les buts mais elles restent indépendantes de la tâche par la gestion des buts illocutoires.
1.2. Modélisation des attentes en dialogue
Actuellement, différents modèles de dialogue permettent daméliorer la communication homme-machine. Ceux-ci ne tiennent pas compte des attentes du locuteur. La modélisation des attentes dans le dialogue automatisé a des retombées diverses. Dans le dialogue homme-machine, la prédiction des interventions de l'utilisateur au cours du dialogue permet d'améliorer la compréhension, la pertinence des réponses de la machine, et de contraindre, dans le cadre dun dialogue oral, la combinatoire des solutions de reconnaissance vocale. Dans le dialogue homme-homme multilingue médiatisé par la machine, le suivi de dialogue permet aussi de réduire la combinatoire des solutions de reconnaissance vocale mais également de réduire l'ambiguïté dans l'interprétation de lénoncé puis dans sa traduction. Une bonne gestion des attentes reflète donc le niveau de « compréhension » de la machine. Elle permet alors d'en faire une évaluation et de bâtir une méthode scientifique pour la conception de dialogues homme-machine.
L'attente, en général, peut se définir au niveau d'un locuteur comme un état mental dans lequel sont codés les buts, les connaissances (sur la tâche), les règles de la conversation et les rôles des participants.
Par exemple, si un individu pose une question, il aura une attente de réponse informative c'est-à-dire une réponse dans le champ topique de la question. Mais la réponse peut-être aussi négative dans le cas d'un non-savoir, auquel cas la réponse est de type conversationnelle (excuse par exemple). Plus précisément, à une question telle que « Vous reste-t-il des places ? », on attend une réponse informative comme « oui, voulez-vous un coin fumeur ? » ou « en première classe ? » ou une réponse conversationnelle comme « attendez, je vais me renseigner » ou « je ne sais pas, adressez-vous au guichet d'information ». Cest ce que nous pouvons voir à travers un exemple en REF _Ref74199782 \h \* MERGEFORMAT Figure 14, selon Denis Vernant.
Figure SEQ Figure \* ARABIC 14 : Possibilités de réponses à un interacte, inspiré de [Vernant 97b].
Analysant plusieurs dialogues dans lesquels cette même question est posée, nous pouvons affirmer quà une question comme « Pouvez-vous me donner lheure, sil vous plaît ? », on attend diverses réponses comme « oui bien sûr, il est 18h00 » ou « non, désolé, je nai pas de montre » voire certaines formes dhumour comme « je ne vous la donne pas, je vous la prête » ou « je nai pas le temps » (qui peut être une simple réponse négative selon le ton).
Dans ces exemples, différents types d'actes dialogiques sont possibles : affirmation avec attitude coopérative dans le topique de la question, incidence dans le topique de la question avec demande d'information complémentaire, phatique de mise en attente, clôture de conversation avec attitude coopérative dans le topique de la tâche, etc.
Selon nous, ces attentes doivent être modélisées sous divers angles. Le codage des buts nécessite une approche intentionnelle dérivée de la philosophie du langage à travers la théorie de lillocutoire défendue par [Austin 70] et [Searle & Vanderveken 85]. Cette théorie est fondée sur lidée que les énoncés ont pour fonction de servir à laccomplissement dun certain type dacte, conventionnel, créateur de droits et de devoirs pour les interlocuteurs, appelé acte de langage (portant plusieurs informations sur lénoncé : un contenu propositionnel et une force illocutoire). Le codage des connaissances sera dérivé des travaux de [Sperber & Wilson 89] sur la pertinence liée à une intention informative et une intention communicative. Enfin, les règles de conversations et les rôles des participants, non traités dans les systèmes actuels, seront représentés pour nous à travers la théorie des faces de [Goffman 73] et [Goffman 74]. Ainsi, nous aurons une approche pluridisciplinaire (utilisant les différents contextes, lhistorique du dialogue, le champ de la tâche, les marqueurs de discours de [Colineau 97] et les règles du dialogue, etc.) triple permettant de rendre compte des différents aspects du dialogue. Nous prendrons en considération laspect intentionnel avec lidée de dialogues dirigés par des buts que lon sengage à poursuivre. Mais nous tiendrons aussi compte des aspects cognitifs à travers la représentation des connaissances des participants et des aspects sociaux avec lidée sous-jacente que lhomme est conditionné par la société (rituels, raisonnements normalisés, hiérarchie, etc.)
1.3. Les attentes du locuteur
Nous considérons les attentes du point de vue du locuteur, comme les résultats espérés de ses actes.
En effet, un locuteur engagé dans un dialogue entend poursuivre ses buts et obtenir des effets positifs de ses actes. Il projette donc un certain plan sur son interlocuteur (quil peut considérer comme coopératif) et en attend en retour un certain comportement. Les attentes se construisent au fur et à mesure que le dialogue se déroule, en fonction des buts et des comportements des interlocuteurs, ce sont essentiellement des hypothèses réflexives construites par chacun des interlocuteurs. Par exemple, si le locuteur B ne se montre pas coopératif, la stratégie du locuteur A, guidée par ses attentes va certainement être davantage directive pour forcer B à adopter les buts de A. Ce qui se formalise par : si B est coopératif alors FA(p) àð FB(p), si on constate F B(p) alors B n est certainement pas coopératif.
Notre modélisation s appuie donc sur l idée de contexte. En effet, un certain acte (par exemple : FA(p)), devrait fournir, selon le contexte (ici B coopératif), tel autre acte en réponse (FB(p)) répondant aux attentes de A. Nous nous appuierons, en premier lieu, sur lidée de [Vernant 92] que le dialogue est dirigé par les buts de locuteurs. Ces buts doivent être à la fois atteints et satisfaits pour que ce dialogue aboutisse à un succès [Vanderveken 90]. Il nous semble alors nécessaire de représenter ces buts à travers un contexte intentionnel inspiré de [Colineau 97]. Dans ce même contexte, nous pourrons représenter les engagements des participants selon lidée que les interactants poursuivent des buts et sy engagent plus ou moins (selon par exemple leur coopération). Ensuite, un contexte cognitif nous semble pertinent afin de représenter les connaissances de chacun sur lautre et sur la tâche. Nous nous inspirerons, notamment, ici, de la théorie de la pertinence de [Sperber & Wilson 89]. Enfin, laspect social du dialogue est souvent (en raison de la difficulté à le représenter) mis de côté lorsque lon cherche à modéliser ceux-ci. Nous souhaitons, pour notre part, intégrer un contexte social afin de représenter les règles de conversation mais aussi les rôles des participants. En effet, pour nous, si dans un type de dialogue donné, les rôles peuvent êtres équivalents, nous montrerons plus loin que ce nest pas toujours le cas. Dès lors, il nous semble important den tenir compte. Nous nous appuierons, pour ceci, sur la théorie des faces de [Goffman 74] qui tente de décrire les règles de conversation à travers lidée de faces à cacher ou à défendre.
Les attentes sont donc, pour nous, codées par létat mental (dun locuteur) qui contient les buts (et les engagements), les connaissances (sur le monde et sur la tâche), les règles de conversation, et les rôles des participants.
Nous nous appuierons alors sur les recherches effectuées sur le niveau pragmatique des énoncés en utilisant une notation en actes de dialogues dérivée des actes de discours de [Vernant 97], des actes de langage de [Austin 62] et des modaux de [Greimas 66]. En effet, nous pensons quun tel acte est suffisamment porteur de sens pour tenter de lui associer des attentes (tirées de cet acte et du contexte) afin de comprendre au mieux ce que souhaite le locuteur. Nous présenterons donc notre notation en actes de dialogue, puis celle, dérivée de la première, des attentes. Nous montrerons enfin lintérêt de la modélisation des attentes du locuteur dans le cadre de dialogue réel.
2. Spécification des attentes
2.1. Une notation en acte de dialogue issue des actes de langage
La théorie de lillocutoire ([Austin 70], [Searle & Vanderveken 85]) spécifie que tous les énoncés ont pour fonction de servir à laccomplissement dun certain type dacte, conventionnel, créateur de droits et de devoirs pour les interlocuteurs, appelé acte de langage. Chaque énoncé porte plusieurs informations simultanément : non seulement un contenu propositionnel mais aussi une force illocutoire (qui se décline notamment pour les actes directifs en ordres, requêtes ou demandes). Cest lassociation des deux entités, contenu propositionnel et intention du locuteur, qui détermine, en fonction de conventions, le type dacte de dialogue réalisé.
Il existe de très nombreuses listes dactes de dialogue, hiérarchisées ou non, pour représenter les propos des interlocuteurs dans un dialogue finalisé. La plupart dentre elles utilisent comme critère de discrimination lobjet sur lequel porte lacte : la tâche (requête, question, information), le dialogue (ouverture, clôture, satisfaction, contestation, acceptation, refus) et le contrôle du dialogue (demande de reformulation, récapitulation, relance).
Lacte de dialogue est défini comme une action intentionnelle qui a pour paramètre un locuteur, un auditeur, et un contenu propositionnel.
Lidentification dun acte de dialogue est toutefois une affaire de convention et de norme en regard de la tâche que le système doit réaliser. En effet, souvent, le locuteur veut dire quelque chose de plus que ce quil dit littéralement ; la phrase contient des marqueurs de force illocutoire propres à une classe dactes, mais elle est énoncée dans le but daccomplir un autre acte, appelé acte indirect [Searle 82]. Il est important de remarquer que lacte indirect ajoute (mais ne remplace pas) une force illocutoire ou un contenu propositionnel à lacte direct. Le locuteur reste ainsi généralement satisfait lorsque son interlocuteur interprète le sens second et réalise, par exemple, une action en réponse à une requête indirecte comme « peux-tu me donner la liste des objets ? ». À linstar de [Luzzati 89], nous nous fondons essentiellement sur les formes de surface des énoncés pour identifier les actes de dialogue. Concernant les taux didentification dacte de dialogue « il est possible de continuer à améliorer les résultats sur un corpus donné. (
) on peut dune part enrichir les marques linguistiques collectées, et dautre part étudier de nouvelles stratégies de dialogue. » [Colineau 97] . De plus, « la tendance est favorable pour lanalyse de dialogues homme-machine. En effet, dès lors que le dialogue suit un déroulement relativement contraint, les locuteurs sadaptent aux capacités langagières et discursives de la machine. » [Colineau 97] .
Sinspirant des théories de [Austin 62] et [Searle 72] sur les actes de langage, [Vanderveken 90] définit la force illocutoire F(p) comme un acte de force F sappuyant sur le locutoire représenté par le contenu propositionnel p. Il découpe les actes illocutoires en cinq catégories (déclaratif, directif, assertif, promissif, expressif). Nous pensons que ce découpage peut être affiné à laide des modaux sémiotiques de [Greimas 66]. Ainsi, un acte sera, pour nous, un faire, faire-faire, faire-savoir, faire-croire, faire-faire-savoir, faire-devoir, faire-pouvoir, faire-faire-croire, etc.
Dans une notation plus simplifiée, nous ne garderons que les initiales, doù une notation de la forme Ffs(p) pour un faire-faire-savoir de contenu p. Cette notation nous permet de mettre en valeur lidée dAustin, reprise par les philosophes du langage, que « dire cest faire » (cest-à-dire que lorsque lon dit quelque chose, on exécute une action qui peut décrire ou modifier le monde). Ainsi, chaque acte débute par un faire, la précision de la force étant fournie en exposant. Nous aurons donc respectivement des actes de la forme F(p), Ff(p), Fs(p), Fc(p), Ffs(p), Fd(p), Fp(p), Ffc(p), etc.
Nous reprendrons, pour notre notation, la classification de [Vilnat 97] dérivée de [Moeschler 85] ( REF _Ref74308780 \h Tableau 6) :
Acte initiatifActe réactifAssertionévaluation positive ou négativeDemande dinformationréponse positive ou négativeDemande de confirmationconfirmation ou infirmationOffre/requêteacceptation ou refusTableau SEQ Tableau \* ARABIC 6 : Classification des actes de [Vilnat 97].
Il est cependant nécessaire dintroduire laction dans cette classification où elle navait pas place. [Ozkan 94] lintroduit en proposant une classification tirée des modaux de Greimas, mais orientée vers laction ( REF _Ref74308857 \h Tableau 7):
Acte actionnelActe communicationnelActe assuméFaireFaire SavoirActe déléguéFaire FaireFaire Faire SavoirTableau SEQ Tableau \* ARABIC 7 : Classification des actes de dialogue de [Ozkan 94]
Cette classification laisse de côté la notion doffre. Souhaitant introduire cette notion doffre, Caelen [Caelen 97] affine cette notation en proposant des actes de langage de la forme Fp, avec la classification suivante ( REF _Ref74309538 \h Tableau 8) :
ActemodauxexplicationSearleFApfaire actionles effets immédiats obtenus sont pdéclaratifFFpfaire-fairedemande de faire p, les effets p sont différésdirectifFFSpfaire faire-savoirdemande sur p, la réponse est différéeFSpfaire savoir ples effets sont obtenus immédiatementassertifFSØfaire savoir ØCas particulier du FSp où la direction dajustement est considérée vide (phatique)expressifFPpfaire pouvoiroffre un choix fermé ou ouvert, la réplique est attendue parmi ppromissifTableau SEQ Tableau \* ARABIC 8 : Classification des actes de Caelen en regard de Searle
Il évoque aussi la possibilité dun FDp (faire devoir). Celui-ci, orienté vers laction, est dérivé de Vernant et oblige une action dont leffet sera p (directif). Il est important de ne pas le confondre avec le faire-devoir dérivé de Greimas, plus orienté vers les connaissances, et qui regroupe les répliques de confirmation, contestation, rectification et réparation.
Ces différentes notations ont été combinées avec celles vues dans létat de lart pour obtenir des actes de langage de la forme F(p) avec ( REF _Ref76187325 \h \* MERGEFORMAT Tableau 9) :
ActemodauxExplicationexemplesF(p)FaireAction dont les effets p obtenus sont immédiatsC'est noté ; C'est fait
Je clique ; Au revoirFf(p)Faire-faireDemande daction, de faire, dont les effets p sont différésAttendez un instant
Cliquez sur ce lienFfs(p)Faire-faire-savoirDemande dinformation sur p dont la réponse est différéePouvez-vous me donner lheure ?
Quelle heure est-il ?Ffd(p)Faire-faire-devoirDemande dengagement dont leffet obtenu sera pVous le noterez, hein ?
Cest sûr ?Ffp(p)Faire-faire-pouvoirDemande de possibilité dont les choix seront faits parmi pPuis-je cliquer ici ?Fs(p)Faire-savoirInformation dont les effets p obtenus sont immédiatsLes produits X sont formidables
Il est 11h30FSØ(p)Cas particulier du phatique, la direction dajustement est videMmmFd(p)Faire-devoirEngagement de soi-même, obligation daction de soi-même dont leffet sera pJe vais le noter
Cest promisFp(p)Faire-pouvoirPossibilité, invite, offre de choix fermé ou ouvert dont la réplique est attendue parmi pBonjour
Merci
En quoi puis-je vous aider ?
Préférez-vous ceci ou cela ?Tableau SEQ Tableau \* ARABIC 9: Notre taxonomie des actes de dialogue avec des exemples
Ainsi seront repris les actes de Caelen issus de ceux dOzkan. Nous avons introduit lacte Ffd, demande dengagement (incluant lengagement de lautre), qui reprend la demande de confirmation de [Moeschler 85]. Pour léquilibre, la demande doffre Ffp a également été introduite mais nous verrons quelle est finalement très peu présente dans nos corpus.
Acte assuméActe déléguéActe actionnelF : actionFf : demande dactionActe communicationnelFs : information Ffs : demande dinformationActe engageant actionnelFd : engagementFfd : demande dengagementActe engageant statifFp : possibilité, inviteFfp : demande de possibilitéTableau SEQ Tableau \* ARABIC 10 : Synthèse de notre taxonomie des actes de dialogue
Dans le REF _Ref76187353 \h \* MERGEFORMAT Tableau 10, nous avons réparti les actes en deux catégories. Les actes que le locuteur assume sont ceux qui apparaissent lorsque le locuteur effectue quelque chose. Les actes que le locuteur délègue sont ceux qui naissent losque le locuteur demande quelque chose à lallocutaire. Ce quelque chose pourra être une action, une information, un engagement dans laction ou un choix.
Les actes ont un lien avec autrui dans le sens où leur force illocutoire est relative à linterlocuteur. Ils peuvent, en outre, se définir en fonction de soi et de lautre ( REF _Ref76192927 \h \* MERGEFORMAT Figure 15) :
EMBED Word.Picture.8
Figure SEQ Figure \* ARABIC 15 : Actes orientés vers soi ou vers autrui
Nous pouvons alors constater que deux actes (laction et lengagement daction) sont orientés vers soi-même. Ils nengagent que soi (vis-à-vis dautrui). Les autres actes sont orientés vers autrui. On fait savoir à lautre. On demande à lautre une action ou un engagement. On offre des choix à lautre. Dans ces cas, il ny a pas de retour direct sur soi. Lorsque lon demande une information à lautre ou lorsque lon demande à lautre un choix, on est orienté vers lautre, mais avec un retour vers soi (une information Fs ou un choix Fp a priori).
Nous pouvons alors comparer ci-dessous notre taxonomie des actes et leur correspondance avec les modèles existants :
SearleVernant CaelenFouquetExempleDirectifEngageant directifFf, FdFfordre, suggestion, conseilFfsFfs questionFfddemande dengagementFfpdemande doffreCommissifEngageant commissif détatFpFppromesse, offre, introductionEngageant commissif dactionFdpromesse daction engageanteExpressifAssertif descriptif expressifFsØFsØdescription détatDéclaratifDéclarationsFaFaction, conclusionAssertifAssertif descriptif comportatifdescription dactionAssertif constatifFsFsaffirmation, constatMétadiscursif citatifcitation du discours dautruiMétadiscursif expositifexposition de son propre discoursTableau SEQ Tableau \* ARABIC 11 : Notre taxonomie des actes de langage comparée à létat de lart
Nous pouvons remarquer notamment que le remerciement est pour nous non pas expressif (quoique réellement il le soit) mais davantage commissif dans le sens où il permet de clore léchange et doffrir louverture dun autre échange. En outre, la confirmation (faire devoir au sens de Greimas, linterlocuteur ne pouvant pas ignorer cette confirmation) aura deux déclinaisons. Ce sera pour nous aussi un faire devoir à la condition quelle soit engageante. Dans le cas dune confirmation non engageante (« Cest bien lundi ? », « oui »), ce sera simplement un faire savoir.
A partir de cette taxonomie, nos actes de dialogue tiendront compte du rôle du locuteur à travers sa représentation indicielle. Ils auront la forme suivante :
FA(p) lorsque le locuteur A pose un acte F (noté comme ci-dessus) de contenu propositionnel p.
Le locuteur A pourra alors poser un Faire-faire-savoir sur le contenu propositionnel p (FfsA(p)) et le locuteur B pourra lui répondre par un Faire-savoir sur ce même contenu (FsB(p)). Le contenu p pourra concerner lheure par exemple.
2.2. Spécification des attentes en dialogue
Les attentes sont, pour nous, des actes qui respectent la notation de Frege reprise par [Vanderveken 90], affinés par les modaux de [Greimas 66]. Nous aurons donc des attentes de la forme : FfsA(p), FfA(p), FsA(p), etc. Ainsi, lorsque le locuteur A propose un acte de faire-savoir (FfsA(p)), les attentes seront, par exemple, une réponse de lallocutaire (FsB(p)) ou une demande de précision de celui-ci (FfsB(p)). Les attentes correspondent alors dans ce cadre aux actes de B, {FnB(p)} possibles en réponse à lacte du locuteur A, FA(p). Parmi ces actes possibles (les attentes) se trouvera peut-être lacte que lallocutaire choisira effectivement : FiB(q). Cette situation se résume au schéma suivant, REF _Ref74199515 \h Figure 16 :
Figure SEQ Figure \* ARABIC 16 : Attentes vues comme une liste de réponses possibles
Gérer les attentes des interlocuteurs permettra daméliorer la prédiction des interventions non pas par la restriction des actes de dialogue possibles mais par une pondération de cette possibilité. Cette solution offrira alors la possibilité de tenir compte des interventions prévisibles mais sans écarter complètement les autres. Leffet de surprise pourra se mesurer si une intervention sort du cadre des attentes.
2.3. Attentes et psycholinguistique
De partance pour les Pyrénées, je me trouvais dans le train de Grenoble vers les Pyrénées. Celui-ci, en direction de Pau, était relié, comme souvent, à un autre qui devait le quitter à Narbonne pour Irun (Espagne). A côté de moi, deux jeunes filles espagnoles souhaitaient rejoindre l'Espagne. Dans la bonne voiture mais pas dans le bon train, il leur fallait comprendre quelles devaient monter dans le train de tête avant Narbonne. L'une d'entre elles parlait un peu le français, et cherchait à comprendre la situation. Constatant qu'en français (je ne parle pas l'espagnol) nous ne parvenions pas à nous comprendre, nous avons opté pour une autre langue intermédiaire : l'anglais. Ne maîtrisant pas parfaitement cette langue, j'ai pu constater toute une pléthore de phénomènes linguistiques : mots anglicisés, descriptions afin d'expliquer des termes manquant à mon vocabulaire, gestes, etc. Ce genre de situation me parait intéressant pour étudier ces phénomènes liés aux attentes intervenant dans un dialogue en langue intermédiaire.
Nous avons donc testé ces phénomènes comme des révélateurs des attentes sur le corpus collecté dans le cadre du projet NESPOLE!. L'agent italien chargé de dialoguer avec nous en français ne maîtrisait pas parfaitement la langue. Nous avons alors pu constater les mêmes phénomènes que sus-dits : les mots incompris (ex: les arrhes), les mots prononcés en langue natale, etc. Cette situation reflète bien les phénomènes que nous devrons prendre en compte dans un système de dialogue oral.
La première preuve dinhabileté dans la langue qui vient à lesprit est, avec la prononciation, la tendance à franciser les termes dont on ne connaît pas la traduction. La réaction de linterlocuteur va alors varier selon sa propre compétence langagière, la valeur inductive du contexte (du terrain commun élaboré [Lemeunier 00]), enfin et surtout limportance de la compréhension de ce fragment dans la résolution de la situation. Ainsi, il peut choisir dignorer la confusion si celle-ci naffecte pas la compréhension du message dans son ensemble. Mais il peut aussi amorcer une digression dans le but délucider lintention du locuteur.
Nous pouvons ainsi répertorier différents types dirrégularités dexpression. Les plus fréquentes sont celles qui poseront a priori le plus de problèmes aux systèmes de reconnaissance vocale. Ce sont toutes les erreurs qui ne peuvent être prises en compte par un tel système mais qui ne perturbent pas la suite du dialogue, linterlocuteur ignorant ces lacunes qui ne lempêchent pas de comprendre le message du locuteur. Les moins fréquentes sont les erreurs qui perturberont linterlocuteur au point quil renonce provisoirement à son but initial pour résoudre cette incompréhension.
2.3.1. Irrégularités non perturbantes
Ce sont, comme susdit, les irrégularités qui ne retardent pas le déroulement du dialogue initial. Linterlocuteur ne les relève pas. Il peut considérer avoir mal entendu. Il peut aussi penser que le locuteur na pas parlé correctement. Dès lors, deux situations peuvent se produire, amenant chacune à lignorance de cette faute. Dans le premier cas, linterlocuteur corrige la faute. Dans le deuxième, il nutilise pas le fragment incompris.
Lénoncé est interprété indépendamment du fragment
Dans cette situation, linterlocuteur, qui na pas compris un fragment de lénoncé initial, exclut lélément. Cest le cas notamment lorsque lagent parle d « excursions mirées ». Linterlocuteur ne garde que lidée dexcursions, jugeant la précision sur le terme mirées inutile. Lorsquelles interviennent sur des détails trop éloignés du but initial, ces incompréhensions ne donnent donc pas lieu à une négociation sur leur représentation. Cest le cas lorsque linterlocuteur baisse son niveau dattention sur une partie du dialogue qui lintéresse moins. Remarquons au passage que ce genre de situation arrive tous les jours, lorsque, par exemple, nous répondons au téléphone, et que nous ne comprenons pas lidentité du locuteur qui se présente. Nous ne lui demanderons peut-être pas de préciser, parce que nous jugerons cette information sans intérêt.
Lénoncé est interprété comme sil était correct
Dans ce cas, beaucoup plus fréquent, linterlocuteur ne relève pas la faute et la corrige dans sa représentation. Il interprète cet énoncé comme si celui-ci était correct. Cest ici que lon retrouvera les fautes typiques daccord (« combien des étoiles »), de conjugaison (« il faut que vous appelez »), de syntaxe (« pouvez-vous lire bien ? »), délision (« entre (les) deux et trois étoiles »), de mot en trop (« il y a des différents niveaux de pistes »), de mauvais terme (« vous venez par voiture ? ») ou de termes techniquement possibles mais qui ne se disent pas (« le numéro téléphonique »). Celles-ci, encore présentes lors de dialogues monolingues, ne posent pas de problème quant à lintercompréhension des interactants, au sens de Lemeunier [Lemeunier 00], mais peuvent mettre en défaut nombre de systèmes de reconnaissance de parole.
2.3.2. Irrégularités affectant la suite du dialogue
Cette situation intervient lorsque linterlocuteur ne comprend pas un terme. Cela peut arriver entre deux locuteurs français ou étrangers lorsquun mot est inconnu ou mal prononcé ou non approprié. Lincompréhension est totale lorsque la représentation de ce terme est primordiale pour la suite du dialogue. Celui-ci laisse place à une négociation sur lexplication du terme et reprendra son fil initial lorsque ce but de représentation commune sera atteint.
Cest ce que nous allons voir à travers lexemple ci-dessous :
« Client1 : j'aurais voulu savoir le/ les arrhes qu'il fallait verser avant
Agent1 : vous désirez savoir s'il vous plaît ? le ? j'ai pas compris, excusez-moi/
Client2 : le/ les arrhes, le e l/ l'avance qu'il faut faire
Agent2 : ah l'agence ? e(m)
Client3 : l'avance pardon
Agent3 : ah l'avance ok, »
Le client sait, au vu des différents échanges précédents, que lagent ne maîtrise pas le français. Il commence malgré tout à se répéter comme dans le cas dune incompréhension liée à laudition. Lagent précisant quil na pas compris (et non pas mal entendu), le client suppute une incompréhension sur le terme arrhes et cherche à le décrire brièvement. Sensuit une deuxième incompréhension mais celle-ci uniquement auditive au vu de la réponse de lagent2 qui répète ce quil a compris. La construction du sens se termine par lapprobation de lagent sur la représentation du sens du terme.
Ce même exemple illustre également limportance du contexte dans le dialogue et peut se retrouver dans la vie de tous les jours lorsque, pour ce même appel téléphonique, nous jugeons lidentité de lappelant importante (pour laisser un message à un collègue par exemple). Nous lui demanderons, parfois bien plus tard dans le dialogue, de préciser à nouveau son nom.
2.3.3. Les attentes : plus proche de la réalité ?
Cette étude nous a permis de mettre en relief certaines irrégularités liées à la maîtrise de la langue, irrégularités qui démontrent la difficulté de modéliser un énoncé mais dont nous devons tenir compte dans un modèle multi-utilisateur. Suite à ces irrégularités, nous avons relevé plusieurs réactions possibles face à un énoncé ( REF _Ref74199592 \h Tableau 12).
EnoncéCorrectIncorrectComprisComprisEnoncé corrigéFragment ignoréIncomprisIncomprisIncomprisTableau SEQ Tableau \* ARABIC 12 : Réactions de lallocutaire face à un énoncé
Ainsi, un énoncé correct (cf. lexemple des arrhes précédent) peut être compris ou incompris par lallocutaire. Un énoncé incorrect (cf. excursion mirées) peut aussi être compris ou incompris. Dans le cas où il est compris, lénoncé peut être corrigé (cest le cas de combien des étoiles corrigé en combien détoiles), ou le fragment ignoré (cest le cas avec mirées).
La réaction que nous avons détectée semble provenir du fait que lénoncé incorrect répond plus ou moins aux attentes de lallocutaire. Dès lors, ce dernier corrige sa représentation de lénoncé, ignore le fragment incorrect ou engage un sous-dialogue de résolution de son incompréhension (que celle-ci soit acoustique ou linguistique). Dans une approche par concepts comme celle de [Rouillard 00], nous pouvons imaginer des concepts principaux et des concepts secondaires. En effet, nous pensons que la réaction de lallocutaire dépend principalement de sa compréhension du concept principal (permettant de déterminer lacte), lincompréhension de concepts secondaires naffectant pas la réponse aux attentes de celui-ci. Ainsi, lincompréhension dun concept principal apporte une rupture au dialogue et aboutit à un sous-dialogue tandis que celle de concept secondaire naffecte pas la compréhension de lidée principale liée à lénoncé (malgré un fragment incompréhensible, lénoncé semble répondre aux attentes de lallocutaire).
Cette étude justifie, selon nous, la modélisation au niveau pragmatique de lénoncé, cest-à-dire notre notation en actes de dialogue. Cest, en effet, à ce niveau que nous pourrons le mieux appréhender ces irrégularités et leurs effets. Un long travail dannotation du corpus de 31 dialogues en actes, buts, stratégies et échanges a donc été effectué. Cette annotation nous a permis, dans un premier temps, destimer les règles de prédiction (ex : FfsA(p) ( FsB(p) | FfsB(p) ) puis, dans un deuxième temps, par une étude statistique, de valider cette estimation et de laffiner en termes de probabilités associées aux attentes.
3. Application
3.1. Combinaison des 3 approches
3.1.1. Notre approche
Dans cette thèse, nous nous attachons à définir et catégoriser toutes les attentes possibles dans le dialogue puis nous cherchons à les modéliser pour aboutir à un algorithme de gestion efficace. Pour cela nous prenons en compte l'historique du dialogue, le champ de la tâche, les marqueurs de discours (thèse de N. Colineau [Colineau 97]) et les règles du dialogue. Mais nous nous inspirons aussi de la psychologie sociale avec la théorie des faces de Goffman [Goffman 73, 74] et de la psychologie cognitive avec les travaux de Sperber & Wilson [Sperber 86] sur la pertinence ( REF _Ref74199872 \h Figure 17). Il s'agira également, dans le cas dun dialogue oral, de gérer efficacement les incertitudes en provenance du système de reconnaissance.
Figure SEQ Figure \* ARABIC 17 : Ebauche du modèle des attentes
Notre démarche est donc la synthèse de trois approches. Lapproche intentionnelle, dirigée par les buts du locuteur, sera fondée sur les travaux de Colineau sur les marqueurs du discours (sémantiques, syntaxiques, etc.) et sur les actes de langage. Si catégoriser un acte actionnel, communicationnel, assuré ou délégué semble pertinent, tenir compte du type dacte permet de prendre le contexte en considération en précisant où en est le dialogue (requête, confirmation, incidence, politesse, etc.). La structure des enchaînements des actes permet de prédire lensemble des actes pouvant intervenir en réponse à lacte énoncé. Cette approche cherchera à définir les intentions communicatives de chacun. Mais létude des actes de langage ne suffit pas toujours. Nous adjoindrons alors à cette approche une approche plus cognitive fondée sur lidée dun environnement cognitif qui évolue au cours du dialogue. Les attentes y sont davantage les effets de loffre de lautre locuteur. Nous tiendrons ainsi compte du fait que le but de chaque interlocuteur est davoir un discours pertinent donc de minimiser le coût (en terme de charge cognitive) du traitement cognitif de lautre. Enfin, lhomme est fortement conditionné par la société. Une approche sociale semble alors importante pour comprendre certains énoncés fortement ritualisés où chaque locuteur doit se demander ce quil gagne et ce quil perd à donner une certaine réponse. Nous essayerons ainsi de tenir compte des raisonnements normalisés (par le milieu socioculturel), des rôles de chacun, de la hiérarchie qui donnera des informations de dominance de lun sur lautre et surtout des interactions par intercompréhension.
Nous pourrions nous intéresser à dautres approches (émotionnelle, conative, etc.) mais elles ninterviennent que très peu dans un dialogue informatif.
3.1.2. Des exemples
Dans cette partie, nous observerons des exemples danalyse, à travers notre modèle, de dialogues issus du corpus de NESPOLE!. Nous montrerons les attentes de lallocutaire B en rapport à ce qua dit le locuteur A. Nous découpons les attentes selon trois contextes (intentionnel, cognitif et social). P représentera le contenu propositionnel énoncé.
Nous étudierons en particulier les attentes face à une demande qui peut être de trois ordres : information, confirmation ou précision. La demande de précision est un cas particulier de la demande dinformation dans le sens quelle éloigne le dialogue du but initial afin de répondre à un sous-but qui permettra de résoudre le but plus général.
Pour ces exemples, nous noterons s(p) pour savoir(p), qui correspond à connaître une information à propos de p, et c(p) pour croire(p), qui correspond à croire une information sur p.
Demande dinformation
Contexte intentionnel : ButA = sA(p), A veut connaître la réponse à sa question.
Contexte cognitif : ØðsA(p), A ne connaît pas la réponse à sa question.
Contexte social : la situation agent-client peut aider à coopérer.
Dans ce contexte, une demande d information pourra être représentée ainsi :
FfsA(p)ÞðFsB(p)B donne la réponse
s il saitØðsA(p)ÙðcA(coopereB)sB(p)ÞðFfsB(p)B demande des précisions sur P
s il ne sait pas et qu il coopèreØðsB(p)ÙðcoopereBÞðØðFsB(p)B ne donne pas de réponse
s il ne coopère pasØðcoopereB
Exemple :
A la demande d information du client : « j'aurais voulu savoir le/ les arrhes qu'il fallait verser avant »,lagent demande des précisions liées à son incompréhension : « vous désirez savoir s'il vous plaît ? le ? j'ai pas compris, excusez-moi/ ».
Le but nest pas atteint mais donnera lieu à un sous-but qui portera sur la demande de précision.
Demande de confirmation
Contexte intentionnel : ButA = sA(p), A veut connaître la réponse à sa question.
Contexte cognitif : cA(p), A croit connaître la réponse (ex : situation dexamen ou demande de confirmation).
Contexte social : la situation agent-client (ou la situation d examen) peut aider à coopérer.
Dans ce contexte, une demande de confirmation pourra être représentée ainsi :
FfdA(p)ÞðFdB(p)B donne la réponse
s il saitcA(p)ÙðcA(coopereB)sB(p)ÞðFfsB(p)B demande des précisions sur P
s il ne sait pas et qu il coopèreØðsB(p)ÙðcoopereBÞðØðFdB(p)B ne donne pas de réponse
s il ne coopère pasØðcoopereB
Exemple :
A la demande de confirmation du client : « c est e le centre de tourisme APT ? », lagent répond par la positive car il sait : « oui, cest bien là oui ».
Le but est atteint, A possède la réponse à sa question.
Demande de précision
Contexte intentionnel : ButA = sA(p), A veut connaître la réponse à sa question.
Contexte cognitif : ØðsA(p), A ne connaît pas la réponse à sa question.
Contexte social : la situation agent-client peut aider à coopérer.
Dans ce contexte, une demande de précision pourra être représentée ainsi :
FfsA(p)ÞðFsB(p)B donne la réponse
s il saitØðsA(p)ÙðcA(coopereB)sB(p)ÞðFfsB(p)B demande des précisions sur P
s il ne sait pas et qu il coopèreØðsB(p)ÙðcoopereBÞðFfsB(p)B demande une clarification sur P
s il n a pas compris et qu il coopèreØðcomprisB(p)ÙðcoopereBÞðØðFsB(p)B ne donne pas de réponse
s il ne coopère pasØðcoopereBExemple :
A la demande de précision du client : « pardon vous avez dit Grenoble ? », l agent répond par la positive car il sait : « oui ». Le but est atteint, le dialogue va pouvoir continuer avec le but (ou sous-but) du niveau supérieur.
C est ce que nous pouvons voir avec le dialogue suivant en situation coopérative :
EnoncéButActeAttentesA: Habitez-vous à Grenoble ??sA(p)FfsA(p)[ØðsA(p)]FsB(p)[sB(p)] ( ðFfsB(p)[ØðsB(p)]
( ðFfsB(p)[ØðcomprisB(p)]B: Pardon, vous avez dit Grenoble ??sB(p )FfsB(p )[ØðcomprisB(p )]FsA(p )[sA(p )] ( ðFfsA(p )[ØðsA(p )]A: Oui+sB(p )FsA(p )[sA(p )]FsB(p)[sB(p)] ( ðFfsB(p)[ØðsB(p)]B: Non, j habite dans la banlieue+sA(p),
++sB(p )FsB(p)[sB(p)]Ainsi peut-on voir que l acte suivant devrait appartenir aux attentes et permet daffiner le contexte.
3.2. Mise en uvre
Représenter les attentes consiste, notamment, selon notre approche, en une représentation des différents contextes (cognitif, intentionnel et social). Pour cela, nous avons utilisé une approche corpus dont nous présenterons une analyse plus loin. Cette approche nous a permis de valider une notation des attentes en termes dactes et de règles dassociation avec probabilité dapparition. Ainsi, nous aurons des règles de la forme FfsA(p) -> FsC(p) [93%] | FfsC(p) [5%].
Les règles représenteront les aspects non seulement intentionnels mais aussi cognitifs (par exemple, à une demande dinformation, lallocutaire répondra sil possède la réponse ou demandera des précisions sil ne la possède pas). Elle ressemblent à des règles de logique modale classique que nous pourrions traduire en règles de logique modale normale par les travaux de [Gasquet & Herzig 96]. En revanche, les probabilités dapparition de chaque règle permettent de mettre en jeu le contexte social. Ainsi, à partir dune annotation fine dun corpus en termes dactes de langages, nous pouvons proposer ces règles et leurs probabilités dapparition. Liées à une gestion des attentes qui suit celle des buts, cest-à-dire une gestion de pile dattentes, ces règles nous permettent de prendre en compte non seulement lattente la plus probable dans un certain contexte, mais aussi les autres.
Le dialogue sorganise ainsi en fonction de la tâche à accomplir, et aussi en fonction de la rationalité des interactants, elle-même dépendant de contraintes psychologiques (processus cognitif de chacun) et sociales (conventions, rôles, etc.).
Cette étude de corpus réels présentés dans le chapitre « approche corpus » nous a permis dans un premier temps destimer les règles dassociation entre actes et attentes. Nous avons donc pu proposer des règles de la forme FfA(p) -> FC(p). Dans le but dune modélisation plus fine des rôles et du contexte, nous avons, ensuite, affiné ces règles en leur adjoignant des probabilités dapparition liées à leur fréquence doccurrence dans les dialogues du corpus. Pour cela, nous avons dû analyser ces même dialogues, transcrits puis annotés.
3.2.1. Notation
Une première étude des dialogues enregistrés puis transcrits dans le cadre du projet NESPOLE! [Burger & al. 01], [Besacier & al. 01] nous a permis de montrer certaines irrégularités liées à la maîtrise de la langue [Fouquet 01]. Nous y avons montré que ces irrégularités affectent plus ou moins la suite du dialogue. Nous nous sommes ensuite penchés sur les raisons de cette gêne plus ou moins importante. Nous pensons, comme nous lavons proposé dans [Fouquet 02], que lénoncé répond néanmoins plus ou moins aux attentes de lallocutaire. En effet, si la réponse du locuteur, même erronée, correspond à ce quattendait lallocutaire, celui-ci na pas de raisons dalourdir le dialogue en interrompant le locuteur sur une partie qui ne lintéresse pas. Ayant obtenu son information, il laissera le dialogue se poursuivre normalement. En revanche, si cette réponse est trop erronée, lallocutaire na pas ce quil attendait. Selon le principe dengagement, il souhaite sa réponse. Dès lors, il engagera un sous-dialogue afin dobtenir son renseignement. De même, si le locuteur est trop incompréhensible, les attentes de lallocutaire ne sont pas satisfaites et celui-ci engagera un sous-dialogue de résolution de cette incompréhension.
Cette raison nous amène à envisager en premier lieu une approche par concepts [Rouillard 00]. Nous y distinguerons en revanche des concepts principaux et des concepts secondaires. Les premiers déterminent, selon nous, lacte. Ils sont primordiaux dans la compréhension globale de lénoncé et apportent une rupture et une sous-dialogue en cas dincompréhension. Les seconds, moins importants, naffectent pas la réponse aux attentes. En effet, malgré un fragment incompréhensible, lénoncé semble répondre aux attentes de lallocutaire.
En revanche, lidée des concepts étant trop liée à la tâche, nous préférons modéliser le dialogue au niveau pragmatique, ce qui nous amène à utiliser une notation pragmatique de la forme F(p) où F est la force illocutoire et p le contenu propositionnel. Nous aurons donc des attentes de la forme FfsA(p) ( FsC(p). Cest pour nous la seule manière de rester générique en restant hors de la tâche et en saffranchissant davantage du niveau de maîtrise de la langue.
3.2.2. Estimation de règles
Cette première étude nous a donc permis, outre de choisir une notation de haut niveau (la notation pragmatique), destimer des règles dassociations entre actes et attentes. Ainsi, nous avons constaté des règles de la forme FfsA(p) ( FsC(p) | FfsC(p) en fonction du contexte. Cest que nous pouvons voir ci-dessous à travers deux actes, la demande dinformation et celle de confirmation. Dans ces deux cas, le contexte intentionnel est le même (le but du locuteur A est de connaître la réponse à sa question SA(p)). De même, le contexte social est le même car nous restons dans le contexte du projet NESPOLE! mettant en jeu un agent et un client pour du renseignement touristique, ce qui aide à la coopération des interlocuteurs. En revanche, cest sur le contexte cognitif que sera la différence. En effet, dans une demande dinformation, le locuteur ne connaît pas la réponse (ØðSA (p)), tandis que, dans une demande de confirmation, il croit connaître la réponse (CA (p)). Ainsi, on pourra les représenter respectivement par les deux règles suivantes :
FfsA(p)ÞðFsB(p)B donne la réponse
s il saitØðSA(p)ÙðCA(CoopereB)SB(p)ÞðFfsB(p)B demande des précisions sur P
s il ne sait pas et qu il coopèreØðSB(p)ÙðCoopereBÞðØðFsB(p)B ne donne pas de réponse
s il ne coopère pasØðCoopereB
Exemple : A la demande d information du client : « j'aurais voulu savoir le/ les arrhes qu'il fallait verser avant », lagent demande des précisions liées à son incompréhension : « vous désirez savoir s'il vous plaît ? le ? j'ai pas compris, excusez-moi/ ». Le but nest pas atteint mais donnera lieu à un sous-but qui portera sur la demande de précision.
FfdA(p)ÞðFdB(p)B donne la réponse
s il saitCA(p)ÙðCA(CoopB)SB(p)ÞðFfsB(p)B demande des précisions sur P
s il ne sait pas et qu il coopèreØðSB(p)ÙðCoopBÞðØðFdB(p)B ne donne pas de réponse
s il ne coopère pasØðCoopB
Exemple : A la demande de confirmation du client : « cest e le centre de tourisme APT ? », lagent répond par la positive car il sait : « oui, cest bien là oui ». Le but est atteint, A possède la réponse à sa question.
EnoncéButActeAttentesC: j'aurais voulu savoir le/ les arrhes qu'il fallait verser avant?SC(p)FfsC(p)[( SC(p)]FsA(p)[SA(p)]( FfsA(p)[( SA(p)]A: vous désirez savoir s'il vous plaît ? le ? j'ai pas compris, excusez-moi/?SA(p)FfsA(p)[( SA(p)]FsC(p)[SC(p)]( FfsC(p)[( SC(p)]C: le/ les arrhes, le e l/ l'avance qu'il faut faire+SA(p)FsC(p)[SC(p)]FsA(p)[SA(p)]( FfsA(p)[( SA(p)]A: ah l'agence ? e(m)?SA(p)FfsA(p)[(SA(p)]FsC(p)[SC(p)]( FfsC(p)[( SC(p)]C: l'avance pardon+SA(p)FsC(p)[SC(p)]FsA(p)[SA(p)]( FfsA(p)[( SA(p)]A: ah l'avance ok,++SA(p),
++ SC(p)FsA(p)[SA(p)]Tableau SEQ Tableau \* ARABIC 13 : Exemple de dialogue avec gestion des attentes
3.2.3. Probabilités
Selon nous, les règles représentent les aspects intentionnels mais aussi cognitifs (par exemple, à une demande dinformation, lallocutaire répondra sil possède la réponse ou demandera des précisions sil ne la possède pas). En revanche, les probabilités dapparition de chaque règle permettent de mettre en jeu le contexte social. En effet, selon nous, la fréquence dapparition des différents types de réponse dépend des rôles de chacun. Ainsi, dans la situation client/agent, lagent pose davantage de demandes de précisions (sur des paramètres inhérents à la tâche) que le client. De même, dans la situation maître/élève, le maître pose davantage de demandes et lélève de réponses.
Lintroduction de probabilités dans ces règles permet de définir un ordre de priorité dans les attentes du locuteur. Ainsi, lorsquil pose une demande dinformation, il espère dabord une réponse. Il sattend donc dabord à celle-ci, mais sattend aussi fortement à une demande de précision sur sa question en imaginant que linterlocuteur peut ne pas avoir de réponse à donner par manque dinformation. Il peut aussi sattendre à un refus de réponse dans le cas dun interloctueur peu coopératif, une requête de répétition dans le cas dun interlocuteur qui aurait mal entendu, une requête de reformulation dans le cas dun interlocuteur qui aurait mal compris, etc.
Une règle tiendra donc compte des connaissances des interlocuteurs mais aussi des rôles et des stratégies employées. Elle aura la forme :
FA(p)ÞðF B(p )[ x % ]SA(q)SB(q ) ðÙð ðStr BÞðF B(p )[ x % ]SB(q ) ðÙð ðStr BÞðF B(p )[ x % ]SB(q ) ðÙð ðStr B
A pose un acte FA(p) en fonction d un certain nombre de connaissances SA(q). Ses attentes seront par exemple à x % un acte de B FB(p) en fonction des connaissances de B SB(q) et des sa stratégie StrB.
Dans un dialogue dirigé par les buts, nous pensons que lacte le plus probable à la suite dun acte est lacte qui va tenter datteindre le but. Ainsi, nous pensons que les probabilités décrivent lécart dincidence par rapport à laxe régissant de Luzzati. Par exemple ( REF _Ref79220174 \h Figure 18) :
Figure SEQ Figure \* ARABIC 18 : Les probabilités comme écart d'incidence
Ainsi, lorsque A pose un acte FfsA(p), sa première attente sera celle qui dirige le plus le dialogue vers le but. Ensuite plus la probabilité dapparition est faible, plus lincidence est élevée. La deuxième attente sécarte du but afin pour mieux sen rapprocher plus tard. Et ainsi de suite jusquà la dernière attente, la moins probable. Si celle-ci est produite, alors lincidence sera telle quelle peut remettre en cause le dialogue.
Conclusions théoriques
Dans le cadre de la communication, le modèle du dialogue est un élément indispensable. Sil se résume à une approche par mots-clés (remplissage de blancs), il semble plus libre sur la syntaxe, mais contraint lutilisateur à des requêtes plutôt simples sur des bases de données. Cela peut suffire dans certains cas (réservation ferroviaire ou recherche par mots-clés). Lélaboration dune couche de dialogue plus complexe permet dautres interactions plus riches et plus souples. Pour la traduction, la sémantique de lénoncé est primordiale afin de ne pas générer dincompréhension. Une analyse par mots-clés est insuffisante pour rendre compte du sens de lénoncé.
En dialogue humain (éventuellement médiatisé par la machine) comme en dialogue homme-machine, nous constatons que, sur les différents modèles étudiés, peu sont utilisables dans le contexte de notre sujet de recherche. De plus, ces modèles semblent insuffisants seuls. Cest donc par composition dun modèle intentionnel avec dautres travaux issus des psychologies cognitive et sociale que nous avons tenté daborder au mieux les attentes en dialogue.
Notre modèle semble refléter ce qui se passe en communication verbale. Il sintéresse non plus seulement au système mais surtout au locuteur et à ses attentes. Les attentes du locuteur sont vues comme les résultats espérés de ses actes. Elles représentent son état mental contenant ses buts, ses engagements, ses connaissances, des règles de conversation et les rôles des participants. Elle résultent donc dune combinaison de différentes disciplines.
Nous proposons des règles pour les représenter. Ces règles, proches de la logique modale, tiennent compte des actes, des rôles, des stratégies, de la coopération des intervenants et du contexte cognitif. Elle présupposent des dialogues finalisés dans lesquels on cherche à atteindre un but.
La représentation en actes de langage permet daborder les aspects pragmatiques du dialogue et de prendre ainsi en compte le contexte dénonciation. La gestion des intentions se fait par le principe des actes posant des buts et par le suivi de ces buts jusquà leur satisfaction. La pertinence est représentée par la coopération. La gestion des aspects sociaux se fait par le rôle du locuteur et les probabilités associées. Enfin, la gestion des implicatures et des présuppositions est issue de la gestion des croyances et connaissances remises en jour en permanence.
Notre modèle utilise actuellement des probabilités. Nous allons donc aborder le moyen de les définir, cest-à-dire lapproche à base de corpus adoptée.
Chapitre II : Approche à base de corpus
Dans le chapitre précédent présentant la partie théorique de notre approche, nous avons introduit des probabilités dans notre modélisation. Pour les déterminer, une approche à base de corpus permet de valider cette notion dans un contexte de dialogue réel humain ou homme-machine. Notre objectif est donc létude des attentes et leur modélisation en dialogue humain ainsi quen dialogue homme-machine.
Les objectifs du projet Nespole! de traduction de parole pour du e-commerce sont de pouvoir converser avec un agent de tourisme à létranger, chacun dans sa langue maternelle. Modéliser le dialogue permet de restreindre lensemble des solutions de reconnaissance ainsi que de gérer correctement les ambiguïtés de traduction. Pour nous, cela nécessite une bonne gestion des attentes des locuteurs.
Les objectifs du projet PVE portent sur létude exploratoire dun assistant électronique en entreprise. Une bonne gestion du dialogue est nécessaire pour traiter les tâches que lassistant doit réaliser. Cette gestion du dialogue repose sur lidentification des actes posés par les interlocuteurs. Une bonne modélisation des attentes de chacun est donc encore nécessaire.
Nous avons présenté précédemment la méthodologie de conception incrémentale adoptée au long de ces différents projets et de notre thèse. Plusieurs cycles nécessitent des corpus. Ainsi, après avoir défini le modèle, lapproche à base de corpus a permis de définir le vocabulaire de lapplication et ses contraintes linguistiques. Le corpus fournit des données objectives pour le système à concevoir et évaluer. Il permet de progresser dans un système en spirale en évaluant si le cahier des charges est cohérent et répond bien au besoin.
Le rôle du corpus-pilote est détudier les usages et de cibler correctement les besoins. Puis dans létape de conception, il faut évaluer ce que sera le système final : pour cela on a recours à des corpus-simulés, enregistrés par exemple avec des techniques de magicien dOz (un compère simulant le système de dialogue). Dans le cycle de développement du système, les versions successives sont évaluées à partir d'enregistrements de dialogues avec des usagers plausibles ou réels. L'évaluation prend en compte différentes données sociales et en particulier celles qui sont relatives aux usages possibles du système et de systèmes concurrents. Les évaluations portent sur le comportement technique des systèmes et sur les appréciations des usagers (confort, utilisabilité
). On utilise parfois des corpus-tests préenregistrés contenant certaines difficultés qu'un système devrait surmonter. Comme il ne pourra s'agir de dialogues réels, qui par définition ne peuvent être préenregistrés, seuls certains aspects du dialogue oral peuvent faire l'objet de tests à partir de corpus de ce type, par exemple la compréhension des énoncés du dialogue.
Dans le cas qui nous occupe, létude dun corpus permet daborder les particularités liées au dialogue, celles liées au dialogue oral et celles liées au dialogue dans ce cadre (simulation de la situation future). Nous avons ainsi élaboré trois collectes. La première concerne le corpus-pilote pour du dialogue homme-homme dans le cadre de la traduction de parole (Nespole!). La deuxième collecte concerne le corpus-pilote pour du dialogue homme-machine dans le cadre du remplacement de boite vocale par assistant virtuel (PVE). Enfin, la troisième collecte concerne du corpus-simulé recueilli par technique de magicien dOz décrit plus loin.
1. Corpus-pilote homme-homme pour Homme-Homme : Nespole!
Durant l'été 2000, nous avons collecté 31 dialogues homme-homme en français. Nous les avons transcrits ensuite pendant l'automne 2000 avant d'en faire une annotation en actes, buts illocutoires, stratégie et structure, puis une analyse stochastique. Nous décrirons dans ce chapitre le protocole suivi et le corpus obtenu.
1.1. Protocole Nespole!
Dans le cadre de cette collecte, nous avons adopté la démarche suivante. La première étape a consisté en la mise en place dune plate-forme de test. Cette plate-forme intègre la connexion à lagence italienne à travers Internet. Pour cela, nous avons utilisé NetMeetingTM. Cet outil nous a permis en outre la mise en place dun tableau partagé pour laffichage des pages Internet. Lagent peut ainsi montrer des pages Internet au client. Enfin, pour lacquisition du corpus, la plate-forme utilise TotalRecorder pour enregistrer en stéréo ce que chacun dit. Nous avons enregistré sur une voie ce que dit le client et sur lautre ce que dit lagent. La deuxième étape a consisté en la traduction du site web italien APT (de langlais vers le français). La troisième étape fut lélaboration de 6 scénarii qui ont servi à cadrer les dialogues à recueillir. Dans ceux-ci, un client appelle une agence de tourisme afin dorganiser ses vacances dans le Trentin (région du Nord-Est italien). Lui sont alors notifiées les différentes activités qui lintéressent et divers renseignements à remplir comme ses dates (ou sa période de vacances), son mode de transport, le nombre de membres de la famille, etc. Sensuivent la diffusion de la demande à participation, le recueil des participations possibles, et la convocation jusquau jour de lenregistrement. Il est à noter que lagent est italien mais parle français pour loccasion. Pour cette phase, on commence par un accueil du sujet, suivie dune explication du projet et de la tâche qui lui sera demandée. Puis on fait quelques tests techniques de calibrage du micro et de fonctionnement de la plate-forme de test (des tests donc sur lenregistrement avec TotalRecorder et sur la transmission avec Netmeeting). On enregistre alors le dialogue qui durera en 12 et 30 minutes. Lorsque les 31 dialogues sont enregistrés, on commence une longue phase de transcription consistant en la retranscription par écrit des dialogues oraux. Nous avons effectué cette transcription, sous traitement de texte, avec Selma El-Moundi, Solange et Coralie Hollard. Nous lavons ensuite vérifiée et validée. Suite à cela, nous avons effectué lélaboration dune grille danalyse avec Anne-Claire Descalle et Solange Hollard. Cette grille met en relief le rôle des participants à travers un identificateur de locuteur (A pour Agent, C pour Client). Elle contient les tours de parole avec un numéro dintervention puis lénoncé prononcé par le locuteur et lacte de dialogue correspondant, suivi du contenu propositionnel, du but illocutoire et de la stratégie employée.
Enfin, la structure des dialogues a été représentée à travers les échanges. Une règle assez simple est que lorsquun but est posé, un échange débute, lorsquil est satisfait, léchange se termine. Différents choix ont dû être faits quant à lannotation avec Anne-Claire Descalle. En particulier, suite aux nombreux phatiques (« mm ») qui coupent lénoncé en deux et au temps de transfert du signal (environ 1 seconde en moyenne), nous avons opté pour une reconstruction des énoncés.
Ensuite, pour les actes, louverture (« bonjour ») a été annotée Fp car elle offre la possibilité de continuer ou non, le remerciement (« merci ») a également été annoté Fp car sil clôt un échange, il offre la possibilité den ouvrir un autre. En revanche la clôture (« au revoir ») a été annotée F car elle incite à clore le dialogue et raccrocher. Notons que dans le cadre de PVE, le rôle de la machine étant mieux défini, la clôture de celle-ci (« au revoir » côté machine) a été annoté Ff car si elle fait clore le dialogue, elle laisse toujours la dernière initiative au client.
Dautres actions ont nécessité des choix. Cest le cas des demandes denvoi ou dattente par exemple. Une demande denvoi (Ff(Pouvez-vous menvoyer une brochure)) correspond à un Ffs mais avec une idée de réalisation daction. Le but se réalise par le Fs suivant qui sera annoté comme F (F(je vous lenvoie)) même si le marqueur daction nest pas présent (F(oui daccord)).
Pour la mise en attente (Ff(attendez un instant sil vous plait)), le même choix a été fait. Mais linterlocuteur attend parfois sans rien dire (ni « daccord », F non marqué linguistiquement, ni « jattends », F marqué linguistiquement).
A lopposé, certaines énumérations peuvent prendre plusieurs tours de parole. Le but est pour nous atteint à la première réponse. Il est ensuite satisfait après le dernier tour de parole en réponse à ce but.
Enfin, dans le cas dune répétition ou reformulation de lexpression dun but, le premier but a été considéré comme abandonné. Munis de cette grille danalyse et des ces choix, Anne-Claire Descalle et moi avons effectué une annotation de ces 31 dialogues. Ces annotations ont permis une analyse fine qui a servi à valider notre notion d'attentes à travers une approche stochastique que nous aborderons plus loin.
1.2. Description du corpus NESPOLE!
La collecte dans le cadre du projet Nespole! a permis denregistrer 191 dialogues monolingues dans différentes langues dont 31 en français. Ces 31 dialogues ont été transcrits puis annotés. Nous avons relevé 4633 actes répartis comme indiqué dans la description du corpus ci-après ( REF _Ref78622241 \h Tableau 14) :
RôleFFdFfFfdFfsFpFsTotalAgent80769226916516722264Client66223444211517172369Tableau SEQ Tableau \* ARABIC 14 : Répartition des 4633 actes du corpus Nespole! en fonction des rôles.
Un exemple dannotation peut être observé ci-dessous ( REF _Ref74368669 \h Tableau 15) :
C/ATrEnoncéActeContenu propositionnel (P)ButStrEchangeC 1 Allô bonjour Cfp(P)salutationsOuverture A2 Bonjour MonsieurAfp(P)salutationsC 3 c'est le centre de tourisme APTCffd(P)demande de confirmation?Afd(P0)DDéb0 = demande confirmation4bonjourCfp(P)salutations5 j'appelle Cfs(P)1er essai dexposer le motif de lappelD A 6 oui c'est bien là ouiAfd(P)confirmation par A du lieu (APT)+Afd(P0)RC 7 c'est bien là d'accord Cfs(P)Phatique Ø++Afd(P0)RFin0 = confirmation.8 j'appelle pour avoir des renseignements pour organiser une semaine au ski au mois de décembreCffs(P)Requête principale : C expose le motif de son appel?Cs(P1)DDéb1 = demande rsg. pour organiser ses vacances.A 9 ouiAfs(P)réaction positive signe de compréhension du but de C + Possibilité de répondre à la questionRC 10 et donc je pense partir avec mes enfants et ma femme et doncCfs(P)Compléments dinformation de C.D11 j'aimerais avoir des renseignements sur la meilleure villeCffs(P)Demande ; la meilleure ville.- Cs(P1) ^
?Cs(P2)DDéb2= demande de renseignements.12 quel est le meilleur endroit ou allerCffs(P)demande dinfos/conseils ; meilleur endroit où aller.- Cs(P2) ^
?Cs(P3)DDéb3 = quel est le meilleur endroit ?13 et je souhaiteCffs(P)début de demande-Cs(P3)DA 14 OuiAfs(P)Phatique ØR15 vous connaissez déjà notre région ou c'est la première fois que vous venez ici en TrentinoAffs(P)demande ; connaissance de la région.?As(P4)K Début4 = demande si C connaît la région.C 16 C'est la première fois que je que je viensCfs(P)réponse ; non+As(P4)RA 17Ah ouiAfs(P)Phatique ØRTableau SEQ Tableau \* ARABIC 15 : Exemple d'annotation, corpus pilote pour du dialogue humain (Nespole!)
2. Corpus-pilote homme-homme pour Homme-Machine : PVE
Afin de définir les spécifications du modèle de dialogue, les tâches habituelles et le vocabulaire de lapplication, nous avons enregistré durant le printemps 2002 plus de 800 dialogues réels entre des secrétaires et leurs interlocuteurs. Ces dialogues homme-homme collectés mettaient en relation des secrétaires et leurs appelants sur le canal téléphonique. Il s'agit de dialogues oraux entre humains. Les 44 dialogues les plus représentatifs des tâches les plus fréquentes dun assistant ont été sélectionnés puis transcrits pour analyse. Leur annotation en actes et structures a permis d'élaborer une plate-forme de magicien d'Oz pour le recueil du corpus-simulé de 86 dialogues homme-machine (annotés in vivo en actes) dont nous présenterons la mise en uvre plus loin.
2.1. Protocole PVE
Pour cette collecte, la démarche suivante a été suivie. La première étape, après une étude des usages, a consisté en un démarchage auprès de secrétaires. Après les accords nécessaires à lécoute sur ligne téléphonique, nous avons mis en place un service découte et denregistrement sur les lignes téléphoniques des secrétaires acceptant de se prêter à lexpérimentation. Nous avons ensuite enregistré plus de 800 dialogues réels dans ces conditions. Après un classement par tâches et une sélection de dialogues les plus pertinents pour notre projet, nous avons dégagé les trois tâches les plus fréquentes : joindre une personne, prendre un rendez-vous et réserver une salle. Nous avons ensuite ajouté 3 autres tâches considérées comme importantes pour un assistant virtuel : gérer un agenda partagé, recevoir une information, et envoyer un document. Nous avons ainsi obtenu six tâches représentatives d'un assistant :
[STAND+RDIR] redirection dappel vers un membre de lentreprise
[RDV] prise de rendez-vous avec un membre de lentreprise
[RESA] réservation de salle
[RSG-AGD] consultation ou modification dun agenda partagé
[ENV-DOC] envoi de document à un membre de lentreprise ou à un extérieur.
[COM-INFO] communication dune information par la machine
Nous avons sélectionné 44 dialogues (dune durée de 2 à 7 minutes environ) considérés comme les plus représentatifs de ces tâches. Après élaboration dune norme de transcription suivant celle de Nespole!, létape suivante a consisté en la transcription (cf. [Descalle 02]) des 44 dialogues choisis. Après cette transcription , nous avons élaboré une grille dannotation qui a permis lannotation de ces transcriptions en termes de buts illocutoires, stratégies, actes et échanges.
Pour ces derniers, Anne-Claire Descalle a dabord élaboré une structure d'échanges générique pour chaque dialogue, puis une structure d'échanges générique à tous les dialogues. Pour cela, elle a suivi un modèle danalyse de dialogue structural (correspondant à lécole de Genève [Roulet & Moeschler 85]) avec une composante dynamique (à la suite de [Luzzati 95] & [Bilange 92]).
À partir de ces transcriptions, nous avons par ailleurs défini le vocabulaire utilisé dans le corpus homme-homme ainsi que des classes de mots propres à lapplication. Puis une analyse de ces transcriptions a été faite alors en vue de développer le modèle de dialogue et le premier magicien dOz. Nous avons ainsi déterminé 122 énoncés typiques dans le corpus homme-homme.
Ces énoncés, contenant des variantes et des paramètres, seront ceux utilisés par le système dans sa première version. Les variantes, déduites de lanalyse, ont été introduites dans le but de simuler du dialogue plus naturel. Les énoncés de réponse contiennent en outre un certain nombre de paramètres propres à la tâche comme les nom et patronyme de lutilisateur ou des membres de lentreprise, les éléments de date (jour de la semaine, jour du mois, mois, année) ou de moment (heure, minute, moment de la journée). Un exemple dénoncé peut être observé ci-dessous :
id représente létiquette didentifiant pour repérer chaque énoncé, type représente la stratégie associée (ici réactif), act est lacte de langage correspondant à lénoncé et name contient lénoncé sous une forme condensée. Ainsi cet énoncé pourra se décliner en quatre variantes ( REF _Ref74368797 \h Tableau 16) :
[sexe] [nom] est disponible.[sexe] [nom] est disponible ce jour-là.[sexe] [nom] n'est pas disponible.[sexe] [nom] n'est pas disponible ce jour-là.Tableau SEQ Tableau \* ARABIC 16 : Variantes et paramètres pour le magicien d'Oz (PVE)
[sexe] et [nom] sont deux paramètres quil conviendra dinstancier au moment de la réponse. Ainsi, au moment de la réponse « [sexe] [nom] est disponible ce jour-là » pourra se remplacer par « monsieur dupond est disponible ce jour-là ».
2.2. Description du corpus-pilote PVE
Nous avons repris les annotations pour représenter les 44 dialogues en XML sous la forme décrite ci-après. En premier lieu, lentête reprend diverses définitions comme celle du locuteur :
Définition des actes de langage utilisés :
Définition des types de tâches relevées :
Ensuite se déroule un dialogue de la forme suivante :
c4d55 : RDV--> réussite. ACTE BUT STR ECHANGE
CELAIO bonjour
[
]
au revoir
Nous pouvons alors voir un exemple de dialogue complet (passé par une XSL) :
Dialogue numéro 1 Tâche : 2
Locuteur Acte Enoncé AfpCELAIO bonjour Cfpoui bonjour euh Cffsje voudrais savoir en fait euh euh si il faut prendre rendez-vous euh Cfppour en fait euh parce que j' aimerais poser des questions sur l' orientation Afsoui c'est mieux oui effectivement Cfseuh Affsvous êtes étudiante où là Cfseuh je suis étudiante en deuxième année de DEUG MIASS Afsen deuxième année de DEUG MIASS oui Cfdvoilà donc euh Afsmmm Cfsj' aimerais avoir certaines précisions sur des des différents débouchés en fait Afsbien sûr oui alors euh Affsquand est-ce que vous voulez venir demain Cfseuh ben euh demain matin si vous voulez Afsalors je regarde l' agenda hein du conseiller Cfsoui Afsje vais regarder tout de suite Affddemain c'est vendredi dix-sept hein Cfdvoilà oui Afsalors euh il a un rendez-vous à neuf heures Afpvous pouvez venir à dix heures si vous voulez Cfsd'accord mais y a pas de problèmes Afsd'accord Affsvotre nom c'est CfsNOM_PERSONNE AffsDEBUT_EPELATION_NOM_PERSONNE CfsFIN_ EPELATION_NOM_PERSONNE Afsd'accord donc euh MIASS Affséventuellement un numéro de téléphone si y a besoin Cfseuh oui zéro quatre Afsmmm Cfssoixante seize Afsmmm Cfsquatre-vingt cinq Afsoui Cfszéro deux Afsmmm mmm Cfsquarante deux Afd'accord c'est noté Afpalors demain matin à dix heures Cfsd'accord Cfpben merci beaucoup Afpde rien je vous en prie Cfpau revoir Afau revoir Le corpus-pilote du projet PVE est composé de 2276 actes répartis comme suit, en fonction des tâches relevées précédemment ( REF _Ref78623730 \h \* MERGEFORMAT Tableau 17) :
TâcheRôleFFdFfFfdFfsFpFsTotalTotalStand RDIRAgent5634111162102206Client585691853104RDVAgent914982657132255509Client11123132241152254RESA
Salle,matérielAgent918412212084168350Client513116263190182RSG AGDAgent052142203473Client31124111739TotalAgent2343182562902985591138Client2434103761101312579Tableau SEQ Tableau \* ARABIC 17 : Répartition des 1138 actes du corpus-pilote PVE en fonction des tâches et du rôle.
Nous verrons plus loin lutilisation que nous avons faite des annotations du corpus pour notre approche stochastique. Ce corpus nous a permis délaborer une plate-forme de type magicien dOz afin de recueillir du corpus simulé de dialogue homme-machine. Selon la méthodologie employée, nous avons dabord élaboré une première version que nous allons présenter à présent.
3. Corpus-simulé homme-machine version 0 : Pré-tests PVE
Comme nous lavons vu dans le chapitre précédent, les transcriptions nous ont servi à élaborer un corpus adapté aux tâches auxquelles le système doit pouvoir répondre. Ce corpus étant fait de dialogues humains, il ne peut être suffisant pour ladapter à du dialogue homme-machine. Nous avons donc collecté de nouveaux dialogues oraux par le biais dun magicien dOz afin davoir du dialogue homme-machine. La démarche fut la suivante.
3.1. Protocole corpus-simulé PVE version 0, pré-tests
Nous avons commencé par lélaboration dune plate-forme en vue dune expérimentation de type Magicien dOz (version 0) pour recueillir du corpus homme-machine adapté à la tâche à réaliser et valider certaines hypothèses avant la modélisation effective. La plate-forme sera décrite plus en détail dans le chapitre « Magicien dOz ». Notons seulement que la plate-forme contient un système de reconnaissance vocale en entrée et de synthèse de parole en sortie, de sorte que la modalité dinteraction avec lutilisateur est essentiellement vocale, les seules autres actions consistant à se mettre en relation avec le service dassistant, décrocher, raccrocher et éventuellement appuyer pour parler. Lexpérimentation a alors consisté à faire passer des ergonomes devant le système en tant que client et en tant que magicien simulant lagent. Ceux-ci connaissaient donc la visée magicien dOz de lexpérimentation. Le sujet avait alors le rôle dutilisateur puis de magicien contrôleur de dialogue, le magicien annotateur étant géré par moi-même. Les dialogues étaient recueillis sous forme orale et écrite (à travers la reconnaissance vocale) et annotés in vivo en actes. Des questions sur les remarques, commentaires et améliorations à apporter ont été posées aux utilisateurs et aux expérimentateurs magiciens. Ces retours ont permis une amélioration significative de lergonomie de linterface. En outre, les dialogues recueillis ont permis de déterminer le vocabulaire utilisé dans le corpus homme/machine et les énoncés typiques dans le corpus homme/machine. Enfin, cette expérimentation a permis de valider nos premières hypothèses. La qualité du dialogue dépendant de la qualité des hypothèses de reconnaissance vocale, une transcription a été faite sur les énoncés réellement prononcés.
3.2. Description du corpus-simulé PVE version 0, prétests
Nous avons repris les annotations et les transcriptions pour représenter les 14 dialogues obtenus en XML sous la forme décrite ci-après. En premier lieu, lentête reprend diverses définitions comme celle du locuteur ou des actes comme nous lavons vu au chapitre précédent. Lentête de définition des tâches a été modifiée pour obtenir une entête de la forme :
Le dialogue se déroule ensuite de la façon suivante :
1597.wav
j' aimerais réserver une salle
j' aimerais réserver une salle
j' aimerais réserver une salle
[
]
1604.wav
revoir
au revoir
au revoir
Nous pouvons voir dans cet exemple le rajout dune tâche douverture. En effet, à linstar de Luzzati ou Bilange, nous pensons que cette phase est indépendante de la tâche qui suit. Cette phase, primordiale pour bien débuter un dialogue homme-machine, sera étudiée à part par la suite.
Un exemple de dialogue complet peut être observé ici :
Dialogue numéro 2
Tâche : ouverture
Locuteur Acte Enoncé Signal AfpBonjour, ici la secrétaire virtuelle Vocalisa. Quelle est votre demande ? Tâche : resa
Locuteur Acte Enoncé Signal Cffsj' aimerais réserver une salle
j' aimerais réserver une salle
1597.wav AffsAvez-vous besoin du matériel de projection ? Cfsoui j' aimerais bien un message projection
oui j' aimerais bien un matériel de projection
1598.wav AffsCe serait pour quelle date précisément ? Cfsce serait pour lundi prochain à seize heures
ce serait pour lundi prochain à seize heures
1599.wav AffsC'est à quel nom ? Cfsest-ce que monde dominique blanc de
euh c'est au nom de dominique blanc
1600.wav AffsVoulez-vous la salle de vingt-cinq places ou celle de trente places ? Cfsj' aimerais salle de trente places s' il vous plaît
j' aimerais celle de trente places s' il vous plaît
1601.wav AffdNous disons donc lundi 17 à 16 heures salle B2 ? Cfdc'est parfait
c'est parfait
1602.wav AffPouvez-vous m'envoyer une confirmation par fax ou par courriel, s'il vous plait ? Cfah problème merci au revoir
pas de problème merci au revoir
1603.wav Afsokay AffAu revoir mademoiselle Cfrevoir
au revoir
1604.wav
Chaque énoncé est représenté sous sa forme reconnue par le système de reconnaissance vocale puis sous sa forme retranscrite (en rouge).
Le corpus de prétests est composé de 722 actes répartis ainsi ( REF _Ref78624360 \h Tableau 18) :
TâcheRôleFFdFfFfdFfsFpFsTotalTotalStand RDIRAgent40608182770Client50201251943RDVAgent30128021636Client0200321320RESA
Salle,matérielAgent503515333272Client3530632040RSG AGDAgent101716063171Client21211571240ENVDOCAgent50509152558Client5080351233ComminfoAgent10305261729Client300000912OuvertureAgent0000131202525Client00000000TotalAgent281258641730173361Client188151392285188Tableau SEQ Tableau \* ARABIC 18 : Répartition des 361 actes du corpus de prétests PVE en fonction des tâches et du rôle.
Cette phase de prétests nous a donc permis dalimenter notre plate-forme dexpérimentation en données homme-machine et de ladapter à de tels types de dialogue. Les dialogues ont été rajoutés au premier corpus afin dobtenir un corpus final de 1110 phrases composées dun vocabulaire de 1119 mots. Une expérimentation réelle a été ensuite mise en place tenant compte des améliorations à apporter tant au niveau de linterface quau niveau des énoncés à prévoir.
4. Corpus simulé homme-machine version 1 : TestsPVE
La phase précédente a constitué, dans notre démarche, une version 0 du système final. Son analyse a permis la mise en place de la version 1 et de lexpérimentation associée. Le but de cette expérimentation est de recueillir du corpus homme-machine adapté à la tâche à réaliser, et de valider certaines hypothèses avant la modélisation effective.
4.1. Protocole TestsPVE
Pour cette expérimentation, nous avons mis en place une plate-forme de type magicien dOz à partir de la précédente. Nous avons ensuite élaboré un questionnaire concernant la qualité perçue du système. Après la diffusion de la demande à participation, le recueil des participations possibles, la convocation de ces participants, le passage de lexpérimentation a lieu. Les six tâches retenues ont été réparties en deux situations dexpérimentation :
Situation a) :La prise de rendez-vous, notée RDV ;
La réservation de salle et de matériel, notée RESA ;
Lenvoi de documents, notée ENV-docSituation b) :La tenue du standard et la redirection dappel, notée STAND+RDIR
La tenue dagenda, notée RSG-agd
La communication dune information, notée COM-infoTableau SEQ Tableau \* ARABIC 19 : Les six tâches retenues dans l'expérimentation en magicien dOz (PVE)
Concernant la tâche à accomplir, les sujets sont invités à interagir avec le prototype dassistant de communication, en jouant le rôle dun utilisateur, désireux de faire accomplir à la machine différentes tâches, précisées dans les consignes. Ces tâches correspondent aux situations génériques définies dans les étapes précédentes. Il y a 24 sujets âgés de 23 à 56 ans, 7 femmes et 17 hommes. Tous avaient déjà travaillé sur ordinateur.
Le dispositif comprend deux salles. Une salle « sujet » contient une machine destinée au sujet, et une machine dédiée au module dactes de dialogue (le « serveur dactes ») que nous décrirons dans le chapitre « Magicien dOz ». Un expérimentateur accueille le sujet dans cette salle, et reste présent pendant toute la passation, veillant au bon déroulement de la séance et contrôlant le serveur dactes. Une salle « magicien » contient une machine, gérée par deux expérimentateurs.
Toute la séance se déroule oralement. Le sujet entend l « assistant de communication » grâce à des écouteurs, et répond en parlant dans un micro. Il « décroche » et « raccroche » en cliquant sur lécran de sa machine. Les prises de parole sont réglées par un dispositif « push to talk ».
Le déroulement des séances est le suivant. Dans la salle « sujet », le sujet est accueilli. La tâche lui est présentée ainsi que les consignes (situation a ou b). Ensuite le matériel est essayé, le micro est calibré, les boutons « décrocher » « raccrocher » et le système « push to talk » sont testés. Outre les explications orales de lexpérimentateur, le sujet dispose dune feuille de consignes, qui comprend également un emplacement destiné aux notes prises pendant la séance. Il peut donc donner ses commentaires sur les scénarii prévus et sur le système.
La tâche est alors réalisée. Le sujet doit par trois fois (une fois pour chaque tâche à effectuer) se connecter au système Vocalisa, dialoguer avec le système, puis se déconnecter quand le dialogue est considéré terminé.
Suite à ces trois appels, lentretien commence. Pour celui-ci, lun des expérimentateurs « magiciens » vient recueillir les impressions générales du sujet et linterroge notamment sur les réponses du système, lenchaînement du dialogue, le retour dinformation (feedback), le guidage, les points positifs et négatifs de lensemble et les améliorations souhaitées.
Le questionnaire et les résultats seront présentés en annexe. Lorsque les 24 sujets sont passés, nous avons procédé au dépouillement du questionnaire et des résultats.
4.2. Corpus simulé PVE version 1, tests
Les 72 dialogues obtenus ont été traités comme les précédents. Ils ont été mis au format XML. Les annotations in vivo en actes de dialogue ont été ensuite vérifiées. Les énoncés ont été transcrits in vitro afin de tenir compte des erreurs de reconnaissance. Afin duniformiser et ainsi pouvoir comparer, les entêtes sont les mêmes que pour la phase de pré-tests. Un dialogue de test a la forme XML suivante :
1758.wav
c' est bonjour ici dominique blanc je suis vraiment doctoral je dois soutenir ma thèse avant la fin du mois que j' ai je souhaite réserver une salle équipe d' un rétro-projecteur pour le vingt-deux personne
bonjour ici dominique blanc je fini mon doctorat je dois finir ma thèse avant la fin du mois et je souhaite réserver une salle équipée d' un rétro-projecteur pour une vingtaine de personnes
bonjour
ici dominique blanc
je fini mon doctorat
je dois finir ma thèse avant la fin du mois
et je souhaite réserver une salle équipée d' un rétro-projecteur pour une vingtaine de personnes
[
]
1763.wav
très bien au revoir
très bien au revoir
très bien
au revoir
Nous pouvons alors voir un exemple de dialogue de test complet comprenant lannotation des tâches effectuées, des tours de parole, du locuteur pour chaque tour, de son acte associé à lhypothèse de reconnaissance, lénoncé transcrit et le fichier de signal correspondant.
Dialogue numéro 2
Tâche : ouverture
Locuteur Acte Enoncé Signal AfpBonjour, ici l'assistante virtuelle Vocalisa. Quel est le motif de votre appel, s'il vous plait ? Tâche : resa
Locuteur Acte Enoncé Signal Cffsc' est bonjour ici dominique blanc je suis vraiment doctoral je dois soutenir ma thèse avant la fin du mois que j' ai je souhaite réserver une salle équipe d' un rétro-projecteur pour le vingt-deux personne
bonjour ici dominique blanc je fini mon doctorat je dois finir ma thèse avant la fin du mois et je souhaite réserver une salle équipée d' un rétro-projecteur pour une vingtaine de personnes
1758.wav AffsCe serait pour quelle date ? Cfseuh je n' est pas de les dates absolument précisé disant la semaine prochaine
euh je n' est pas de date absolument précise disons la semaine prochaine
1759.wav AffsVoulez-vous la salle de vingt-cinq places ou celle de trente places ? Cfsje préfère ai la salle de trente places
je préférerais la salle de trente places
1760.wav AfsJ'aurais une salle à ce moment là mais sans rétro-projecteur, sinon la salle avec rétro-projecteur sera libre lundi 31 à 10 heures Cffsoui mais faut absolument un rétro-projecteur trente donc euh je te dire compris les dates trente me tromper de
oui il me faut absolument un rétro-projecteur donc euh je n'ai pas bien compris la date le trente ou le trente et un
1761.wav Afslundi 31 à 10 heures Cfsd' accord très bien
d' accord très bien
1762.wav AffdNous disons donc lundi 31 à 10 heures salleB2 Cfftrès bien au revoir
très bien au revoir
1763.wav AffdNous disons donc lundi 31 à 10 heures salleB2 AfAu revoir madame
Lexpérimentation en magicien dOz nous a permis de collecter 86 dialogues homme-machine mettant en situation un client et lassistant virtuel dune entreprise. Le corpus est composé de six tâches plus une septième artificiellement rajoutée à lexpérimentation. Cette septième tâche concerne en fait louverture du dialogue (donc la première phrase du dialogue) et la phase de transition dune tâche à lautre dans le même dialogue (« Que puis-je faire dautre pour vous ? »). Elle sera notée Ouverture.
Les dialogues sont constitués de 1626 actes de dialogue. Nous pouvons voir la répartition de ces actes en fonction des tâches et des rôles sur le REF _Ref78624947 \h Tableau 20 :
TâcheRôleFFdFfFfdFfsFpFsTotalTotalStand RDIRAgent17023454048146365Client1442204523111219RDVAgent60983101165156Client108301474991RESA
Salle,matérielAgent70161341421102241Client14940261571139RSG AGDAgent223892902697237Client78231261164140ENVDOCAgent3102302002498278Client270420242265180ComminfoAgent9010519123994207Client188130151148113OuvertureAgent001072602135142Client00003227TotalAgent9239039266761717371626Client9037107115391410889Tableau SEQ Tableau \* ARABIC 20 : Répartition des 1626 actes du corpus de tests PVE en fonction des tâches et rôles.
Conclusion sur les corpus
Le corpus de dialogues humains NESPOLE! est composé de 31 dialogues et 4633 actes de dialogues qui portent sur la tâche de renseignement touristique. Pour lanalyse du corpus nous avons suivi la méthodologie présentée précédemment pour le dialogue homme-homme. Une phase de collecte de dialogues oraux a été suivie de la transcription des dialogues puis de leur annotation.
Le corpus de dialogues PVE se répartit en 7 tâches dont une artificielle nommée ouverture. La distribution des dialogues en fonction des tâches est la suivante ( REF _Ref78627358 \h Tableau 21) :
TâchesCorpus-pilotePré-testsTestsRedirection, Standard5417Rendez-vous11210Réservation de salle10312Communication dinformation0212Gestion dun agenda partagé2416Envoi de document0320Ouverture-1372Tableau SEQ Tableau \* ARABIC 21 : Description du corpus PVE en fonction des tâches.
Pour lanalyse du corpus, nous avons suivi la méthodologie incrémentale présentée précédemment pour le dialogue homme-machine. Une phase de collecte de dialogues oraux a été suivie de la transcription des dialogues, puis de leur annotation. Le corpus-pilote ainsi créé a permis le développement dun magicien dOz dans une première version. Une nouvelle collecte, via le système en magicien dOz, a été transcrite puis annotée afin de créer le corpus de pré-tests qui a permis dajuster le système en magicien dOz à du dialogue homme-machine. La troisième campagne de collecte sest ensuite faite sur la plate-forme à base de magicien dOz dans sa version finale. Les dialogues obtenus ont été transcrits puis annotés afin den faire une analyse qui permettra le développement du système final.
Nous allons maintenant décrire le système à base de magicien dOz que nous avons développé pour faire de la collecte de dialogues homme-machine.
C. Expérimentation et tests
Chapitre I : Plate-forme dexpérimentation (Magicien doz)
Souhaitant concevoir des systèmes interactifs de dialogue homme-machine, nous manquons de corpus (homme-machine) en langue naturelle. Or, létude de la communication homme-machine ne peut se fonder uniquement sur le modèle de communication humaine. Linteraction homme-machine fait apparaître des phénomènes différents de linteraction humaine. On se trouve ainsi en présence du problème circulaire relevé par [Siroux et al. 89], REF SIROUXetal89 \h \* MERGEFORMAT de disposer de données pour réaliser un système qui n'a pas encore produit ces données. « La conception dun système exige que soit identifié le langage de ses utilisateurs, et cette identification exige lexistence du système. Pour sortir de cette contradiction, la solution fréquemment adoptée est celle dexpérimentation "Magicien dOz". [Polity et al. 90] ».
1. Magicien dOz
1.1. Magicien dOz pour du dialogue
Dans une expérience de type Magicien dOz, un compère humain simule les comportements de la machine à linsu de lutilisateur. Ce dernier pense donc dialoguer avec une machine, alors quil dialogue avec un compère. Cette technique entraîne de nombreuses contraintes : effort dorganisation, de préparation du matériel, choix de sujets motivés pour se soumettre à lexpérience, prise de rendez-vous, déplacement sur le lieu de lenregistrement, consignes plus ou moins précises à respecter pour le compère, etc.
Ces simulations sont donc délicates et coûteuses à élaborer. Les corpus de données ainsi recueillis sont souvent peu volumineux, et il n'est pas sûr que les dialogues obtenus dans ces conditions ne soient pas biaisés. Il existe, en effet, des comportements langagiers induits par la machine : similitudes, enrichissements, appauvrissements, etc. REF LUZZATI95 \h \* MERGEFORMAT Or, avec un magicien dOz, ces phénomènes sont parfois engendrés par les propres comportements du compère.
Des travaux comme ceux de [Rouillard 00] ou [Lemeunier 00] tentent de se passer de ce type dexpérimentation au profit dune application réelle enrichie au fur et à mesure des tests. Dans le cadre du projet PVE, [Nguyen 03a] propose également une application réelle enrichie au fur et à mesure par ladjonction de nouvelles données (nouvelles tâches, nouveau type dénoncé, etc.).
Pour le recueil, des données nous avons opté pour une solution de type magicien dOz selon la méthodologie présentée au premier chapitre : collecte de corpus homme-homme, transcription, annotation et analyse des dialogues humains obtenus. Nous avons ensuite élaboré une première plate-forme de type magicien dOz simulant le système. Nous avons recueilli un premier corpus de dialogues homme-machine dans le cadre de lapplication visée. Ce premier corpus a été analysé afin daméliorer la qualité de la simulation et lergonomie de lutilisation de la plate-forme. La deuxième version de la plate-forme a permis une expérimentation de recueil de dialogues homme-machine qui ont été analysés en vue du système final.
Nous verrons donc plus en détails les raisons pour lesquelles nous avons opté pour lutilisation de magicien dOz. Nous nous attacherons à leur description. Nous aborderons enfin lapport de la notion dattentes comme aide à lhumain avant dêtre aide au système.
1.2. Magicien dOz pour du dialogue oral
Les interfaces utilisant le canal de parole sont souvent plus adaptées que les interfaces uniquement graphiques. Elles semblent plus naturelles et permettent leur accès à certains individus non-voyants, handicapés, utilisant leurs yeux ou leurs mains pour dautres tâches, etc.
La plupart des systèmes de dialogue oral considèrent que lutilisateur a déjà appris le vocabulaire et la forme de dialogue (grammaire) possibles à chaque étape du dialogue. Si de telles considérations sont concevables pour des utilisateurs experts, elles le sont beaucoup moins pour le grand public, même sur des tâches de complexité moyenne. Le problème de la conception de systèmes de dialogue oral est loin dêtre évident. La formulation est très variable dune personne à lautre (différents mots et structures pour un même sens) et pour une même personne. De plus, la langue évolue, créant par exemple des mots comme « courriel », mots que le système de dialogue oral devra éventuellement être capable de comprendre. Enfin, lutilisateur répondra différemment selon la structure du dialogue et son historique (en particulier lénoncé précédent).
Une solution consiste à développer des systèmes de dialogue oral pour des tâches restreintes. Létude de dialogues humains étant insuffisante pour créer un système dans lequel une machine remplacerait lun des deux interlocuteurs, nous avons développé un premier magicien dOz simulant le comportement du système (un assistant en entreprise). Ainsi, nous avons élaboré un corpus de dialogue oral homme-machine. Lanalyse de ce corpus a permis de montrer certaines différences entre le dialogue oral humain et le dialogue oral homme-machine.
Nous présenterons dabord larchitecture générale de la plate-forme de test considérant le magicien dOz comme une solution acceptable pour capturer des dialogues oraux homme-machine et tester la première version du système (les phrases servant de réponse). Nous aborderons ensuite les modules de reconnaissance vocale, interprétation en actes, contrôle de dialogue et synthèse de parole.
Les sujets appellent lassistant virtuel, actuellement via micro-casque, pour les tâches suivantes : mise en relation avec une personne, prise de rendez-vous, réservation de salle, gestion dun agenda partagé, envoi de documents ou réception dinformations. Le magicien dOz répond à ces tâches par des actions appropriées. Il interprète lacte de dialogue du locuteur en fonction de la situation, contrôle les différentes étapes qui permettent de conduire au but dialogique de lutilisateur, et répond par laction la plus appropriée (la réponse correspondant à la situation).
2. Architecture générale du système
Le système de dialogue est composé de quatre parties dont la reconnaissance vocale en entrée et la synthèse de parole en sortie. Les deux autres sont simulés dans notre approche par des magiciens dOz. Lun simule la partie interprétation en actes par lannotation en actes de dialogue des hypothèses de reconnaissance. Lautre soccupe du contrôle de dialogue. Il reçoit les hypothèses de reconnaissance et les actes de dialogues associés, choisit la réponse la plus appropriée, et la renvoie à la synthèse de parole du client. La REF _Ref74200455 \h Figure 19 montre larchitecture du système de dialogue dans lequel chacune des quatre parties est implantée comme un serveur qui communique avec les autres parties. Chaque partie sera décrite dans ce chapitre.
Figure SEQ Figure \* ARABIC 19 : Architecture du système de dialogue.
Le scénario est le suivant :
Le client reçoit lhypothèse de reconnaissance dun serveur de reconnaissance local.
Le client envoie cette hypothèse au contrôleur de dialogue.
Le contrôleur de dialogue envoie cette hypothèse à lanalyseur dactes de dialogue.
Lanalyseur dactes envoie en retour lacte de dialogue correspondant à lhypothèse reçue.
Le contrôleur de dialogue choisit la réponse la plus appropriée et lenvoie au client.
Le client envoie la réponse reçue au serveur local de synthèse
Sur larchitecture plus détaillée que nous pouvons voir en REF _Ref79205368 \h Figure 20, les modules sont séparés en fonction de leur utilisation :
EMBED PowerPoint.Slide.8
Figure SEQ Figure \* ARABIC 20 : Architecture détaillée, système de dialogue à base de magiciens d'Oz
Les modules de reconnaissance et de synthèse sont utilisés du côté de lapplication. Le module dinterprétation est réalisé par le premier magicien dOz dont le rôle est didentifier lacte de dialogue contenu dans lénoncé. Dans lidéal, il devrait identifier les actes présents dans lénoncé mais le temps de traitement étant rédhibitoire, nous avons choisi de nidentifier que lacte indirect qui sera important pour la suite. Les autres modules sont intégrés système magicien dOz principal. Les items qui dépendent de la tâche ont été isolés. Ce sont ceux en dégradé sur notre schéma. Ainsi chaque module a un certain nombre de paramètres, dont certains dépendant de la tâche. Nous allons donc développer maintenant le côté application avec les modules de reconnaissance et de synthèse ainsi que les deux magicien dOz qui traitent linterprétation et le contrôle du dialogue.
3. Reconnaissance de parole, un modèle de langage spécifique.
La reconnaissance automatique de la parole revient à effectuer de manière automatique la « transcription d'un signal vocal (en entrée) en suite de mots (en sortie) » [Gauvain 00]. Les premières méthodes suivaient les techniques de reconnaissance de formes en se fondant sur les connaissances. Très vite ont suivi les approches fondées sur la reconnaissance de mots isolés puis sur les méthodes stochastiques à base de modèles de Markov cachés. C'est dans cette continuité que la reconnaissance de parole continue apparaît, avec dans un premier temps des systèmes mono-locuteurs nécessitant un apprentissage préalable à l'utilisation puis des systèmes multilocuteur ne nécessitant pas d'apprentissage préalable. Dans ces nouvelles approches, le système a deux composantes principales, un modèle acoustique appris sur un grand nombre de locuteurs et permettant le décodage acoustico-phonétique de l'énoncé oral, et un modèle de langage appris sur un grand nombre de textes permettant de fixer des probabilités de succession de mots et ainsi de définir la limite des mots et leur reconnaissance.
Le système de reconnaissance vocale en parole continue française utilise la boite à outils Janus-III [Woszczyna & al. 93] de CMU. Le modèle acoustique dépendant du contexte issu de [Besacier & al. 01] a été appris sur un corpus, extrait de Bref80 [Lamel & al. 91], de 12 heures de parole continue prononcée par 72 locuteurs. Le module de reconnaissance vocale a été adapté aux tâches choisies en créant un modèle de langage spécifique à ces tâches.
Figure SEQ Figure \* ARABIC 21 : Architecture du système de reconnaissance vocale
3.1. Corpus & vocabulaire pour lapprentissage dun modèle de langage.
Utiliser la reconnaissance et la synthèse de parole permet de simuler le système tel quil pourra être, cest à dire dépendant des résultats de reconnaissance. Aucun système général nétant satisfaisant dans le cadre du dialogue, nous avons élaboré un modèle de langage plus spécifique à notre application. Nous avons suivi la méthodologie suivante :
collecte dun corpus de 801 dialogues homme-homme dans le cadre de lapplication ciblée
transcription de 44 dialogues de ce corpus
analyse de ce corpus en terme de vocabulaire
par ce vocabulaire, établissement dun dictionnaire phonétique spécifique à lapplication
apprentissage dun modèle de langage avec ce vocabulaire et ce corpus
Puis :
collecte dun corpus de 14 dialogues homme-machine dans le cadre de lapplication ciblée (prétests ; première version du système à base de magicien dOz)
transcription de ce corpus
analyse de ce corpus en terme de vocabulaire
par ce vocabulaire, enrichissement du dictionnaire phonétique spécifique à lapplication
concaténation du vocabulaire et du corpus avec ceux de la première phase
apprentissage dun modèle de langage avec le vocabulaire (1119 mots) et le corpus (1110 énoncés) résultant
Pour lélaboration et lenrichissement du dictionnaire phonétique, une partie du vocabulaire est présente dans le dictionnaire BDLex associant les mots et leur forme phonétique. Cette partie a été extraite de BDLex. Le vocabulaire absent de BDLex (environ 500 formes phonétiques différentes) a été écrit manuellement (ex : labo, login, ok, okay, excusé, e-mail, embêté, ennuyé, visioconférences, verras, trompée, transmette, réceptionniste, aïe, etc.). Nous avons placé en annexe la liste des mots rajoutés et leur forme phonétique associée.
3.2. Apprentissage dun modèle de langage.
Comme tous les systèmes de reconnaissance de parole récents, Janus utilise des modèles de langage. El-Bèze [El-Bèze 93] définit un modèle de langage comme la composante du système de reconnaissance qui se charge d'introduire les contraintes imposées par la syntaxe de la langue. Les modèles de langage, actuellement dans les systèmes de reconnaissance à grand vocabulaire les plus performants, sont fondés sur une approche probabiliste, compatible en cela avec les autres composantes du système de reconnaissance. Tandis que le module de reconnaissance évalue les probabilités des phrases par rapport aux observations acoustiques, le modèle de langage détermine à partir de corpus textuels les probabilités dapparition des mots ainsi que celles de suites de mots.
Ces modèles de langage probabilistes reposent le plus souvent sur un paradigme empirique : une bonne estimation de la probabilité d'un événement linguistique peut-être obtenue en observant cet événement sur un corpus de texte de taille suffisante. Les nécessités induites par le processus de reconnaissance, conjuguées avec les capacités actuelles des analyseurs morpho-syntaxiques reposant sur une analyse structurelle de la phrase (capacités encore réduites sur des corpus généraux de grande taille), font que les modèles de langage ne prennent en compte que les contraintes locales de la syntaxe, par des modèles dits n-grammes ([Rosenfeld 94] ; n étant généralement inférieur ou égal à 5), où l'on estime la probabilité d'une phrase à partir des probabilités conditionnelles d'apparition d'un mot ou d'une classe de mots, étant donnés les n-1 mots ou classes de mots précédents. Cette approche est particulièrement intéressante pour son efficacité et sa robustesse, mais est limitée à la modélisation des structures linguistiques locales.
La reconnaissance se fonde alors sur une comparaison entre une forme apprise et une forme présentée. Si lon ne tient pas compte du contexte, les possibilités « explosent » et la reconnaissance est difficile. Utiliser le contexte permet de lever de nombreuses ambiguïtés. Cependant, certaines applications nécessitent une reconnaissance en temps réel. Linformation future nest donc pas présente. Nous ne pouvons utiliser que sur lhistorique, les informations passées et présentes.
Actuellement, des modèles bigrammes et trigrammes de mots sont utilisés couramment dans les systèmes de reconnaissance de la parole continue. Certains leur préfèrent des modèles pentagrammes, plus performants mais plus lourds à stocker. En fait, le choix se fera en fonction de lapplication. Les modèles bigrammes et trigrammes de mots, estimés sur de très grands textes, fournissent, selon El-Bèze, une bonne contrainte syntaxique locale, au prix de modèles de très grande taille. Pour des langues comportant des flexions comme le français ou l'allemand, l'utilisation de modèles de n-grammes de mots nécessitent des tailles de corpus et de modèles plus importantes que pour l'anglais. Différents modèles de n-grammes, de classes et de mots ont été développés, permettant de réduire le nombre de paramètres à estimer et la taille du corpus d'apprentissage et la taille du modèle.
Pour regrouper les mots dans des classes, nous pouvons utiliser des méthodes manuelles, plus lisibles, mais nécessitant un expert. Elles sont utiles pour regrouper les nombres, les dates ou les jours, et ainsi alléger le corpus dapprentissage. A contrario, nous pouvons employer des méthodes statistiques (par minimisation de perplexité ou par mesure de similarité en analyse sémantique latente), mais ces méthodes nécessitent un corpus de taille importante. Cela étant plutôt rarement le cas en dialogue oral, une approche par expert adaptée à des petites tâches a été adoptée.
Une approche mixte a été proposée dans [Fouquet 99] combinant analyse linguistique et analyse statistique. Cette approche propose lextension de petit corpus par des règles permettant de générer des énoncés non prononcés mais tout à fait possibles. Cette approche nécessite alors un expert afin délaborer les règes de possibilités qui permettent détendre « Je veux » et « Je voudrais réserver » à « Je veux », « Je voudrais réserver » mais aussi « Je veux réserver » et « Je voudrais » qui sont des formes tout à fait acceptables en dialogue oral. Deux apprentissages stochastiques sont ensuite réalisés sur le premier corpus et sur son extension afin de donner un poids plus important aux énoncés effectivement trouvés. Le modèle mixte propose une simple composition des deux apprentissages afin de rehausser les énoncés possibles mais garder le même écart avec les énoncés apparus en corpus.
Le vocabulaire issu des transcriptions a servi de base à lapprentissage de différents modèles de langage afin de définir le meilleur modèle pour notre application. Nous avons combiné différents paramètres pour nos tests : le vocabulaire, le corpus dapprentissage, la boite à outils, la prise en compte du mot inconnu et lutilisations de modèles à classes.
Les premiers tests combinent le corpus dapprentissage du journal Le Monde (1997-2001) avec le vocabulaire de notre application (1119 mots) enrichi des X mots les plus fréquents du Monde où X varie de 0 à 25000. Considérant lamélioration du web comme corpus [Vaufreydaz 96], nous avons testé également des modèles appris sur un corpus collecté sur Internet, WebFr4 [Vaufreydaz 02]. Nous avons enfin testé les modèles appris sur le corpus spécifique (les transcriptions des dialogues).
Ensuite, nous avons testé deux boîtes à outils: Janus III de CMU (Clarkson & Rosenfeld 97) ()et SRI-LM Language Modeling Toolkit (http://www.speech.sri.com/projects/srilm/).
Enfin nous avons étudié dans notre contexte la prise en compte du mot inconnu et lutilisation de modèles à classes.
3.3. Evaluation des modèles de langage.
Nous avons comparé 8 modèles afin de conserver le plus adapté à un système de dialogue : notre corpus spécifique et la boîte à outils SRI-LM. Pour évaluer les performances du système de reconnaissance vocale, nous avons essayé avec celui-ci de reconnaître 63 phrases prononcées pendant un premier beta-test du système.
Ces phrases sont issues de situations de dialogues réelles dans lesquelles les utilisateurs avaient à parler, avec des requêtes spécifiques définies par avance, au système simulé par magicien dOz. Les meilleures performances ont été obtenues avec notre corpus spécifique et la boîte à outils SRI-LM. Les autres solutions sont trop mauvaises pour les considérer acceptables. Le Monde est trop loin des spécificités du dialogue. Le web ignore les spécificités des phrases courtes trouvées dans nos dialogues oraux. Le taux derreur de mot obtenu dans nos meilleures conditions est de 39% ce qui semble acceptable pour les magiciens qui nont demandé que trois fois à lutilisateur de répéter dans les six dialogues ayant servi au test. Il ressort de cette analyse différentes conclusions :
- Un vocabulaire de 40 000 mots est inutile en dialogue oral car cela fait trop de mots inutilisés. Un vocabulaire de 10 000 mots semble plus adapté à un dialogue oral en général, mais cest avec le vocabulaire de lapplication uniquement que les résultats ont été les meilleurs. Cette configuration peut omettre des mots fréquemment dits à loral ce qui nécessite donc de bien élaborer le corpus.
- Concernant le corpus dapprentissage, Internet et Le Monde donnent les même résultats. Le taux d'erreur de reconnaissance de mots est supérieur à 55%. Le corpus de lapplication offre un taux derreur de reconnaissance de mot bien plus intéressant car inférieur à 39%.
- La boite à outils SRI-LM offre de meilleurs résultats que Janus III.
- Etant donné que notre corpus dapprentissage est plutôt petit (1110 phrases), lintroduction du mot inconnu permet de ne pas pénaliser les mots autour dun mot non reconnu.
- Notre corpus dapprentissage étant relativement petit, certains mots, totalement interchangeables, comme les prénoms, les noms ou les lieux peuvent être absents du corpus alors quils pourraient être prononcés. Nous pouvons retrouver dans notre corpus « je suis Dominique Blanc » et « mon nom est Jean Dupond » sans avoir doccurrence de « je suis Jean Dupond », pourtant plausible. Nous avons donc utilisé des modèles à base de classes. Ces classes ont été obtenues manuellement à partir des transcriptions. Nous avons retenu les nom, prénom, genre, date, jour, mois, moment, lieu, pays et fermeture (au_revoir, adios, à_demain, à_tout_de_suite, etc.). Nous avons opté pour des classes génériques, cest-à-dire indépendantes du système (et de la tâche). Le modèle créé devrait ainsi rester valable pour différents systèmes de dialogue. Ladjonction de la notion de classe a montré une nette amélioration en termes de reconnaissance pour les raisons énoncées ci-dessus.
3.4. Au niveau de lergonomie de linterface
Au niveau de linterface, la prise en compte de reconnaissance vocale nécessite quelques choix ergonomiques. Nous avons testé trois solutions :
- Main libre à base de seuil dénergie de la voix. Lenregistrement démarre au moment où lon parle, se termine peu après quon a fini de parler. Pour la gestion de prise de parole commençant par une plosive, la gestion dune mémoire tampon est nécessaire, mais force le système à enregistrer en permanence le signal émis. Ainsi, il est possible de récupérer le signal, non pas à partir du moment précis où le locuteur commence à sexprimer, mais un peu en amont, afin de ne pas risquer de manquer le début de la phrase. Cette solution est idéale puisquelle libère lutilisateur dune contrainte forte. En revanche, elle nécessite un calibrage important afin déviter que trop de faux départs ou quune non-détection ne viennent perturber le dialogue.
- « Push-to-talk » faisant intervenir lutilisateur. Cette méthode se rapproche du talkie-walkie pour lequel lutilisateur appuie sur un bouton pour parler. Ici, il clique sur un bouton pour parler, le maintient enfoncé durant son énoncé et le relâche quand il a terminé. Moins bonne que la précédente, cette méthode nécessite un effort cognitif de la part de lutilisateur, et de nombreux oublis ont pu être observés.
- « Push-to-talk, Push-to-stop ». Pour cette méthode, lutilisateur clique pour parler et clique à nouveau pour arrêter lenregistrement et démarrer la reconnaissance. Cette méthode nécessite un effort cognitif important. Cet effort est trop important selon nous pour des sujets.
Nous avons opté pour le « push-to-talk » en raison du trop grand nombre de faux départs constatés dans notre méthode « main libre ».
4. Synthèse de parole française
La dernière partie de notre système de dialogue oral consiste en une synthèse de parole (en anglais Text-To-Speech doù lacronyme TTS) qui produit un signal audio à partir du texte.
La synthèse a été développée en tant que serveur qui reçoit le texte de lutilisateur et répond en créant le fichier son correspondant et en le jouant. Ce serveur a été intégré au serveur de reconnaissance vocale parce quils utilisaient tous les deux le son et que la reconnaissance vocale doit être stoppée pendant le processus de synthèse.
Afin de minimiser le temps dattente de lutilisateur, la synthèse doit se faire le plus vite possible. Le système Mbrola TTS [Baghein & al. 00] de la faculté Polytechnique de Mons () nous semble suffisamment rapide. Il nécessite environ 30% du temps de la phrase pour produire le fichier son correspondant. La qualité de synthèse vocale nous a semblé juste acceptable pour notre application.
Les utilisateurs ont critiqué la qualité de la synthèse vocale. Ils dénonçaient la prosodie de cette voix synthétique, monocorde et trop « mécanique » à leur goût. Cependant, à la suite de [Rouillard 00], nous pensons que « le fait que la machine parle avec une voix mécanique nest pas nécessairement un défaut du système. En effet, si lon observe le DHM dun point de vue cognitif, cette voix de robot rappelle continuellement à lutilisateur que cest à une machine quil a affaire. Le fait que lordinateur parle de cette manière permet à lutilisateur de bien prendre conscience du statut et du rôle de son interlocuteur. » [Rouillard 00]
Nous pensons aussi quune voix synthétique qui se rapproche de la voix humaine peut inciter lutilisateur à attribuer à la machine un niveau de compréhension dialogique en rapport avec son élocution. La personne qui entend une machine parler presque comme un humain, risque dattendre delle des capacités de compréhension proches de celles dun humain. On tolérera donc moins derreurs de la part dune machine qui parle convenablement, puisque lon simagine que sa façon de sexprimer est étroitement liée à ses (hautes) capacités calculatoires.
5. Magicien dOz et collecte (aide à lannotation)
Afin dêtre le plus générique possible, cest à dire le plus indépendant possible par rapport à la tâche, le modèle de dialogue est fondé sur la théorie des actes de langage introduite par Austin [Austin 62] & Searle [Searle 72]. Un acte est vu comme la manière de communiquer le contenu propositionnel. Utiliser les actes de dialogue contenus dans lénoncé est une source de connaissance importante pour linterprétation de cet énoncé. Nous considérons quun dialogue peut être décrit par un ensemble limité mais ouvert dactes de dialogue. Ainsi, considérant que la compréhension du texte en actes est correctement faite, travailler à un niveau pragmatique nous permet daborder des combinaisons dactes et des stratégies de dialogue afin de trouver la réponse la plus adéquate.
Figure SEQ Figure \* ARABIC 22 : Du signal de parole aux actes (et attentes)
Comme nous pouvons le voir en REF _Ref79220055 \h Figure 22, la compréhension de parole revient à essayer de saisir le sens global de l'énoncé. Selon [Pierrel 87], elle est opposable à la reconnaissance de parole en ce sens que cette dernière cherche à reconstituer le message élément par élément. C'est la partie la plus difficile à l'heure actuelle. Mais c'est également la partie la plus importante si l'on désire obtenir des dialogues plus naturels et aisés avec la machine. Pour nous, cela revient à analyser l'énoncé sous un angle pragmatique qui nous permet de représenter le sens global de l'énoncé.
Lanalyse en actes revient à associer lénoncé ou sa représentation conceptuelle à un acte de dialogue. Cest un point crucial du projet car de la correcte identification de ces actes dépend tout le reste du modèle. Nous avons trouvé quelques travaux sur lautomatisation de cette identification, comme la thèse de Colineau [Colineau 97] qui utilise des réseaux de neurones. Nous pouvons proposer également une approche fondée sur lanalyse sémantique latente (LSA) à partir des actes identifiés et dune analyse morpho-conceptuelle des énoncés associés. En revanche, il nexiste pas à notre connaissance dapplications génériques.
Cest pourquoi une plate-forme de type magicien dOz a été développée pour annoter lhypothèse de reconnaissance vocale en actes de dialogue. Le magicien reçoit la phrase reconnue par le système. Il peut garder en mémoire des marqueurs du discours de Colineau comme « je veux », « je voudrais », etc. Il choisit, dans une liste dactes, lacte le plus approprié. Pour faire ce choix, il est aussi aidé par une présentataion des attentes, introduites dans [Fouquet 01], déduites de lacte précédent [Fouquet 02]. La première attente, cest-à-dire celle qui maximise la probabilité de prédiction, est présélectionnée. Lorsque le magicien envoie lacte correspondant à la phrase, les attentes sont mises à jour de sorte que les probabilités sont apprises dans le contexte de lapplication.
Figure SEQ Figure \* ARABIC 23 : Interface du Magicien dOz pour lannotation en acte de dialogue
Dans lexemple ( REF _Ref74200530 \h Figure 23), le compère magicien reçoit une première phrase de demande dinformation : « Bonjour, pourrais-je parler à monsieur Dupond sil vous plaît ? ». Il lannote FfsC(p) qui représente la demande dinformation du client. Lattente la plus probable pour cet acte FfsC(p) est une réponse de lordinateur FsA(p) avec une probabilité de 77%. Lorsque le magicien recevra la phrase suivante (« Monsieur Dupond nest pas disponible pour le moment ») du système, FsA(p) sera présélectionné de sorte quil lui suffit de confirmer si cet acte est le bon. Dans ce cas, la probabilité précédente est incrémentée en prenant en compte cette nouvelle occurrence. Dans le cas contraire (par exemple lattente suivant, FfsA(p), correspondant ici à une demande de précision avec la phrase « avez-vous essayé son poste direct ? », le magicien sélectionne lacte FfsA(p) et le confirme pour lenvoyer au système et les probabilités seront mises à jour avec cette nouvelle occurrence.
Cette aide à lannotation par la prédiction de lacte suivant est un sous-produit intéressant de notre théorie des attentes. Le prochain chapitre sera consacré à lévaluation de cette prédiction dacte de dialogue en utilisant la première attente.
6. Magicien dOz et contrôleur de dialogue
Pour lélaboration de notre magicien simulant le contrôleur de dialogue, nous avons suivi la méthodologie de conception en spirale. Ainsi, nous avons commencé un premier système frustre que nous avons testé et amélioré plusieurs fois afin dobtenir une version stable permettant dutiliser le système en conditions réelles.
6.1. Plate-forme mettant en jeu un magicien dOz
Notre point de départ réside dans l'analyse du corpus collecté en conditions réelles. Cette analyse nous a permis de déterminer 122 phrases que le système devra être en mesure de prononcer et des paramètres liés à la tâche comme les coordonnées du personnel de l'entreprise, les indications relatives à la date (jour, mois, année, jour de la semaine). Suite à cette analyse et selon le développement proposé, nous avons élaboré plusieurs versions de magiciens. Nous pouvons voir lévolution de la plate-forme dans le tableau suivant :
V.AjoutParticularitésCommentaires sur la plate-forme1Indépendante de la tâcheFichier de configuration externe pour les énoncés et les paramètresIndépendante donc adaptable à dautres tâches mais peu utilisable en temps réel car demande de gros efforts dapprentissage au magicien. Impossible à utiliser dès lors que le nombre de phrases prononçables est important2Dépendante de la tâcheOnglets pour séparer les tâches
Paramètres présentés de façon plus ergonomique
(e.g. : calendrier avec un clic pour la date au lieu de joursemaine, jourmois, mois, année) Pas assez efficace3Stratégies employéesOnglets pour séparer les stratégiesEncore trop détiquettes affichées4Structure génériqueOnglets pour séparer les phasesNombre de manipulations important pour obtenir une étiquette5StratégieOnglets ( couleursEncore beaucoup détiquettes6AttentesEtiquettes correspondants aux attentes de lutilisateur soulignées, les autres griséesMoins détiquettes à regarder, efficacité accrue par la mise en relief des énoncés répondant aux attentes7Reconnaissance de parole Ad hocNon parfait mais le mieux8Synthèse de paroleIntégré au serveur de reconnaissance pour éviter de reconnaître la synthèseVoix synthétique acceptable mais loin dêtre parfaite. Tableau SEQ Tableau \* ARABIC 22 : Evolution de la plate-forme magicien dOz
Selon lhypothèse que les dialogues homme-machine sont différents de ceux entre humains particulièrement en dialogue oral où les conventions sociales sont omniprésentes, nous avons développé un magicien dOz afin de simuler complètement le modèle de dialogue. Le compère reçoit lhypothèse de reconnaissance vocale de lutilisateur (afin de tenir compte des erreurs de reconnaissance). Il reçoit également lacte de dialogue, correspondant à cette hypothèse, du premier magicien ( REF _Ref74200530 \h Figure 23) et lattente la plus probable associée. Il a alors le rôle de contrôleur de dialogue, contrôleur de tâche et générateur de réponse en choisissant les paramètres adéquats dans linterface de la tâche et une réponse appropriée dans la liste des 122 phrases obtenues à partir des transcriptions manuelles des dialogues réels ( REF _Ref74200639 \h Figure 24).
Figure SEQ Figure \* ARABIC 24 : Interface du Magicien dOz pour le contrôleur de dialogue
Lorsquil a choisi la meilleure réponse et ses paramètres associés, il lenvoie à la synthèse du client. Lorsque lutilisateur dit « Bonjour, pourrais-je parler à monsieur Dupond sil vous plaît ? », le magicien peut sélectionner monsieur Dupond dans lannuaire et répondre « Monsieur Dupond nest pas disponible pour le moment » ou « Je vous passe monsieur Dupond » en sélectionnant létiquette voulue puis la phrase correspondante dans le menu lié à cette étiquette.
Le système doit également gérer le retour visuel de chaque opération, faciliter la conscience collective en affichant les machines interconnectables, et gérer les aspects réseau (connexion, déconnexion et protocole de transfert dinformation).
Une phase de configuration est donc nécessaire en début dexpérimentation. Celle-ci ne nécessite pas la présence du magicien ; lexpérimentateur suffit. La configuration effectuée, le système offre différents composant que nous alors décrire maintenant avec les choix ergonomiques que nous avons faits.
6.2. Composants de la plate-forme et choix ergonomiques associés
6.2.1. Paramètres
Le magicien simule une secrétaire virtuelle capable de résoudre différentes tâches. Il est dabord nécessaire de lui présenter les différents paramètres des tâches qui lui incombent. Ainsi, un calendrier lui est proposé plutôt qu'une liste de jours. En effet, le calendrier permet au magicien de s'affranchir de la cohérence d'une date proposée. En un clic, il sélectionne quatre paramètres (le jour de la semaine, le jour du mois, le mois et l'année).
De même, un annuaire du personnel de l'entreprise lui est présenté afin de sélectionner en un clic cinq paramètres (le sexe, le nom, le numéro de téléphone, l'adresse mail et l'adresse Internet).
Enfin, restent quelques paramètres, dont l'heure, qui n'ont pu être réglés autrement qu'individuellement, étant particuliers dans leur énonciation (midi, et quart, moins le quart, etc.). En outre, nous ne voulons pas proposer toutes les heures ni toutes les minutes. Un rendez-vous à 22h43 ne nous semble pas pertinent dans le cadre de l'entreprise.
Pour une efficacité accrue, nous proposons au magicien des valeurs par défaut aux différents paramètres. Ainsi, le jour en cours sera présélectionné ainsi que lheure suivante et un membre du personnel.
La partie paramètres des tâches étant présentée, le magicien doit désormais pouvoir répondre à son interlocuteur. Pour cela nous lui proposons des phrases avec paramètres. Etant donnée la complexité liée au nombre de réponses possibles (122 phrases à paramètres et variantes), il est nécessaire de les organiser pour faciliter le travail du magicien.
6.2.2. Système pluritâche
Nous avons dans un premier temps choisi de classer les phrases par tâche avec une catégorie omnitâche correspondant à toutes les phrases valables pour toutes les tâches. Ainsi, en début de dialogue, le magicien sélectionne l'onglet correspondant à la tâche en cours et ne voit que les phrases de cette tâche (plus celles omnitâches), réduisant ainsi plus ou moins par six (car six tâches ont été sélectionnées pour nos tests) le nombre de phrases présentées.
6.2.3. Enoncés synthétiques
Dans un deuxième temps, nous avons réduit l'effort cognitif du magicien en lui présentant uniquement des étiquettes simplifiées des phrases avec dans le menu associé les phrases correspondantes. Pour un rendez-vous, une étiquette « résumé » masque les quatre phrases associées dont « nous disons donc [joursemaine] [jourmois] à [heure] [minutes] salle B2 avec [sexe] [nom] ». Ainsi, plutôt que de relire toutes les phrases, le magicien choisit d'abord l'étiquette correspondant à ce qu'il souhaite dire, puis sélectionne la phrase plus précise qu'il souhaite proposer.
6.2.4. Architecture des dialogues
Dans un souci de respecter le déroulement logique du dialogue, lanalyse du corpus homme homme a permis délaborer un diagramme de larchitecture de chaque type dialogue ([Descalle 02]). Nous avons suivi ce diagramme en classant chacun de ces 122 énoncés en fonction des tâches et des phases dans lesquelles ils sont susceptibles dintervenir, mettant chaque phase soulignée en onglets.
Le magicien choisit donc la tâche en début de dialogue mais peut en changer en cours de dialogue. Il suit ensuite le diagramme en sélectionnant la phase (par exemple introduction, compréhension du but ou réponse) et choisit dans les énoncés de la phase sélectionnée.
6.2.5. Les attentes comme aide au contrôle
Le magicien utilise la première attente déduite de lacte reçu. Celle-ci est mise en relief (létiquette correspondante est soulignée) afin de faciliter le choix. Sil veut répondre à la première attente du locuteur, il lui suffira de choisir sa réponse parmi celles soulignées. Le magicien peut également choisir une autre réponse. Ainsi, les attentes sont dabord une aide à lhumain avant dêtre une aide au système.
6.2.6. Stratégies
Le système de contrôle du dialogue par magicien dOz utilise les trois stratégies les plus représentées parmi celles décrites dans [Caelen 92].
La stratégie directive, guidée par les buts de la machine, intervient dans les phases douverture, dintroduction et de clôture, cest à dire lors de linitiative de la machine. Tant quil cherche à connaître le but du client, lagent est directif en posant des questions notamment des demandes de précision.
La stratégie réactive, dirigée par les données (les énoncés du client), fait lhypothèse que le client connaît précisément son but et les moyens dy parvenir. Lagent répond donc simplement au client sans poser de questions.
La stratégie coopérative, guidée par les buts de lutilisateur, suppose que le client ne maîtrise pas complètement le moyen daccéder à son but, soit au niveau de la tâche, soit au niveau de linterface elle-même. La machine tente dinférer les buts de lutilisateur.
La dernière aide consiste donc en la coloration de coopération. En plus des réponses, la stratégie correspondante (directive, réactive ou coopérative) est montrée avec un code de couleur de sorte que le magicien puisse choisir sa stratégie lorsquil répond. Il peut donc être directif puis réactif ou coopératif en choisissant la phrase par sa couleur lorsquil a le choix de différentes stratégies. Pour lexemple précédent, choisir « Monsieur Dupond nest pas disponible pour le moment » ou « Je vous passe monsieur Dupond » correspond à une stratégie réactive tandis que « Avez-vous essayé son poste direct ? » semble être davantage directif.
6.6.7. Enoncé final
Pour finir, il était nécessaire de présenter la phrase à envoyer en réponse. Il nous a semblé important de la présenter sous la forme originale (avec les paramètres) mais aussi sous la forme finie prête à envoyer (avec les valeurs des paramètres). La première forme permet de savoir quels paramètres sont pertinents tandis que la deuxième permet de mieux se rendre compte de ce qui sera envoyé et de vérifier que ce sont bien ces valeurs que nous voulons pour les paramètres.
Conclusion sur le système
Nous avons présenté dans ce chapitre les différents modules (dont deux simulés par magicien dOz) développés pour lélaboration dun corpus de dialogues oraux homme-machine et lannotation de parole. Pour ces deux magiciens, nous avons montré que la théorie des attentes semble être une perspective intéressante pour améliorer la compréhension en actes de dialogues mais aussi le contrôle du dialogue en prédisant lacte de dialogue le plus attendu et les autres moins attendus mais possibles.
Le magicien « annotateur d'actes » précédemment décrit a permis de simuler le typage de lacte (et ainsi une partie de l'analyse pragmatique) de l'énoncé reconnu. En outre, proposant l'attente la plus probable comme acte présélectionné, l'annotateur a enrichi les statistiques d'enchaînement des actes et adapté les probabilités d'attentes aux tâches.
Cette analyse fournie au magicien « contrôleur de dialogue » permet de mettre en relief les réponses correspondant à l'attente la plus probable. Si le client pose un faire-faire-savoir, seront mises en valeur les phrases du magicien correspondant à un faire savoir.
Les modules présentés nous ont donc servi à enregistrer 12 dialogues pour chacune des 6 tâches retenues considérant les tâches les plus communes pour des secrétaires. Lanalyse de ces 72 dialogues nous permettra de tester et de mettre à jour le système de dialogue. Elle servira ensuite à lautomatisation de linterprétation pour une tâche spécifique et un contrôleur de dialogue générique utilisant tous deux les attentes en dialogue.
Lexpérimentation en magicien dOz a permis le calcul des attentes pour modéliser le dialogue avec toutes ces données : opportuniste pour être dynamique et flexible. Nous allons à présent aborder cette modélisation stochastique proposée.
Chapitre II : Modélisation stochastique
Nous nous intéressons dans cette partie au dialogue oral humain et homme-machine. Nous nous pencherons particulièrement sur lapport de la modélisation stochastique des attentes des interlocuteurs dans un système de dialogue oral.
Nous présentons dabord la partie stochastique de notre approche avec la gestion des rôles des interlocuteurs. Nous nous appuyons ensuite sur létude (publiée dans [Fouquet 00]) du corpus de renseignement touristique [Besacier et al. 01] pour proposer une première estimation de ce que seront pour nous les attentes en situation. Nous proposerons, par une analyse plus approfondie de ce même corpus, une validation de la première estimation et un affinage en terme de probabilités associées à chaque attente. Enfin, nous comparerons cette nouvelle approche avec une approche, uniquement stochastique, fondée sur la prédiction dactes de parole.
1. Limportance des rôles en dialogue oral finalisé
Pour la modélisation des attentes, nous avons choisi dutiliser les actes de langage et de leur adjoindre le rôle du locuteur. En effet, nous pensons que ce rôle a une grande importance dans lévolution du dialogue. Lagent touristique et lassistant virtuel ne dialogueront pas comme leur client. Pour montrer cette importance, nous avons analysé un corpus de pré-tests du système PVE. Dans ce système, un magicien dOz simule une secrétaire virtuelle. Lanalyse en terme dactes et attentes associées montre un déséquilibre important entre les interlocuteurs. En effet, lacte du locuteur correspond très souvent (à 89 contre 8) à la première attente du système, à savoir que lorsque le système pose une question, le sujet y répond. A linverse, lacte du système correspond davantage (à 19 contre 7) à la deuxième attente du locuteur à savoir que lorsque le locuteur pose une question, le système demande davantage de précisions. Le système adoptant le plus souvent une stratégie directive, il pose davantage de questions alors que le locuteur, plus réactif y répond. En fait, pour une demande dinformation, le sujet donne linformation tandis que le système donne une réponse implicite dacceptation en demandant des précisions.
Ex : C : Je voudrais joindre monsieur Durand. (FfsC(p))
A : Cest personnel ou professionnel ? (FfsA(p))
En dialogue finalisé et plutôt dirigé, la succession dactes sera donc de la forme questions/réponses. Cela peut sexpliquer par le fait que le système connaît la marche à suivre pour résoudre le but du client. Il remplit petit à petit les blancs en posant des questions précises. Le client est davantage réactif.
2. Méthodologie pour la prédiction des actes vs attentes
Notre but, ici, sera la comparaison de deux approches possibles, considérant chacune le niveau pragmatique de lénoncé en cours. Nous nous appuierons donc sur les actes en situation. Nous nous inspirerons, dans un premier temps, de lanalyse conversationnelle présentée par [Bilange 92]. Ainsi, nous prendrons en considération les ruptures et réparations ou les demandes de précision, soulevées notamment dans notre corpus. Nous proposerons alors une règle de la forme FfsA(p) àð FsB(p) | FfsB(q) ; lorsque l acte FfsA(p) apparaît, les attentes du locuteur A sont FsB(p) ou FfsB(q). Nous chercherons dès lors à comparer les deux approches. La première, plus simpliste, permet de prédire lacte suivant à partir de lacte en cours. La deuxième, plus fine, se fonde sur les attentes et leur gestion pour déterminer lacte suivant.
Cette approche considère les huit actes de langage suivant ( REF _Ref83096348 \h Tableau 23) :
F : actionFf : demande dactionFs : informationFfs : demande dinformationFd : engagementFfd : demande dengagementFp : possibilité, inviteFfp : demande de possibilitéTableau SEQ Tableau \* ARABIC 23 : Liste des actes utilisés pour les tests
2.1. Prédiction des actes
Dans cette approche, nous adoptons une démarche stochastique pour prédire lacte subséquent le plus probable à partir dun historique plus ou moins grand. Nous utilisons les probabilités dactes de dialogue n-grammes pour calculer lacte suivant le plus probable, ce qui nous donne par la formule de probabilité conditionnelle de Bayes :
P(An+1 | A1,
,An) = P(A1,
,An, An+1) / P(A1,
,An)
Les probabilités seront alors estimées à partir de techniques de fréquence relative. Pour prédire lième acte de dialogue Ai, les n-1 actes de dialogues précédents permettent de déterminer lacte de dialogue le plus probable par la formule :
Ai = argmaxa P(A | Ai-1, Ai-2,
, Ai-n+1)
Notre corpus est composé de dialogues réels et comme dans de nombreuses situations réelles, il nest pas possible de collecter un très grand nombre de données pour estimer correctement les statistiques. Il nest donc pas raisonnable dutiliser les techniques classiques. Nous devons trouver une solution pour deux problèmes importants. Dune part, le modèle de dialogue fondé sur les séquences de n-grammes actes de dialogues ne peut pas être utilisé dans le cas dune entrée non attendue. Dautre part, les modèles à base de n-grammes peuvent prédire plusieurs actes avec la même probabilité dans le cas dun manque de données dapprentissage. Le traitement de ces deux problèmes consiste, dans notre expérimentation, à utiliser le modèle (n-1)-gramme et récursivement.
Dans un premier temps, nous avons appliqué cette méthode sur le corpus PVE obtenu par magicien dOz en considérant un acte par tour de parole. Nous avons testé plusieurs tailles dhistoriques et deux cas, inclusion de la tâche douverture dans les statistiques ou non. Lhistorique 1 correspond aux unigrammes, cest-à-dire à la répartition statistique dans le corpus indépendamment de tout acte précédent. Lhistorique 2 correspond aux bigrammes et sappuie donc sur lacte précédent pour la prédiction de lacte courant. De même, lhistorique 6 correspond à la prédiction dun acte à partir des 5 précédents.
Par ailleurs, nous avons testé deux cas. Le premier correspond à un taux de prédiction global indépendamment de la tâche. Le deuxième cas supprime des statistiques la première tâche douverture car celle-ci est prédictible à 100% (lagent prend toujours la parole de la même manière, avec le même acte). Les résultats de cette prédiction sont décrit ci-après ( REF _Ref74200739 \h Tableau 24) :
7 tâches6 tâchesAgentClientAgentClient Nb actes163151141151 n=124,5%33,1%28,4%33,1% n=239,3%60,3%33,3%62,9% n=338,7%60,3%33,3%61,6% n=439,3%59,6%34,75%60,3% n=537,4%53,6%31,9%56,3% n=636,8%53,0%31,2%55,6%Tableau SEQ Tableau \* ARABIC 24 : Taux de prédiction dacte par la méthode statistique dans PVE (un acte par tour)
Nous pouvons observer une meilleure prédiction de lacte du client. Cela est dû au fait que le dialogue est plutôt dirigé par lagent indépendamment de la tâche (lagent sait quels paramètres il attend et pose directement les questions sur ces paramètres). Ces résultats sont un peu moins fiables que ceux de VerbMobil [Reithinger & Maier 95] qui obtient 44,2% pour n=1, 66,5% pour n=2, 81,5% pour n=3. Cependant, leur corpus est mono-tâche et contient un grand nombre de données (environ 7200 actes de dialogue). En outre, nos résultats corroborent ceux de VerbMobil à savoir quun grand historique est inutile, le taux le meilleur étant souvent trouvé pour n=2 cest à dire pour les bigrammes.
Dans un deuxième temps, nous avons réannoté le corpus pour découper chaque tour de parole en un certain nombre dactes, et ainsi se rapprocher de la réalité. Les calculs sont identiques aux précédents mais reflètent davantage la structure du dialogue.
Nous pourrions, au final, adopter lapproche de génération dacte par règle [Imberdis 95], par réseaux neuronaux ([Gouiaa et al. 99] à partir de lanalyse de [Colineau 94] du corpus de [Ozkan 94]) ou stochastique [Maynard, Lefèvre 02].
2.2. Génération et gestion des attentes
Dans les systèmes de dialogue oral, la compréhension des attentes du locuteur est nécessaire en sus de la sémantique et de la structure syntaxique de lénoncé. La reconnaissance dattentes nest pas un problème aisé. Il existe de nombreuses manières de laisser transparaître une attente qui peut résulter de différentes formulations voire ne pas être marquée linguistiquement. De plus, la classification de lattente du locuteur dépend dun cadre fondamental donc il existe de nombreuses classifications selon les approches adoptées.
Notre modèle est dérivé de la théorie des actes de langage et plus précisément du modèle de prédiction dactes présenté ci-dessus. Il utilise également les statistiques n-grammes. Les attentes sont un ensemble de réponses que lutilisateur est susceptible dattendre lorsquil formule un énoncé. Pour un énoncé de demande, il pourra sattendre à une réponse, des précisions ou a contrario une demande de précision. La notation est celle présentée auparavant.
Lidentification du locuteur et le contenu propositionnel sont ajoutés à cette notation afin dobtenir des actes de dialogue de la forme : FfsU(p). Ffs est lacte de langage. U représente lidentifiant (donc le rôle) de lutilisateur (ou C, client). M représente la machine (ou A, agent ou assistant). (p) est la représentation logico-sémantique du contenu propositionnel non développé pour le moment dans notre système. Inclure lidentification du locuteur permet de tenir compte des rôles des interactants et daborder les attentes vues du côté locuteur ce qui correspond à une nouvelle direction considérant les attentes indépendamment de la tâche.
Considérant que lapproche, trop simpliste, de prédiction dacte suivant nest pas assez pertinente en dialogue, nous avons affiné ce modèle en lui ajoutant la notion dattentes. En effet, les actes comme F(p), Fs(p), Fd(p) ou Fp(p) nont pas la même importance que ceux qui posent des buts comme Ff(p), Ffs(p), Ffd(p) ou Ffp(p). Ces derniers ont, pour nous, un lien très fort avec lacte fourni en réponse. Lorsque je demande une information, je souhaite que lallocutaire me fournisse la réponse. Inversement, lorsque je donne une information, je nai pas dattentes vis-à-vis de mon allocutaire mais je réponds davantage aux siennes. Nous formulons donc lhypothèse que lorsque lacte courant pose un but (donc des attentes) à savoir Ff(p), Ffs(p), Ffd(p) ou Ffp(p), lacte (immédiat pour les bi-grammes) de lallocutaire doit être, dans un dialogue coopératif, un acte parmi les attentes du locuteur (respectant ainsi les maximes de Grice).
De plus, lattente est orientée vers lallocutaire. Lutilisateur pose des attentes vis-à-vis de lallocutaire. Nous nous intéressons donc à lacte fourni en réponse. Les n-grammes dont les éléments portent sur le même locuteur ne nous intéressent pas. Nous ne retiendrons donc que les changements de locuteur (pour les bi-grammes {FA(p), FB(p)} et {FB(p), FA(p)}) et les actes dont lhistorique contient un acte posant des buts. Ainsi, nous pouvons généraliser pour une taille dhistorique quelconque. Dans lhistorique du dialogue, seuls nous intéressent les énoncés où linterlocuteur pose une attente : les cas de demande daction, dinformation ou dengagement. Nous ne cherchons à prédire que les actes ayant dans leur historique un tel type dénoncé.
A partir de cette génération dattentes, nous pouvons adopter un mécanisme de gestion des attentes qui suit celui des buts proposé par [Caelen 92]. Ainsi, chaque acte qui pose un but, pose ses attentes associées dans une pile. Par exemple, lorsque je propose un FfsA(p), mes attentes sont, si je suis un agent {FsB(p), FfsB(p), FpB(p) FfB(p), FfdB(p)}. Ces attentes sont empilées dans la pile dattentes. Lorsque le but est satisfait ou abandonné, les attentes sont dépilées. Ces attentes seront donc dépilées lorsquun des actes attendus est proposé (avec lexemple précédent, FsB(p) permet de dépiler simplement les attentes). Ainsi, les F(p), Fs(p), Fd(p) et Fp(p) ne génèrent-ils pas dattentes mais permettent davantage de les dépiler.
Le but est un état que désire atteindre lutilisateur. Ce peut être un état mental (ex : connaître une information ou acquérir un savoir-faire) ou situationnel (ex : un fax envoyé). Un but peut se représenter à laide dun prédicat b (ex b= sA(heure)). Le but a plusieurs états. Un nouveau but ( ?b) est un but qui vient dêtre posé par lexpression du locuteur. Ce but est atteint (+b ou b selon Caelen) lorsque létat de la situation rend le prédicat vrai (sA(heure)). Il est ensuite satisfait (++b ou b selon Caelen) lorsque le locuteur manifeste son accord explicitement (merci) ou implicitement sur latteinte du but. Un but peut aussi être mis en attente (-b) lorsque lun des interlocuteurs résout temporairement un autre problème (un autre but est posé). Il peut être réparé ou déplacé (b) lorsquà la suite dune incompréhension ou dun compromis, il est modifié. Il peut aboutir à un sous-but (sb) lorsque le problème est décomposé en sous-problèmes. Il peut enfin être abandonné (@b) à la suite dun échec et dun souhait dabandon de la part du locuteur.
Nous pouvons voir un exemple de règles de gestion (volontairement simplifié) ci-dessous ( ? pour poser un but, + pour latteindre, ++ pour le satisfaire et @ pour labandonner ; s pour un sous but) :
But = Æð Ùð Acte = FfsY(p) => ?ðSX(p) Ùð Empile(FsX(p) Úð FfsX(q))
But = SX(p) Ùð Acte = FsY(p) => +SX(p) Ùð Empile(FsX(+ SX(p))Úð (FfsX(q) Ùð SX(q) ¹ð SX(p)))
But = SX(p) Ùð Acte = FfsY(q) Ùð SY(q) = sSX(p) => -SX(p) Ùð ?SY(q) Ùð Empile(FsX(q) Úð FfsX(q))
But = SX(p) Ùð Acte = FfsY(q) Ùð SY(q) ¹ð sSX(p) => @SX(p) Ùð ?SY(q) Ùð Dépile Ùð Empile(FsX(q) Úð FfsX(q))
But = SX(p) Ùð Acte = FsY(q) Ùð q = +SX(p) => ++SX(p) Ùð Dépile
But = SX(p) Ùð Acte = FfsY(q) Ùð +SX(p) Ùð SX(q) ¹ð SX(p) => ++SX(p) Ùð ?SX(q) Ùð Dépile Ùð Empile(FsY(q) Úð FfsY(q))
Empiler un but ( ?) reviendra donc à empiler ses attentes associées, et inversement, le dépiler (++ ou @) reviendra à dépiler les attentes de leur satisfaction. Atteindre un but permettra dempiler les attentes liées à la satisfaction du but.
Selon le mécanisme de gestion des buts et à partir de notre analyse du corpus, nous pouvons formuler des règles de la forme FfsA(p) àð FsB(p)(85,96%) | FfsB(q)(10,53%) | FfdB(q)(3,51%) ; lorsque l acte FfsA(p) apparaît, les attentes du locuteur A sont FsB(p) à 85,96% ou FfsB(q) à 10,53% ou encore FfdB(q) à 3,51%. Ainsi, nous n empilerons pas seulement les attentes mais aussi leur probabilité dapparition. Cette pondération (qui reflète les rôles des participants) permet de tenir compte de laspect social du dialogue. Dès lors nous pourrons proposer un modèle opportuniste qui, considérant lacte généré, propose les attentes associées. Nous pouvons ainsi prédire les attentes les plus probables comme les autres (moins probables) ce qui nous permet déviter de tomber dans limpasse des non-attendus.
3. Description statistique des corpus
Nous décrivons dans cette partie la répartition statistique des actes et leur coocurrence dans les corpus étudiés.
3.1. Corpus de dialogues homme-homme NESPOLE!
Le corpus de NESPOLE! décrit précédemment a été découpé en deux parties pour nos tests de prédiction. La partie Apprentissage sert à entrainer le système à travers une analyse statistique des coocurrences qui définit les probabilités. Elle est constituées de 4454 actes de dialogue répartis comme suit ( REF _Ref78733782 \h Tableau 25) :
RôleFFdFfFfdFfsFpFsTotalAgent77168026315916152183Client65022142911016442271Tableau SEQ Tableau \* ARABIC 25 : Répartition par rôle des 4454 actes du corpus dapprentissage de Nespole!.
Le corpus de pré-tests a servi à valider lannotation et na pas été utilisé pour lapprentissage ni pour lévaluation. Il est cependant composé de 74 actes de dialogues ( REF _Ref78733972 \h Tableau 26) :
RôleFFdFfFfdFfsFpFsTotalAgent0330522942Client43011211132Tableau SEQ Tableau \* ARABIC 26 : Répartition par rôle des 74 actes du corpus de pré-tests de Nespole!.
La partie Tests sert à lévaluation de la prédiction. Elle est constituée de 189 actes de dialogue répartis comme sur le REF _Ref78733866 \h Tableau 27 ci-dessous :
RôleFFdFfFfdFfsFpFsTotalAgent3612666791Client12131357398Tableau SEQ Tableau \* ARABIC 27 : Répartition par rôle des 189 actes du corpus de test de Nespole!.
3.2. Corpus de dialogues homme-machine PVE
Le corpus de PVE précédemment décrit est divisé en corpus-pilote, prétests et tests. Pour nos tests sur du dialogue homme machine, nous avons regroupé les prétests et 51 tests pour obtenir un corpus dapprentissage de 1544 actes( REF _Ref78739353 \h Tableau 28). Les 21 tests restants ont servi de corpus dévaluation ( REF _Ref78740424 \h Tableau 29).
TâcheRôleFFdFfFfdFfsFpFsTotalTotalStand RDIRAgent17023246141130329Client132190462297199RDVAgent70683201063150Client57601684987RESA
Salle,matérielAgent110151547520113260Client121270291572147RSG AGDAgent23415826025101241Client87202341752140ENVDOCAgent2402302412294252Client210380222156158ComminfoAgent7013322113490185Client166701184795OuvertureAgent001063542120127Client00003227TotalAgent8949636260721547111544Client753493216193375833Tableau SEQ Tableau \* ARABIC 28 : Répartition en tâches et rôles des 1544 actes du corpus dapprentissage stochastique PVE.
TâcheRôleFFdFfFfdFfsFpFsTotalTotalStand RDIRAgent40621601543106Client62501163363RDVAgent20427031842Client5310111324RESA
Salle,matérielAgent10439042153Client5200331932RSG AGDAgent90029072767Client1250712440ENVDOCAgent120505072984Client110120562155ComminfoAgent300223112151Client5260431030OuvertureAgent0000221804040Client00000000TotalAgent3101911702147199443Client33112903120120244Tableau SEQ Tableau \* ARABIC 29 : Répartition en tâches et rôles des 443 actes du corpus de test stochastique PVE.
4. Tests en dialogue homme-homme : Sur le corpus NESPOLE!
4.1. Prédiction dactes
Pour lapproche par prédiction dactes, nous avons regroupé les 30 premiers dialogues du corpus Nespole! collecté. Ces dialogues nous ont permis de définir la fréquence de cooccurrence de chaque acte. Nous avons obtenu 4315 actes dont 3582 actes en réponse (cest-à-dire actes formulés par lallocutaire en réponse au locuteur). Nous ne présenterons pas ici la matrice de cooccurrence des bi-grammes {Acte-en-cours, Acte-suivant} brute (la matrice fréquentielle est présentée en REF _Ref74200859 \h Tableau 32. Cette matrice nous fournira la probabilité de cooccurrence P(Acte-courant, Acte-suivant) mais aussi la probabilité dapparition des actes, P(Acte-courant), de lagent ( REF _Ref74200792 \h Tableau 30) et du client ( REF _Ref74200823 \h Tableau 31).
Acte AgentFA(p)FdA(p)FfA(p)FfdA(p)FfsA(p)FpA(p)FsA(p)TotalFréquence (%)2,021,671,602,253,823,5734,0448,97Tableau SEQ Tableau \* ARABIC 30 : Fréquence dapparition des actes de lagent dans les 30 dialogues
Acte ClientFC(p)FdC(p)FfC(p)FfdC(p)FfpC(p)FfsC(p)FpC(p)FsC(p)TotalFréquence (%)1,532,900,581,090,027,532,2533,7449,64Tableau SEQ Tableau \* ARABIC 31 : Fréquence dapparition des actes du client dans les 30 dialogues
Nous pouvons constater que lagent prend la parole dans 48,97% des tours et le client dans 49,64%, le reste étant le début (0,72%) et la fin (0,67%) du dialogue. De plus, ces fréquences sont plus ou moins similaires. En effet, lacte FfpA(p) napparaît jamais dans notre corpus et les demandes dinformation Ffs(p) du client sont grosso modo deux fois supérieures en nombre à celles de lagent. De même, lagent semble proposer davantage dinvites Fp(p). Enfin, les Fs(p) semblent équivalents, mais à cause des rôles de chacun, la proportion de phatiques (actes à contenu propositionnel nul) influe sur la distribution des actes. Ainsi, lagent propose-t-il beaucoup dactes Fs(p) à contenu informationnel tandis que le client fournit davantage de Fs(p) phatiques, cest-à-dire dont le contenu propositionnel est nul mais qui ont pour fonction de maintenir la communication (en montrant quil écoute ou quil a compris ce qui est dit). Cela nous montre bien que les rôles ne sont pas interchangeables et quil est important de les considérer dans le dialogue.
Par la formule de Bayes, nous obtenons la probabilité dapparition de chaque acte en contexte, P(Acte-suivant | Acte-courant). Nous pouvons le voir sur le REF _Ref74200859 \h Tableau 32 présentant la fréquence dapparition de chaque Acte-suivant (en colonne) en rapport à lacte énoncé (en ligne) :
Acte\suivantFA(p)FdA(p)FfA(p)FfdA(p)FfsA(p)FpA(p)FsA(p)FC(p)FdC(p)FfC(p)FfdC(p)FfpC(p)FfsC(p)FpC(p)FsC(p)debutfinFA(p)009,201,151,151,159,202,301,152,300,0008,05052,87011,49FdA(p)1,390001,39016,67001,392,7808,334,1763,8900FfA(p)2,90007,251,451,4518,8452,17001,4500,00014,4900FfdA(p)0000003,091,0385,570003,0907,2200FfsA(p)00003,033,033,6400,610,61004,241,2183,6400FpA(p)0,65000,651,300,657,149,091,300,651,3005,8428,5742,2100,65FsA(p)1,630,201,291,233,341,976,060,542,180,821,840,0710,481,0267,2600,07FC(p)9,0907,5815,151,524,5531,8201,5200001,524,55022,73FdC(p)4,0002,404,8011,202,4060,000000,8001,601,6011,2000FfC(p)68,000008,00016,0000000008,0000FfdC(p)089,360002,132,13000002,132,13002,13FfpC(p)0000000000001000000FfsC(p)0,310,310,313,386,772,1576,920000,6206,460,921,8500FpC(p)11,342,0602,061,0335,0521,650002,06013,402,067,2202,06FsC(p)1,301,652,272,954,533,4365,520,340,340,550,6206,801,248,4500debut0000061,293,230003,2306,4519,353,233,230fin0000000000000001000Tableau SEQ Tableau \* ARABIC 32 : Pourcentages dactes suivant par rapport à chaque acte (Nespole!)
Ce que nous avons vu pour les unigrammes (répartition statistique des actes indépendamment des précédents) et les bigrammes (fréquence de cooccurrence des actes) se généralise ensuite pour n quelconque. Dès lors, nous pouvons proposer un modèle simple de prédiction dacte à partir de lacte énoncé. En effet, à partir de cette matrice, nous pouvons définir lacte suivant le plus probable (celui qui maximise la probabilité). Lacte prédit est donc celui qui a la plus haute probabilité :
Acte-prédit = argmaxacteÎð{Ens. Actes} P(Acte|Actei-1,Actei-2,& ,Actei-n+1),
soit pour n=2, argmaxacteÎð{Ens. Actes} P(Acte-suivant | Acte-courant). Dans ce cas, la prédiction sera FsC(p) si l on a FfsA(p) car cet acte obtient 83,64% de probabilité du succéder à l acte courant.
4.2. Génération et gestion des attentes
Pour lapproche fondée sur la théorie des attentes, nous nous intéressons en particulier à lacte fourni en réponse. Nous éludons les n-grammes dont les éléments portent sur le même locuteur. De plus, seuls les actes délégués, cest-à-dire posant un but, posent selon nous des attentes. Nous retiendrons ainsi les changements de locuteur (pour les bi-grammes {FA(p), FB(p)} et {FB(p), FA(p)} par exemple) et les n-grammes dont lhistorique contient un acte délégué ( REF _Ref74200917 \h Tableau 33).
Acte\suivantFA(p)FdA(p)FfA(p)FfdA(p)FfsA(p)FpA(p)FsA(p)FC(p)FdC(p)FfC(p)FfdC(p)FfpC(p)FfsC(p)FpC(p)FsC(p)FfA(p)76,600,000,002,130,000,000,0021,28FfdA(p)1,0688,300,000,000,003,190,007,45FfsA(p)0,000,670,670,000,004,701,3492,62FfC(p)73,910,000,000,008,700,0017,39FfdC(p)0,0095,450,000,000,002,272,27FfpC(p)FfsC(p)0,340,340,343,757,512,3985,32debut0,000,000,000,000,0063,333,330,000,000,003,330,006,6720,003,33Tableau SEQ Tableau \* ARABIC 33 : Pourcentages dattentes par rapport à chaque acte posant un but (Nespole!)
Selon le mécanisme de gestion des buts et à partir de notre analyse du corpus, nous pouvons formuler des règles de la forme FfsA(p) àð FsB(p)(85,96%) | FfsB(q)(10,53%) | FfdB(q)(3,51%) ; lorsque l acte FfsA(p) apparaît, les attentes du locuteur A sont FsB(p) à 85,96% ou FfsB(q) à 10,53% ou encore FfdB(q) à 3,51%. Ainsi, nous n empilerons pas seulement les attentes mais aussi leur probabilité dapparition. Cette pondération (qui reflète les rôles des participants) permet de tenir compte de laspect social du dialogue.
Dès lors nous pourrons proposer un modèle opportuniste qui, considérant lacte généré, propose les attentes associées. Grâce à ce modèle, nous pouvons prédire les attentes les plus probables comme les autres (moins probables), ce qui nous permet déviter de tomber dans limpasse des non-attendus.
4.3. Test : Comparaison des deux approches
Nous pouvons comparer les deux approches proposées. La première est fondée uniquement sur la prédiction stochastique de lacte suivant. La seconde, qui nous intéresse par son côté plus intelligent, reprend une certaine prédiction dacte (seulement ceux en réponse) et lui adjoint une gestion intelligente des attentes.
Nous avons émis lhypothèse que le deuxième système devrait offrir de meilleures performances que le premier, considérant que la compréhension est plus fine. Pour tester cette hypothèse, nous avons analysé le 31ième dialogue (considéré donc comme dialogue de test) selon le même protocole que précédemment. La matrice de cooccurrence de bi-grammes {Acte-courant, Acte-suivant} est la suivante ( REF _Ref74200967 \h Tableau 34) :
Acte\suivantFA(p)FdA(p)FfA(p)FfdA(p)FfsA(p)FpA(p)FsA(p)FC(p)FdC(p)FfdC(p)FfsC(p)FpC(p)FsC(p)ACA+CFA(p)111FdA(p)11133FfA(p)222FfdA(p)222FfsA(p)444FpA(p)333FsA(p)111122142222FC(p)222FdC(p)1122FfdC(p)2133FfsC(p)444FpC(p)11133FsC(p)131321122323debut11373775Tableau SEQ Tableau \* ARABIC 34 : Matrice de cooccurrence des bigrammes {Acte-courant, Acte-suivant} dans le 31ième dialogue de notre corpus (Nespole!)
Nous pouvons donc comparer lacte effectivement produit après chaque acte et celui prédit. Si nous sélectionnons lacte suivant le plus probable, nous obtenons 45 actes correctement prédits contre 30 qui peuvent être considérés comme des erreurs (en fait, ils sont seulement moins probables). Le taux derreur est donc de 40% ce qui semble montrer que lapproche par prédiction dacte nest peut-être pas la plus pertinente et quelle mériterait dêtre affinée.
En reprenant notre 31ième dialogue, nous pouvons tester notre approche par gestion dattentes de la même manière que précédemment. Nous ne conserverons donc que les actes qui posent des attentes comme les Ff(p), les Ffd(p), Ffp(p) ou Ffs(p). Lattente respective la plus probable est donc F(p), Fd(p), Fp(p) et Fs(p). Nous obtenons alors 14 actes correctement prédits contre 1 qui nest pas le plus probable. En termes de taux derreur, nous obtenons donc 6,67%, ce qui représente bien moins que les 40% démontrés ci-dessus.
Après affinage de lannotation reflétant davantage les actes indirects des participants, nous avons refait les tests pour un historique n allant de 1 à 8. Nous avons alors séparé la prédiction des actes de lagent de la prédiction de ceux du client (lutilisateur du système). Les résultats sont sur le REF _Ref74201031 \h Tableau 35 ci après :
HistoriqueActesAttentesAgentUtilisateurAgentUtilisateurTauxNbTauxNbTauxNbTauxNb n=180,229176,539880,229176,5398 n=280,229180,619893,7516100,009 n=380,229182,659882,6123100,0010 n=478,029180,619875,8629100,0013 n=578,029179,599877,1435100,0015 n=675,829177,559873,1741100,0018 n=773,639178,579873,9146100,0020 n=872,539177,559870,595187,5024Tableau SEQ Tableau \* ARABIC 35 : Taux (%) de prédictions dacte et de prédiction dattentes et nombre à prédire (Nespole !).
Une amélioration significative a été apportée quant à la prédiction des actes. Celle-ci reste néanmoins en deçà de la prédiction dattentes, quelle que soit la taille dhistorique. Du fait que les attentes sont vues comme une sous-partie (une restriction) des actes, il y a beaucoup moins dattentes à prédire, mais elles sont bien prédites. En outre, un historique de taille 2 est suffisant pour prédire actes ou attentes. Nous ne constatons pas damélioration significative au delà.
Ces résultats sont encourageants à double titre. En effet, en essayant dinterpréter nos résultats, nous trouvons les raisons de ces taux si intéressants. Il nous semble ainsi plus logique de ne chercher à prédire que les attentes fondées sur les actes en réponse. Ce sont bien ces derniers qui offrent des attentes. Prenons lexemple dune demande dinformation. Cet acte demande une réponse. Les attentes associées sont donc plutôt prévisibles (la réponse à cette demande). En revanche, dans le cas dune simple réponse, lacte suivant peut être aussi bien une question de lun des interlocuteurs quun apport dinformation de lun des interlocuteurs. Dès lors, toute prévision napporte que peu de précision. Cest pourquoi nous ne conserverons, dans notre approche, que les actes en réponse ou plutôt lassociation acte courant / acte en réponse. Liés à une bonne gestion des attentes, ces actes nous permettent donc de fournir un modèle non seulement plus générique mais aussi plus intelligent cest-à-dire plus proche du fonctionnement humain.
Cette deuxième méthode, associée au mécanisme de gestion des attentes (qui reflète de manière plus intelligente le déroulement du dialogue) devrait donc offrir des résultats beaucoup plus pertinents (lefficacité de la gestion des attentes étant plus ou moins liée à celle de la gestion des buts). En outre, nous navons conservé, pour les besoins de lexpérience, que le premier acte, le plus probable. Or, nous pensons quil est souhaitable de conserver les autres afin de mieux gérer les attentes puisque le plus probable est pris en compte mais les suivant ne sont pas écartés. Dès lors, le taux derreur devrait diminuer encore.
Conclusion en dialogue homme-homme
Dans cette partie, nous nous sommes intéressé aux dialogues entre humains coopératifs de renseignement touristique avec des rôles non équivalents. Nous avons montré que, dans ce cadre, lacte suivant correspond le plus souvent à lattente la plus probable. Dans le cadre du dialogue homme-machine, cest, si possible, cet acte qui serait choisi, engendrant parfois quelques erreurs. Associé à un mécanisme de gestion des attentes, nous pourrions, en revanche, disposer dune plus grande flexibilité dans la compréhension de lénoncé. Dès lors, les actes moins probables seraient envisageables. Le premier acte nétant pas toujours possible (nous ne comprenons pas tout), le deuxième pourrait être sélectionné. Cest ce que nous pourrons voir aussi en suivi de dialogue dans le cadre du dialogue entre humains médiatisé par la machine. Dans ce cadre, nous pourrons proposer toutes les attentes avec leur probabilité dapparition, et même affiner rétroactivement le contexte (intentionnel, cognitif et social) en fonction de lacte effectivement choisi. Cette approche nous permettrait alors de modéliser le dialogue de manière plus cognitive.
5. Tests en dialogue homme-machine : Dans le corpus PVE
Nous avons montré dans la partie précédente lintérêt de prendre en compte les attentes en dialogue oral humain sur un corpus de renseignement touristique [Besacier et al., 2001]. Nous montrerons ici lintérêt de ces attentes en dialogue homme-machine. Pour cette partie, nous avons suivi la méthodologie présentée précédemment. Les dialogues sont issus de la campagne denregistrement en magicien dOz dans le cadre du projet PVE. Le corpus obtenu a été annoté en direct, cest à dire lors de lenregistrement. Ces annotations en actes ont subi plusieurs passes de vérification et mise à jour afin de refléter au mieux les actes indirects des participants et de gommer les erreurs dinterprétation dues aux phénomènes de direct et aux erreurs en amont. A partir de ces annotations, des tests ont été menés pour évaluer les deux approches présentées précédemment : prédiction dactes et prédiction dattentes.
5.1. Statistiques de succession
Nous avons observé, dans la partie « Prédiction dactes », que lapproche statistique, fondée sur les n-grammes incluant deux niveaux de recuit (backoffs) apporte les meilleurs résultats pour n = 2. Nous présenterons donc dans cette partie les statistiques fondées sur les bigrammes. Considérée comme suffisante, elle permettra une comparaison précise pour les attentes. Nous généraliserons ensuite, dans la partie comparaison, les résultats avec un historique variant de 1 à 8.
Pour lapproche par prédiction dactes, les 65 dialogues (comprenant les 14 pré-tests et 51 dialogues de test) nous ont permis de définir la fréquence de cooccurrence de chaque acte. Nous avons obtenu 1071 actes dont 1035 actes en réponse (cest-à-dire actes formulés par lallocutaire en réponse au locuteur). Nous ne présenterons pas ici la matrice de cooccurrence des bi-grammes {Acte-en-cours, Acte-suivant}. En revanche, cette matrice nous fournira la probabilité de cooccurrence P(Acte-courant, Acte-suivant) mais aussi la probabilité dapparition des actes, P(Acte-courant), de lagent et du client.
Par la formule de Bayes, nous obtenons la probabilité dapparition de chaque acte en contexte, P(Acte-suivant | Acte-courant). La matrice ( REF _Ref74201073 \h Tableau 36) présente la fréquence dapparition de chaque Acte-suivant (en colonne) en fonction de lacte énoncé (en ligne) :
FA(p)FdA(p)FfA(p)FfdA(p)FfsA(p)FpA(p)FsA(p)FC(p)FdC(p)FfC(p)FfdC(p)FfsC(p)FpC(p)FsC(p)Total1,2513,7511,2572,501,25100FA(p)3,517,025,263,5117,5421,0521,0519,301,75100FdA(p)50,0050,00100FfA(p)2,332,335,8144,199,3017,442,3316,28100FfdA(p)2,384,7671,437,1414,29100FfsA(p)0,622,486,2190,68100FpA(p)2,865,712,8628,5717,145,7137,14100FsA(p)0,911,8210,0028,181,8230,009,0918,18100FC(p)19,3516,133,2338,713,2316,133,23100FdC(p)43,3336,676,676,676,67100FfC(p)32,4710,397,7924,685,1916,881,301,30100FfdC(p)100100FfsC(p)3,5516,318,5134,752,1333,330,710,71100FpC(p)4,3530,4326,0926,0913,04100FsC(p)15,4617,0110,8236,087,7311,860,520,52100Total7,660,198,593,9215,313,4510,555,882,807,280,1913,262,5218,39100Tableau SEQ Tableau \* ARABIC 36 : Pourcentages dactes suivants par rapport à chaque acte (PVE)
Dès lors, nous pouvons proposer un modèle simple de prédiction dacte à partir de lacte énoncé. En effet, à partir de cette matrice, nous pouvons définir l acte suivant le plus probable (celui qui maximise la probabilité). Dès lors, l acte prédit est simplement celui qui a la plus haute probabilité : Acte-prédit = argmaxacteÎð{Ens. Actes} P(Acte-suivant | Acte-courant). La prédiction sera FsC(p) si lon a FfsA(p) car cet acte obtient 90,68% de probabilité du succéder à lacte courant.
5.2. Attentes
Lapproche fondée sur la théorie des attentes considère limportance pour la machine de comprendre les attentes de lutilisateur afin dy répondre au mieux. Pour cela, nous nous intéressons, comme pour le dialogue humain, à lacte fourni en réponse (1035 actes en réponse observés dans le corpus). Les bigrammes dont les éléments portent sur le même locuteur ne nous intéressent pas. Nous ne retiendrons donc que les changements de locuteur (les bigrammes {FA(p), FB(p)} et {FB(p), FA(p)}). En outre, dans lhistorique, seuls nous intéressent les énoncés où linterlocuteur pose une attente : les cas de demande daction, dinformation ou dengagement. Les règles de gestion de ces attentes suivent la gestion des buts. Nous ne retiendrons donc que les séquences dactes dans lesquelles figure un acte posant un but. Dans le cas des bigrammes, seules sont conservées les séquences {Acte-courant Acte-suivant} avec Acte-courant posant un but. Enfin, nous ne considérons pour lexpérience que lattente la plus probable. Les résultats sont présentés sur le REF _Ref74201115 \h Tableau 37.
FA(p)FdA(p)FfA(p)FfdA(p)FfsA(p)FpA(p)FsA(p)FC(p)FdC(p)FfC(p)FfdC(p)FfsC(p)FpC(p)FsC(p)Total1,2513,7511,2572,501,25100FA(p)21,7426,0926,0923,912,17100FdA(p)100100FfA(p)49,3510,3919,482,6018,18100FfdA(p)4,8873,177,3214,63100FfsA(p)2,506,2591,25100FpA(p)3,1331,2518,756,2540,63100FsA(p)10,2828,971,8730,849,3518,69100FC(p)20,0016,673,3340,003,3316,67100FdC(p)43,3336,676,676,676,67100FfC(p)33,3310,678,0025,335,3317,33100FfdC(p)100100FfsC(p)3,6016,558,6335,252,1633,81100FpC(p)4,3530,4326,0926,0913,04100FsC(p)15,6317,1910,9436,467,8111,98100Total7,730,198,413,8615,273,0910,055,992,907,440,1913,532,5118,84100Tableau SEQ Tableau \* ARABIC 37 : Pourcentages dattente par rapport à chaque acte (PVE)
Au moment de prédire un acte de A, nous allons donc vérifier que son historique contient un acte posé par B et portant une attente et comparer, si tel est le cas, lacte prédit et celui posé. Associé au mécanisme de gestion des buts, ce système devrait offrir de meilleurs résultats que la prédiction seule.
Pour tenter de prédire ce que doit répondre la machine, les statistiques ont été plus poussées pour les bi-grammes {FA, FA} et {FC, FA}. Le REF _Ref74201162 \h Tableau 38 montre les statistiques de bi-grammes {Acte, Acte-suivant} estimées selon la méthodologie précédente en considérant un acte par énoncé. Les colonnes représentent les statistiques dattentes suivant lacte courant (en ligne). Certains actes du client posent des buts. Selon nous, ces même actes posent des attentes. Ils correspondent, dans le tableau, aux lignes grisées. Ce sont les requêtes daction, dinformation ou de confirmation.
Acte\AttentesFAFdAFfAFfdAFfsAFpAFsA# total FA14,328,642,914,314 FdA1001 FfA22,222,255,69 FfdA1001 FfsA1001 FpA2550254 FsA33,366,73 FC2016,73,3403,316,730 FdC43,336,76,76,76,730 FfC32,910,57,9256,617,176 FfdC1002 FfsC3,516,88,434,33,533,6143 FpC4,229,22529,212,524 FsC15,416,910,835,99,211,8195 début82,817,264 Total13,70,315,6727,516,819,1597Tableau SEQ Tableau \* ARABIC 38 : Statistiques de bigrammes (%) et attentes en fonction de chaque acte (PVE)
Avec cette méthode, le taux de bonne prédiction passe à 65.6% ce qui signifie pour nous que la considération de la notion dattentes permet un meilleur contrôle du dialogue. Nous allons voir dans le prochain chapitre une comparaison plus fine avec la dernière passe dannotation et une taille dhistorique variant de 1 à 8.
5.3. Comparaison, taux de bonne prédiction
Comme pour le cadre du dialogue homme-homme, nous avons fait lhypothèse que le deuxième système devrait offrir de meilleures performances que le premier, considérant que la compréhension est plus fine. Des corpus recueillis, nous avons retiré le corpus pilote homme-homme car nous voulions tester du dialogue homme-machine. Nous avons regroupé le corpus de 14 dialogues de pré-tests et 51 dialogues du corpus de 72 dialogues de tests (la collecte en magicien dOz proprement dite). Ce regroupement a servi de corpus dapprentissage pour entraîner les probabilités de succession dactes et dattentes. Ces 65 dialogues sont composés denviron 1500 actes de dialogue et concernent 80 tâches (hors tâche douverture introduite artificiellement). Les 21 dialogues restant ont servi de corpus dévaluation. Ils sont composés denviron 400 actes et concernent 25 tâches (toujours hors tâche douverture introduite artificiellement). Cette répartition permet déquilibrer les proportions de chaque tâche dans chacun des corpus, comme nous pouvons le constater sur le REF _Ref74201200 \h Tableau 39 ci-dessous :
TâchesApprentissageEvaluationTotalRedirection, Standard16521Rendez-vous9312Réservation de salle12315Communication dinformation11314Gestion dun agenda partagé15520Envoi de document17623Ouverture652186Tableau SEQ Tableau \* ARABIC 39 : Description du corpus
Une première comparaison des deux approches dans le cadre du domaine homme-machine et de lapplication cible (le projet PVE) nous fournit des résultats prometteurs ( REF _Ref74201245 \h Tableau 40) :
PrédictionAu totalAssistantUtilisateurActes138/293 (47,10%)47/141 (33,33%)95/151 (62,91%)Attentes78/133 (58,65%)24/65 (36,92%)54/68 (79,41%)Tableau SEQ Tableau \* ARABIC 40 : Résultats de prédiction dacte versus attentes (PVE)
Les actes et attentes de lutilisateur (le client) sont mieux prédits que ceux de lassistant (lagent). Comme dans le cas du dialogue homme-homme, les rôles ne sont pas équivalents. Lassistant a tendance à diriger le dialogue tandis que lutilisateur a tendance à le suivre. Ainsi la stratégie de lutilisateur sera-t-elle souvent réactive, celui-ci répondant simplement aux questions du système. A contrario, lassistant pose plus souvent des questions à propos des paramètres quil sait manquants. La prédiction de lacte et de lattente les plus probables est donc plus ardue, ces probabilités étant moins réparties.
La prédiction des attentes demeure, comme en dialogue humain, supérieure à celle des actes. Nous allons donc valider ces résultats après la dernière passe de réannotation. Lévaluation porte alors sur cette dernière annotation et sur des tailles dhistoriques variant de un (les unigrammes, cest-à-dire la répartition statistique des actes dans le corpus) à huit (les octogrammes, la prédiction du huitième acte connaissant les 7 précédents). Les résultats sont donnés dans le REF _Ref74201283 \h Tableau 41 ci-après :
HistoriqueActesAttentesAssistant VirtuelUtilisateurAssistant VirtuelUtilisateurTauxNbTauxNbTauxNbTauxNb n=139,317849,224439,317849,2244 n=255,617852,124469,34991,897 n=348,317850,424453,26261,6130 n=451,117849,224450,77356,8162 n=551,717846,324453,68452,2186 n=651,717845,924453,58649,5200 n=751,117846,324452,89148,4215 n=850,017846,324452,29248,2220Tableau SEQ Tableau \* ARABIC 41 : Taux (%) de prédictions dacte et de prédiction dattentes et nombre à prédire.
Les résultats sont plus faibles quen dialogue humain. Néanmoins, si la différence est moins importante, elle nest pas nulle. Les attentes sont mieux prédites que les actes et en particulier celles qui portent sur lutilisateur. Lapproche par les attentes offre donc un gain non négligeable dans la prédiction de lacte en particulier celle du client qui est ici plutôt coopératif.
Conclusion en dialogue home-machine
Dans cette partie, nous nous sommes intéressés aux dialogues coopératifs de secrétariat virtuel avec des rôles non équivalents. Nous avons montré que, dans ce cadre, lacte suivant correspond le plus souvent à lattente la plus probable. Dans le cadre du dialogue homme-machine, cest, si possible, cet acte qui serait choisi, engendrant parfois quelques erreurs. Associé à un mécanisme de gestion des attentes, nous pourrions, en revanche, disposer dune plus grande souplesse dans la compréhension de lénoncé. Dès lors, les actes moins probables seraient envisageables. Le premier acte nétant pas toujours possible (nous ne comprenons pas tout), le deuxième pourrait être sélectionné. Nous pourrons donc proposer toutes les attentes avec leur probabilité dapparition voire affiner rétroactivement le contexte (intentionnel, cognitif et social) avec lacte effectivement choisi.
Conclusion dune modélisation stochastique
Suivant alors le protocole décrit dans [Fouquet 01], nous avons pu mettre en relief avec davantage de données la notion de rôle. Par exemple, nous avons pu souligner, que lorsque l'agent pose un faire-faire le client répond par un faire ou un faire-savoir. Mais lorsque c'est le client qui pose le faire-faire, l'agent peut aussi répondre par un faire-faire-savoir (8%).
Les résultats acte par acte sont présentés en détail en annexe. Ils comprennent les statistiques effectuées sur le corpus de dialogues homme-homme (pour Nespole! et pour PVE), sur le corpus de dialogues homme-machine dans le cadre des prétests et sur le corpus de dialogues homme-machine dans le cadre des tests. En outre, des combinaisons de ces corpus ont été effectuées. Nous renvoyons le lecteur à lannexe pour une comparaison des attentes, acte par acte. Notons cependant à titre dexemple les REF _Ref74201354 \h Figure 25 et REF _Ref74201578 \h Figure 26 ci-dessous :
Figure SEQ Figure \* ARABIC 25 : Comparaison de divers corpus pour les attentes après une demande dinformation de lagent
Cette figure confirme la coopérativité du client (en partie due à leffet expérimentation) qui adopte une stratégie plutôt réactive dans les trois types de dialogue.
Figure SEQ Figure \* ARABIC 26 : Comparaison de divers corpus pour les attentes après une demande dinformation du client
Cette figure est intéressante car on peut y observer une différence de comportement entre le dialogue homme-homme et homme-machine. En effet, lorsque le client demande une information, les deux résultats de dialogue homme-homme (Nespole! et Pve_Réel) sont similaires. Lagent qui est alors humain est plutôt réactif et répond à cette demande. En revanche, les résultats de PVE en dialogue homme-machine montrent que lagent (le compère simulant la machine) est davantage directif et demande davantage de précisions. En fait, le nombre de cas trouvés est relativement proche pour les deux réponses préférées (réponse et demande de précision), mais cette situation nous montre bien une différence du dialogue homme-machine surtout orienté par la tâche. En effet, Lagent est dirigé par cette tâche quil connaît et demande directement des précisions pour la résoudre de manière efficace.
Conclusions et perspectives
Nous avons montré lintérêt de notre approche ainsi que son originalité à travers la prise en compte des attentes du locuteur (et non plus seulement de celles de la machine). La notion dattente peut apporter des informations non seulement au niveau de la compréhension automatique mais aussi au niveau du contrôle du dialogue. Elle est donc intéressante pour le dialogue homme-machine dans lequel la machine doit pouvoir détecter les attentes de lhumain pour mieux y répondre. Les attentes seront donc considérées comme des indices pertinents pour la machine. Elles sont également fondées en dialogue homme-homme médiatisé par la machine, dans lequel elles apportent des indices au compère humain, puis à la machine.
Cette approche est issue de différentes disciplines. La sémiotique a offert la notation par combinaison des modaux de Greimas. La philosophie du langage a apporté une représentation des attentes sous une forme dérivée des actes de langage. Opérer à un niveau pragmatique permet en outre de rester indépendant de la tâche effectuée. Lethnométhodologie a apporté la notion de rôles que nous avons représentée de manière statistique. Enfin, la linguistique nous a permis de voir les attentes comme une liste décarts possibles incidents à laxe régissant de Luzzati.
Nous pensons donc que certains actes indirects posent des attentes tandis que dautres y répondent. Pour les premiers, nous avons établi des règles de la forme :
FfsA(p)ÞðFsB(p )ConnaissancesSupposéesA(p)Ùð ðCroyancesA(CoopèreB)ConnaissancesSupposéesB(p )Ùð ðStratégieB(réactif) Ùð CoopèreBÞðFfsB(p )ConnaissancesSupposéesB(p )Ùð ðStratégieB(Directif ( Coopératif) Ùð CoopèreBÞðØðFsB(p )ConnaissancesSupposéesB(p )Ùð ð(ðConnaissancesMisesAJourB(p ) ( Øð CoopèreB)Un acte dans un certain contexte cognitif produit un certain nombre d attentes en fonction du contexte cognitif supposé de l allocutaire, la stratégie qu il va employer, etc.
Lintroduction dune partie statistique nous a permis de classer les attentes en fonction des rôles et stratégies et ainsi dêtre plus efficace dans leur gestion. Nous avons alors présenté une approche à base de corpus dans le dialogue humain et dans le dialogue homme-machine. Les corpus obtenus ont été décrits avant de présenter lexpérimentation et la plate-forme de simulation en magicien dOz qui ont permis leur collecte. Pour les deux magiciens développés, nous avons montré que la théorie des attentes semble être une perspective intéressante pour améliorer lidentification des actes de dialogue et le contrôle du dialogue par la prédiction de lacte le plus attendu et des autres possibles. A partir des dialogues collectés, nous avons montré que les attentes dépendent des rôles et de la stratégie adoptée.
Lévaluation de la partie statistique du modèle a démontré lintérêt de notre approche. Elle a mis en avant la coopérativité du client qui a adopté une stratégie plutôt réactive. Elle a souligné une différence entre dialogue humain et dialogue homme-machine : notamment, suite à une demande dinformation, les réponses de la machine seraient davantage directives, cest à dire des demandes de précision. Nous pensons que ce résultat est lié au souci defficacité davantage présent en dialogue homme machine où lécart est peu permis et difficilement récupérable.
Ainsi, nous pouvons adopter une approche générique, avec une séparation de la tâche rendue possible. Notre approche par les attentes du locuteur est une première brique pour un modèle générique de dialogue. Un tel modèle pourra sinsérer dans de nombreuses applications dans lesquelles un dialogue peut améliorer la qualité dinteraction entre lutilisateur et la machine. En outre, une telle modélisation des attentes permettra deffectuer un suivi de dialogue dans un contexte homme-homme. Ce suivi montre tout son intérêt dans des cadres comme celui du projet ERIM dans lesquels un individu (ici linterprète) souhaite sadapter à une conversation en cours.
Limites
Un tel modèle avoue cependant quelques limites. Travailler à un niveau pragmatique permet de saffranchir au maximum de la tâche effectuée. Mais cela nécessite un fastidieux travail dannotation qui reste arbitraire, notamment au niveau du choix de lacte indirect. Nous avons par exemple commencé une annotation in vivo en associant lénoncé reçu à un unique acte indirect le représentant le mieux et correspondant le mieux à la suite supposée du dialogue. Nous avons alors observé une stratégie directive (question) là où il y avait souvent une stratégie coopérative (réponse puis question). Nous avons alors recommencé le travail dannotation en associant chaque portion remarquable de lénoncé à lacte indirect lui correspondant. Les statistiques obtenues sont donc dépendantes de lannotation en amont.
Le fait même dutiliser une méthode statistique apporte des faiblesses quant à la quantité de données nécessaires à la définition des probabilités. Ainsi, changer de domaine nous oblige à recommencer à suivre la méthodologie de collecte de corpus réel, annotation, analyse, construction dénoncés, élaboration dun magicien dOz, expérimentation, collecte de données homme-machine, annotation et analyse des dialogues obtenus. Nous pensons quon devrait pouvoir définir des classes dapplications pour lesquelles les répartitions dactes et les probabilités des attentes seraient similaires. Nous pensons notamment au modèle maitre-esclave dans lequel le maitre aura une stratégie davantage directive tandis que lesclave sera davantage réactif et au modèle maitre-maitre dans lequel la stratégie de négociation est nécessaire.
Enfin, les statistiques dépendent aussi des types dénoncés préétablis pour la machine.
Perspectives (mise en uvre)
Un dernier obstacle à notre modèle concerne la réalisation de lanalyse en actes. En effet, nous avons vu lintérêt dune notation pragmatique, mais sa réalisation est loin dêtre triviale. Nous avons choisi une approche par serveurs opportunistes. En effet, nous pensons que cest une bonne solution qui nous garantit un outil modulaire et réutilisable. De plus, cette architecture nous permet de nous affranchir de la tâche et de nous y adapter simplement puisque, opportuniste, notre modèle ne renvoie que le résultat de son calcul à un instant donné, tenant malgré tout compte des contextes intentionnel, cognitif et social comme montré dans notre ébauche de modèle. Nous pouvons observer cette architecture à travers le schéma suivant qui nous montre bien des serveurs opportunistes ( REF _Ref74322247 \h Figure 27) :
Figure SEQ Figure \* ARABIC 27 : Architecture du système - serveurs opportunistes
Dans cette architecture, lapplication cliente converse uniquement avec le serveur de dialogue qui traite le contrôle du dialogue à partir de lhistorique mais surtout des attentes. Devant la nécessité dutiliser une notation pragmatique, nous devons donc analyser les énoncés sous cet angle. Cest pourquoi nous envisageons un serveur dactes qui, à partir dun énoncé, devrait nous fournir lacte associé. Pour celui-ci, actuellement aléatoire pour les tests, nous pouvons utiliser lapproche de Colineau [Colineau 98] fondée sur les réseaux neuronaux pour évaluer lacte énoncé. Nous pouvons aussi utiliser une approche plus stochastique à travers une analyse sémantique latente (LSA). Ces approches, quoique demandant beaucoup de données afin détablir les liaisons, nous semblent suffisamment génériques car liées à un apprentissage qui peut être indépendant de la tâche. En revanche, nous avons besoin de lemmatiser lénoncé (i.e. de le transformer de sa forme originelle vers une forme générique non fléchie, donc de le normaliser) puis den établir les concepts qui devraient nous permettre délaborer les actes.
Lavantage dune telle architecture est son extrême adaptabilité à lapplication cliente. Nous le montrerons à travers linsertion du suivi de dialogue dans le projet ERIM dans lequel nous pourrons proposer lhistorique en termes dénoncés mais surtout en termes dactes et dattentes des participants. Dès lors, linterprète pourra sadapter plus vite à la conversation en cours lorsquil connaîtra les buts et attentes des participants qui ne se comprennent plus.
En parallèle, nous étudions pour le projet PVE les possibilités offertes par un nouveau standard vocal VoiceXML. En effet, celui-ci offre une architecture dans laquelle nous pouvons créer notre dialogue. Pour le moment, il nous semble trop proche des grammaires pour nous permettre doffrir un véritable dialogue qui ne soit pas uniquement directif. En revanche, y intégrer nos attentes nous permettrait dapporter une grande souplesse à un tel système.
Il nous faut finir la plate-forme modulaire par serveurs opportunistes. Nous nous intéresserons ensuite à la génération des concepts, à celle des actes puis à la gestion de lhistorique.
Nous étudions également leur intégration, en dialogue homme-machine, avec le modèle du contrôle de dialogue de Nguyen [Nguyen 03ab] et Caelen [Caelen & Nguyen 04] pour la partie contrôle du dialogue ainsi quavec le modèle dinterprétation de [Xuereb 04] et Caelen [Xuereb & Caelen 04] pour la partie interprétation pragmatique.
Perspectives (modèle)
Outre la mise en place de la gestion dattentes, nos perspectives sont laffinage de notre modèle à travers une prise en compte plus fine du contexte (échange, stratégie, but, etc.). Pour le moment, nous utilisons uniquement lattente la plus probable déduite de lacte porteur dattentes (cest-à-dire posant un but) issu de lhistorique. Une analyse plus fine incluant les stratégies révèle la première attente comme correspondant à une stratégie réactive et la deuxième comme correspondant à une stratégie coopérative. Une deuxième étape de l'expérimentation a consisté à mettre en valeur les phrases en fonction de la stratégie que le magicien décidera d'employer. Lorsque lutilisateur pose un faire-faire-savoir, nous devons alors mettre en valeur un faire-savoir (réactif) mais aussi un faire-faire-savoir (coopératif). Il sagira donc dutiliser les attentes déduites de lacte en cours et de la stratégie employée. Une autre perspective sera ensuite dutiliser lacte et la stratégie pour estimer la séquence dactes qui devrait se dérouler avant datteindre le but posé.
Nous lavons vu dans nos limites, notre modèle nécessite une approche à base de corpus. La charge de travail à fournir lorsque lon veut développer un système incluant ces attentes est donc loin dêtre faible. Or nous pensons que les dialogues peuvent se regrouper en classes afin dévaluer les probabilités pour les classes de dialogue et non pour chaque tâche. Nous avons par exemple relevé des dialogue de type maitre-esclave avec de la coopération et des dialogues de type maitre-maitre avec de la négociation. Il serait dailleurs intéressant de limiter lusage du magicien dOz par de lapprentissage automatique de la tâche.
Un autre intérêt de notre approche est de mettre en avant les situations de succession ne survenant jamais. Ce sont les zéros des matrices de cooccurence. Tenir compte de ceux-ci permet déviter de développer du temps danalyse dactes inutiles.
Enfin, nous pensons que notre théorie peut sappliquer à la partie génération du système de dialogue homme-machine ou du système de dialogue homme-homme médiatisé par la machine. En effet, nous utilisons actuellement des phrases à trous pour générer les énoncés. Nous pensons que les attentes peuvent assouplir ce fonctionnement. En effet, si les attentes de lutilisateur sont un nom dans une liste de noms, il nest pas nécessairement utile de lui fournir une phrase dintroduction longue mais il est sans doute plus efficace de lui fournir le nom uniquement. Cest cette efficacité que nous allons ensuite tester avec lintroduction des attentes en évaluation.
Perspectives (communication non verbale)
Une autre perspective nous semble très intéressante : le cas de la communication non verbale. Cest en ce sens que nous nous tournons vers le projet ACE (Agent Conversationnel Expressif) de dialogue avec avatar. Lobjectif scientifique de ce projet est dintégrer un ensemble déléments de communication non verbale à un dialogue multimodal dans le but daméliorer lefficacité de linteraction entre un agent conversationnel et ses utilisateurs. Son originalité réside dans le développement dun modèle de communication gestuelle générique, piloté par le dialogue et synchronisé avec les étapes de celui-ci, quil sagisse de dialogues dirigés par lagent conversationnel ou dirigés par lutilisateur. Dans le premier cas, lagent montre une continuité expressive au fur et à mesure de la progression du scénario de dialogue, dans le second cas, il exprime des émotions en réaction aux répliques de lutilisateur.
Une simulation avec une comédienne a été réalisée en septembre 2003 pour capturer les paramètres comportementaux de lagent en situation. Pour lévaluation ergonomique du nouvel agent communicationnel expressif évaluation en cours dont les résultats devraient être obtenus fin septembre 2004 -, nous avons développé une plate-forme de type magicien dOz intégrant la communication verbale et non verbale. Dans cette plate-forme, un compère manipule lagent conversationnel, faisant passer ce dernier pour un avatar aux yeux des sujets. Laide fournie par les attentes devrait être assez intéressante pour le compère mais aussi pour le système.
Des tests unitaires ont été élaborés, explorant lapport de la notion dattente dans le domaine de lévaluation de systèmes de dialogue avec une question quil convient de résoudre : « le système répond-t-il aux attentes de lutilisateur ».
Ces tests ont la forme dun questionnaire qui se déroule comme suit :
Une séquence contenant du dialogue et un avatar expressif gesticulant est présentée.
Des questions sont ensuite posées sur :
la compréhension de la séquence (test DQR)
les attendus ; ce que le sujet pense quil va se passer ensuite (test DAR)
les attentes ; ce que le sujet aimerait quil se passe ensuite (tests UARD).
Compréhension
Les tests de compréhension de la séquence (DQR) peuvent porter sur lacte ou sur létat psychologique de lagent :
L'agent a-t'il fait une suggestion ?
L'agent a-t'il fait une proposition ?
L'agent a-t'il émis un avertissement ?
L'agent est-il joyeux ?
L'agent est-il triste ?
L'agent est-il stressé ?
On présente alors un dialogue D à un utilisateur, puis une question Q dont on connaît la réponse « idéale » R. On la compare avec celle de lutilisateur RU.
D =
Q = est-ce un dialogue douverture ?
R = ouiouD =
Q = lagent est-il enjoué ?
R = ouimaisD =
Q = lagent est-il triste ?
R = nonAttendus
Le test sur les attendus fonctionne comme le test DQR, on demande seulement à lutilisateur ce qui va se passer après une séquence dialogique et on compare sa réponse avec laction effectuée par lagent. Il reflète donc ce que pense lutilisateur que la machine peut faire.
Est-ce un préambule à une aide ?
Nous pourrons ainsi proposer des questions de la forme :
D =
A = est-ce un préambule à une aide ?
RU = oui (R=non, car lagent est programmé pour demander le profil utilisateur)
Attentes
Enfin les tests sur les attentes reflètent ce que lutilisateur voudrait que la machine fasse. Lutilisateur a linitiative, il produit un énoncé, on lui pose une question sur ses attentes et on compare sa réponse avec laction de lagent. Ces questions peuvent être posées sur lacte attendu, sur létat psychologique (ou expression) attendu ou sur le geste attendu :
Bonjour je suis Yannick Fouquet
Vous attendez vous à une présentation de l'agent ?
Bonjour je suis Yannick Fouquet
Vous attendez vous à une ouverture sérieuse de l'agent ?
Bonjour je suis Yannick Fouquet
Vous attendez vous à un mouvement des bras de l'agent ?
Nous pourrons ainsi proposer des questions de la forme :
U = « bonjour, je suis Yannick Fouquet »
A = vous attendez vous à une présentation de lagent ?
RU = oui
D = (=> R=oui)
Ou
U = « bonjour, je mappelle Jean Caelen »
A = vous attendez-vous à une ouverture sérieuse de lagent ?
RU = oui
D = (=> R=non)
Ou
U = « bonjour, je mappelle Brigitte Meillon »
A = vous attendez-vous à un mouvement des bras de lagent ?
RU = oui
D = < Séquence douverture avec un agent joyeux> (=> R=non)
Si les statistiques dépendent des énoncés préétablis pour la machine, ces derniers tests permettent leur évaluation afin daméliorer leur pertinence et leur efficacité. En effet, les séquences D proposées sont en format XML, incluant une annotation en actes et état affectif. Les questions posées sont alors adaptées automatiquement aux informations recueillies dans les séquences afin de déterminer les faiblesses du système et de les résoudre.
Bilan général
Tout au long de cette thèse, nous nous sommes placé dans une double finalité daméliorer la qualité des interactions verbales entre les humains et la machine, et daméliorer celle de la communication langagière entre humains par le biais de la machine. Les attentes du locuteur sont intéressantes pour linterprétation pragmatique et pour le contrôle. Elles sappliquent au dialogue homme-homme ainsi quau dialogue homme-machine. Notre modèle pluridisciplinaire tente de reproduire au maximum le comportement humain en situation de dialogue finalisé. Il nécessite en revanche une analyse fine de corpus en situation, quil convient de généraliser pour des classes de tâches. Ce modèle permet alors dopérer à un niveau pragmatique et de nous abstraire au maximum de la tâche en cours pour une généricité maximale.
Nous adoptons une méthodologie qui implique la collecte et lanalyse de dialogues réels, puis la collecte et lanalyse de dialogues obtenus par le biais dune expérimentation en magicien dOz. Notre méthodologie de génération des attentes à partir du corpus est la suivante. En premier lieu, lenregistrement des dialogues permet de récupérer le corpus. Lannotation en actes nous permet dans un troisième temps de récupérer les successions dactes afin deffectuer un calcul des occurrences de chaque succession et de les stocker dans un fichier. En procédant ainsi, nous pouvons élaborer automatiquement les règles dassociation acte courant / attentes, mais aussi, par leur occurrence dans le corpus, les probabilités liées à ces règles.
Nous avons alors commencé à étudier lapport des attentes du locuteur dans le cadre de lévaluation de systèmes de dialogue homme-machine avec la question sous-jacente : « Le système répond-il aux attentes de lutilisateur ». Nous posons trois types de questions : sur la compréhension (ce que comprend lutilisateur de la situation ; compétences perçues du système), les attendus (ce à quoi sattend lutilisateur ; compétences supposées du système) et les attentes (ce quaimerait lutilisateur ; compétences voulues pour le système).
Enfin, le système utilise actuellement une génération à laide dun certain nombre de phrases à trous issues de la première analyse de dialogues en situation homme-homme. Nous allons essayer dappliquer notre théorie des attentes dans le cadre de la génération des énoncés.
Ainsi nous pourrons précisément proposer un modèle générique qui prenne en compte le locuteur et la tâche en cours, ce qui rend les perspectives dapplications infinies.
Références bibliographiques
[Allen & Litman 87]Allen J.F. & Litman D.J., A Plan Recognition Model For Subdialogues In Conversations. Cognitive Science 11, 2, 1987.[Allen & Perrault 80]Allen J.F. & Perrault C.R., Analyzing Intention In Utterances. Artificial Intelligence, N°15, 1980.[Asher 93]Asher N., Reference to Abstract Objects in Discourse. Kluwer Academic Publisher, 1993.[Asher 00]Asher N., Discourse Structure and the Logic of Conversation. 2000.[Asher & Lascarides 98]Asher N. & Lascarides A., Questions in Dialogue. Linguistics and Philosophy, 1998, 21:237-309.[Asher & Lascarides 03]Asher N. & Lascarides A., Logics of Conversation. Cambridge University Press, 2003.[Austin 62]Austin J.L., How To Do Things With Words. Oxford U.P., 1962.[Austin 70]Austin J.L., Quand dire cest faire. Edition Du Seuil, Paris 1970.[Bagein & al.00]Bagein M., Dutoit T., Malfrere F., Pagel V., Ruelle A., Tounsi N., Wynsberghe D., EULER, An Open, Generic, Multi-lingual and Multi-platform Text-to-Speech System. Proceedings from LREC 2000, Athens, pp.563-566, 2000.[Bange 92]Bange P., Analyse conversationnelle et théorie de l'action. Hatier, Paris, 1992.[Besacier & al. 01]Besacier L., Blanchon H., Fouquet Y., Guilbaud J.P., Helme S., Mazenot S., Moraru D., Vaufreydaz D., Speech translation for French in the Nespole! European project. Eurospeech, 2001.[Bilange 92]Bilange E., Dialogue personne-machine : modélisation et réalisation informatique. Paris, Hermès, 1992.[Boitet & al. 98]Boitet C., Caelen J., Courtin J., Coutaz J., Traduction de parole. In projet C-Star, 1998. [Brassac & Trognon 92]Brassac C., Trognon A., Lenchaînement conversationnel. Cahiers de linguistique française n°13, 1992, p. 76-107[Burger 97]Burger S., Morel C., Coletti P., Besacier L., Metze F., Nespole! Data Collection. Status Report, January 2001.[Caelen 92]Caelen J., Compte-rendu du « workshop » Interfaces homme-machine multimodales. GdR-PRC CHM sur le dialogue, Dourdan, 1992.[Caelen 95]Caelen J., Vers une logique dialogique. Séminaire international de pragmatique, Jérusalem, 1995.[Caelen 96a]Caelen J., Reconnaître et comprendre la parole. In Nouvelles interfaces homme-machine, Observatoire français des techniques avancées, Ofta, Paris, décembre 1996.[Caelen 96b]Caelen J., Reconnaître la parole cest la comprendre. In Numéro Spécial de la revue La recherche N°285, "Lordinateur au doigt et à lil", p. 62-65, mars 1996.[Caelen 97]Caelen J., Interaction verbale, Editions CEPADUES, 1997.[Caelen & Nguyen 04]Caelen J. & Nguyen H., Gestion de buts de dialogue. Actes de TALN2004, Fès, avril 2004.[Caelen & Villaseñor 97]Caelen J. & Villaseñor L., Dialogue homme-machine et apprentissage. Apprentissage par linteraction. (ed.) Khaldoun Zreik, p 83-117, Europia Productions, Paris, 1997.[Carberry 90]Carberry S., Plan Recognition In Natural Language. MIT Press, Cambridge, Mass., 1990.[Chevallier 92]Chevallier R., Mise en uvre dun modèle dynamique de dialogue dans un tuteur intelligent. Thèse de luniversité du Mans, 1992.[Chicoisne & Pesty 99]Chicoisne G. & Pesty S., Modèle de conversation & agents rationnels socialement corrects. In Actes de l'atelier la langue dans l'interaction personnes-machines, TALN'99, p. 91-104, Cargèse, 12-17 juillet 1999. [Clarkson & Rosenfeld 97]Clarkson P. & Rosenfeld R., Statistical Language Modeling using the CMU-Cambridge Toolkit. Eurospeech, 1997.[Cohen & Perrault 79]Cohen P.R. & Perrault C.R., Elements Of A Plan-Based Theory Of Speech Acts. Cognitive Science, 3(3) : p 177-212, 1979.[Cohen & Levesque 90a]Cohen P.R. & Levesque H.J., Persistence, Intention And Commitment. In Intentions in Communication, P.R. Cohen, J. Morgan & M.E. Pollack,(Eds.) The MIT Press, 1990.[Cohen & Levesque 90b]Cohen P.R. & Levesque H.J., Rational Interaction As The Basis For Communication. In Intentions in Communication, P.R. Cohen, J. Morgan & M.E. Pollack,(Eds.) The MIT Press, 1990.[Colineau 97]Colineau N., Etude des marqueurs discursifs dans le dialogue finalisé. Thèse de doctorat de sciences cognitives, Université Grenoble I, 1997.[Dupont 96]Dupont M., Le modèle des attentes du lecteur dans le calcul de la référence. Actes de RéciTAL'96, Courcelle, 25-27 septembre 1996, p. 155-160.[El-Bèze 93]El-Bèze M., Les modèles de langage probabilistes: quelques domaines d'application. Habilitation à diriger des recherches, LIPN (PARIS XIII), janvier 1993, 85p.[Falzon 89]Falzon P., Ergonomie cognitive du dialogue. Presses Universitaires de Grenoble, 1989.[Foltz 96]Foltz P., Latent Semantic Analysis for text-based research. Behavior Research Methods, Instruments & Computers, 28(2): p. 197-202, 1996.[Fouquet 01]Fouquet Y., De létude de dialogues oraux dans une langue non maternelle. Actes de Rencontre Jeunes chercheurs en Parole, Mons, septembre 2001.[Fouquet 02]Fouquet Y., Un modèle de dialogue par les attentes du locuteur, Actes de TALN2002, Nancy, juin 2002.[Fouquet 03]Fouquet Y., Le magicien dOz pour du dialogue oral : expérience avec un assistant virtuel en entreprise. Actes de Rencontre Jeunes chercheurs en Parole, Grenoble, septembre 2003.[Fouquet 04]Fouquet Y., Prédiction dactes et attentes en dialogue : expérience avec un assistant virtuel simulé. Actes de TALN2004, p. 193-198, Fès, avril 2004.[Frechet 92]Frechet A.-L., Analyse linguistique dun corpus de dialogue oral homme-machine. Thèse de doctorat linguistique, Université Paris 3 La Sorbonne Nouvelle, 1992.[Gasquet & Herzig 96]Gasquet O. & Herzig A., From classical to normal modal logics. In Heinrich Wansing editor, Proof Theory of Modal Logics, number 2 in Applied Logic Series, p. 293-311. Kluwer Academic Publishers, 1996.[Goffman 73]Goffman E., La mise en scène de la vie quotidienne. Éditions de Minuit, Paris, 1973.[Goffman 74]Goffman E., Les rites dinteraction. Éditions de Minuit, Paris, 1974. [Grau et al. 94]Grau B., Sabah G., Vilnat A., Pragmatique et dialogue homme-machine. Technique et science informatique, Vol. 13, n°1, p. 9-30, 1994.[Grice 68]Grice H.P., Utterer's Meaning, Sentence-Meaning, and Word-Meaning. Foundations of Language, (4):1-18, 1968.[Grice 75]Grice H.P., Logic And Conversation. in Cole P. and Morgan J.L., Syntax and Semantic, vol. 3, Speech Acts. Academic Press, p. 41-58, 1975.[Grice 79]Grice H.P., Logique et conversation. Communications, N° Spécial 30, Paris, Seuil, juin 1979, 57-72.[Grimaldi 93]Grimaldi L., Dialogue pédagogique en langue naturelle dans un système intelligent de communication de connaissances : Application à la résolution d'exercices au jeu déchecs. Thèse de doctorat dinformatique, Université Paris 6, 1993.[Grosz & Sidner 90]Grosz B.J. & Sidner C.L., Plans Of Discourse. In Intentions in Communication, P.R. Cohen, J. Morgan & M.E. Pollack.(Eds.) The MIT Press, 1990, Pp 417-444.[Halpern & Moses 92]Halpern J.Y. & Moses Y., A guide to completeness and complexity for modal logics og knowledge and belief. Artificial Inteligence, 54, 319-379, Elsevier Science Publishers, 1992.[Herzig & Longin 02 ]Herzig A., Longin D., Intention et principes de coopération pour le traitement des requêtes et des questions fermées au travers des assertifs. In Proc. 13ème Congrès Francophone AFRIF-AIFA de Reconnaissance des Formes et Intelligence Artificielle (RFIA'02), Angers, pages 221-230. AFRIF-AIFA, 8-10 janvier 2002.[Kerbrat-Orecchioni 80]Kerbrat-Orecchioni C., Lénonciation. Armand Colin éd., Paris, 1980, p19 1ère édition.[Kerbrat-Orecchioni 90]Kerbrat-Orecchioni C., Les interactions verbales. Tome 1, Armand Colin éd., Paris, 1990.[Landauer & Dumais 97]Landauer T. & Dumais S., A Solution to Platos Problem : The Latent Semantic Analysis Theory of Acquisition, Induction and Representation of Knowledge. Psychological Review, 1997, 104(2) p. 211-240.[Lehuen 97]Lehuen J., Un modèle de dialogue dynamique et générique intégrant lacquisition de sa compétence. Le système Coala. Thèse de doctorat, Université de Caen, juin 1997.[Lemeunier 98]Lemeunier T., AMI : un système de DHM expérimental qui apprend à s'adapter aux situations interactionnelles itératives. Actes de RéciTAL'98, Le Mans, septembre 1998.[Lemeunier 99]Lemeunier T., La modélisation des attentes dans le système AMI. Actes du colloque Récital'99, Cargese (Corse), pp. 439-443, 1999.[Lemeunier 00]Lemeunier T., Lintentionalité communicative dans le dialogue homme-machine en langue naturelle. Thèse de doctorat informatique, Université du Maine, Le Mans, 1er décembre 2000.[Lemeunier & Lehuen 99]Lemeunier T. & Lehuen J., Un modèle de génération des intentions de communication pour le dialogue homme/machine. Actes de TALN'99, Atelier "La langue naturelle dans l'interaction personne-machine", Cargèse, Corse, p. 12-17, juillet 1999.[Litman 85]Litman D.J., Plan Recognition And Discourse Analysis : An Integrated Approach For Understanding Dialogues. Thèse de luniversité de Rochester, 1985.[Litman & Allen 87]Litman D. & Allen J.F., A Plan Recognition Model For Subdialogues In Conversations. Cognitive Science. n°11, p. 163-200, 1987.[Litman & Allen 90]Litman D. & Allen J.F., Discourse Processing And Commonsense Plans. In Intentions in Communication, P.R. Cohen, J. Morgan & M.E. Pollack, (Eds.) The MIT Press, 1990, P. 365-388.[Luzzati 89]Luzzati D., Recherches sur le dialogue homme-machine : Modèles linguistiques et traitements automatiques. Thèse de doctorat, Université de la Sorbonne, 1989.[Luzzati 95]Luzzati D., Le dialogue verbal homme-machine, étude de cas. Collection sciences cognitives, Masson, 1995.[Champagne et al. 04]Champagne M., Herzig A., Longin D., Nespoulous J-L., Virbel J., Indirect speech acts: A multidisciplinary approach. In Jean Caelen, Denis Vernant and Daniel Vanderveken editors, Dialogue and Logic, Kluwer Academic Press, 2004. to appear.[Maybury 93]Maybury M.T., Intelligent Multimedia Interfaces. AAAI/MIT Press, USA, 1993.[Minker 96]Minker W., Compréhension automatique de la parole spontanée, 2-7384-7745-3, 1996.[Moeschler 89]Moeschler J., Marques linguistiques, interprétations pragmatiques et conversation. In Cahiers de linguistique française n°10, p.43-76, 1989.[Moeschler 91]Moeschler J., Lanalyse pragmatique des conversations. In Cahiers de linguistique française n°12, p.7-31, 1991.[Nerzic 93]Nerzic P., Erreurs et échecs dans le dialogue oral homme-machine : Détection et réparation. Thèse de doctorat, Université de Rennes, 1993.[Nguyen 03a]Nguyen H., Vers une architecture générique de système de dialogue oral homme-machine. Actes de Récital 2003, Batz-sur-Mer, 11-14 juin 2003.[Nguyen 03b]Nguyen H., Generic manager for spoken dialog systems. Proceedings of Diabruck 2003, Saarbrücken, 4-6 sept 2003.[Nicolle & Luzzati 99]Nicolle A., Luzzati D., La langue dans linteraction personnes/machines. Atelier thématique de TALN99, Cargèse, Corse, 1999.[Ozkan 94]Ozkan N., Analyse communicationnelle de dialogues finalisés. Thèse de 3ème cycle à l'Institut Polytechnique de Grenoble, 1994.[Piaget 64]Piaget J., Development and Learning, Piaget Rediscovered. Ripple R.E. and Roccastle V.N. ed., School of Education, Cornell University, Ithaca, New York, 1964.[Pierrel 87]Pierrel J.M., Dialogue oral homme-machine. Hermès, Paris, 1987.[Pierrel & Romary 97]Pierrel J.M. & Romary L., Quelles références dans les dialogues homme-machine ?. In Sabah G., Vivier J., Vilnat A., Pierrel J.M., Romary L., Nicolle A., Machine, langage et dialogue, figures de l'interaction, L'Harmattan, 1997.[Prendinger & Schurz 96]Prendinger H. & Schurz G., Reasoning about Action and Change, A Dynamic Logic Approach. Journal of Logic, Language, and Information, 5:209-245, 1996.[Rosenfeld 94]Rosenfeld R., Adaptative Statistical Language Modeling : A Maximum Entropy Approach. Thesis for the degree of Doctor of Philosophy, Carnegie Mellon University, 1994.[Rosenfeld 96]Rosenfeld R., A Maximum Entropy Approach to Adaptive Statistical Language Modeling. Computer, Speech and Language, 1996.[Rouillard & Caelen 98]Rouillard J. & Caelen J., Etude du dialogue homme-machine en langue naturelle sur le web pour une recherche documentaire. Deuxième colloque international sur l'apprentissage personne-système, Caps'98, Caen, juillet 98.[Rouillard 99]Rouillard J., Navigation versus dialogue sur le web, une étude des préférences. IHM'99, Montpellier, 1999.[Rouillard 00]Rouillard J., Hyperdialogue sur internet ; le système Halpin. Thèse de doctorat informatique, Université de Grenoble I, 2000.[Roulet & al. 85]Roulet E., Auchlin A., Moeshler J., Rubattel C., Schelling M., Larticulation du discours en français contemporain. Peter Lang, Berne, 1985.[Sabah 89]Sabah G., Lintelligence artificielle et le langage, processus de compréhension. vol. 2, Hermès, Paris, 1989.[Sabah & al. 97]Sabah G., Vivier J., Vilnat A., Pierrel J.M., Romary L., Nicolle A., Machine, langage et dialogue, figures de l'interaction. L'Harmattan, 1997.[Sabah 97a]Sabah G., La langue et la communication homme-machine, état et lavenir. In Sabah G., Vivier J., Vilnat A., Pierrel J.M., Romary L., Nicolle A., Machine, langage et dialogue, figures de l'interaction, L'Harmattan, 1997.[Sabah 97b]Sabah G., Apprentissage et traitement automatique des langues. dans Apprentissage par l'interaction, K. Zreik, Europia Productions, Paris, 1997.[Sadek 96]Sadek D., Le dialogue homme-machine : de lergonomie des interfaces à lagent intelligent dialoguant. In Nouvelles interfaces homme-machine, Série ARAGO, Observatoire français des technologies avancées, Paris, 1996.[Searle 72]Searle J.R., Les actes de langage : essai de philosophie du langage (trad. française par H. Pauchard). Paris, Hermann, 1972.[Shanks & Abelson 77]Shanks R. & Abelson R., Scripts plans goals and understanding, 1997.[Siroux & al. 89]Siroux J., Gilloux M., Guyomard M., Sorin C., Le dialogue homme-machine en langue naturelle : un défi ?. Annales télécommunication, 44, n° 1-2, 1989.[Sperber & Wilson 89]Sperber D. & Wilson D., La pertinence, communication et cognition. Les Éditions de Minuit, Paris, 1989.[Stein & Maier 95]Stein A. & Maier E., Structuring collaborative information-seeking dialogues, knowledge-based systems. Special issue on human-computer collaboration, vol.8, Elsevier Science B.V., March 1995.[Suchman 87]Suchman L.S., Plans and situated actions. Cambridge university press, 1987.[Trognon 95]Trognon A., Structures interlocutoires. Les cahiers de linguistique française, 17, p. 79-98, 1995.[Van der Hoek & al. 94a] Van der Hoek W., Van Linder B. & Meyer Ch. J.-J., A logic of capabilities. Proceedings of the third international symposium of logic foundations of computer science. LFCS, 94. (eds.) A. Nerode & Yu. V. Matiyasevich., St. Petersburg, july 11-14, Springer-Verlag, 1994.[Van der Hoek & al. 94b]Van der Hoek W., Van Linder B. & Meyer Ch. J.-J., Unraveling nondeterminism : on having the ability to choose. Proceedings of the sixth international conference on artificial intelligence : methodology, systems, applications, AIMSA94. (eds.) P. Jorrand & V. Sgurev., Sofia, septembre 21-24, World Scientific, 1994.[Van der Hoek & al. 94c]Van Linder B., Van der Hoek W. & Meyer Ch. J.-J., Communicating rational agents. Proceedings of the 18th german annual conference on artificial intelligence, KI-94 : Advances in artificial intelligence (eds.), B. Nebel & L. Dreschler-Fischer, Saarbrücken, septembre 18-23, Springer-Verlag, 1994.[Vanderveken 88]Vanderveken D., Les actes de discours. Pierre Margada éd. Bruxelles, 1988.[Vanderveken 90]Vanderveken D., La logique illocutoire. Mandarga éd. Bruxelles, 1990.[Vernant 92]Vernant D., Approche actionnelle et modèle projectif du dialogue informatif. In Du dialogue, recherches sur la philosophie du langage, Vrin, Paris, n° 14, p. 295-314, 1992.[Vernant 94]Vernant D., Dialectique, forme dialogale et dialogique. Actes du colloque Le dialogique, sur les formes philosophiques, littéraires, linguistiques et cognitives du dialogue, Le Mans, 1994.[Vernant 97a]Vernant D., Du discours à laction : études pragmatiques. Presses Universitaires de France, Paris, 1997.[Vernant 97b]Vernant D., Notes de cours de Pragmatique du dialogue, novembre 1997.[Villaseñor-Pineda 99]Villaseñor-Pineda L., Contribution à l'apprentissage dans le dialogue homme-machine. Thèse de doctorat informatique, Université de Grenoble I, 1999.[Vilnat 97]Vilnat A., Quels processus pour les dialogues homme-machine ?. In Sabah G., Vivier J., Vilnat A., Pierrel J.M., Romary L., Nicolle A., Machine, langage et dialogue, figures de l'interaction, L'Harmattan, Paris, 1997.[Vilnat & Nicaud 92]Vilnat A. & Nicaud L., Un système de dialogue homme-machine : STANDIA. Actes du séminaire Dialogue du GdR-PRC Communication homme-machine, Dourdan, 1992.[Vivier & Nicolle 97]Vivier J. & Nicolle A., Questions de méthode en dialogue homme-machine : lexpérience Compèrobot. In Sabah G., Vivier J., Vilnat A., Pierrel J.M., Romary L., Nicolle A., Machine, langage et dialogue, figures de l'interaction, L'Harmattan, 1997.[Weizenbaum 66]Weizenbaum J., Eliza - A Computer Program For The Study Of The Natural Language Communication Between Man And Machine. CACM n°9, 1966.[Wittgenstein 59]Wittgenstein L., Les jeux de langage. 1959.[Wittgenstein 58]Wittgenstein L., Philosophical investigations. Oxford, Basil Blackwell ed., 1958.[Woszczyna & al. 93]Woszczyna M., Coccaro N., Eisele A., Lavie A., McNair A., Polzin T., Rogina I., Rose C., Sloboda T., Tomita M., Tsutsumi J., Aoki-Waibel N., Waibel A., Ward W., Recent Advances in JANUS : A Speech Translation System. Eurospeech, 1993, vol. 2, p. 1295-1298.[Lamel & al. 91]Lamel L.F., Gauvain J.L., Eskénazi M., BREF, a Large Vocabulary Spoken Corpus for French. Eurospeech, Gênes, Italy, vol 2, p. 505-508, 24-26 september 1991.[Xuereb & Caelen 04]Xuereb A., Caelen J., Un modèle d'interprétation pragmatique en dialogue homme-machine basé sur la SDRT. Worshop SDRT, TALN 2004, Fès, 19-21 avril 2004.[Xuereb 04]Xuereb A., Pragmatique du dialogue homme-machine. rapport de Master informatique, Université Joseph Fourier, Grenoble, 2004.
Références non citées
Analyse de parole :
Lopez P., Fay-Varnier C., Roussalany A., Sous-langages dapplication et LTAG : le système EGAL. TALN 99.
Roussel D., Intégration de prédictions linguistiques issues dapplications à partir dune grammaire darbres hors-contexte. Contribution à lanalyse de la parole. Thèse de sciences cognitives, Grenoble, 1999.
Compréhension de parole :
Antoine J.-Y., Coopération syntaxe-sémantique pour la compréhension de la parole spontanée. Thèse de doctorat informatique, Grenoble, 1994
Dialogue :
Colineau N., Vers une compréhension des actes de discours. Rapport de DEA Sciences Cognitives, Grenoble, juin 1994.
Faure R., Herzig A., Longin D., Actes indirects et évolution des croyances. In Actes des 5èmes journées nationales du PRC-GDR Intelligence Artificielle, september 2000. Poster Session.
Ghiglione R. & Trognon A., Où va la pragmatique? : de la pragmatique a la psychologie sociale.
Grenoble, PUG , 1993 . - Collection : Vies sociales ; 7
Gouiaa M., Delisle S., Moulin B., analyse sémantique de dialogues oraux transcrits. TALN 99.
Herzig A., Longin D., Virbel J., Towards an analysis of dialogue acts and indirect speech acts in a BDI framework. In Massimo Poesio and David Traum, editors, Proc. 4th Workshop on the Semantics and Pragmatics of Dialogue (GÖTALOG 2000), june 2000.
Herzig A. & Longin D., C&L intention revisited. In Didier Dubois and Chris Welty editors, Proc. KR2004, 2004.
Hollard S., Analyse de dialogues finalisés dans le contexte de C-STAR. Journées Thématiques dArchamps Informatique et Linguistique, Archamps, 1998.
Hollard S. & Caelen J., Dialogues finalisés et organisation des connaissances en mémoire des locuteurs. Coling, 1998.
Imberdis L., Génération dactes de dialogue. rapport de DEA informatique, juin 1995.
Lehuen J., Nicolle A., Luzzati D., Un modèle hypothético-expérimental dynamique pour la gestion des dialogues homme-machine. RFIA, Rennes, éditeur Hermès Paris, 1996.
Lehuen J.& Luzzati D., Acquisition coopérative dune compétence langagière interprétative en dialogue homme machine. TALN 99, 1999.
Lemeunier T., Lusage de lhumour en informatique. Rapport de DEA, Le Mans, 1996.
Nicolle A. & Vivier J., Dialogue et apprentissage : humain/humain, humain/machine, machine/machine. CAPS'96, Caen, juillet 1996.
Rouillard J., Hyperdialogue homme-machine sur le World Wide Web : le système HALPIN. ERGOIA98, Biarritz, novembre 1998.
Rouillard J., Contribution à létude du dialogue Homme-Machine à travers le Web : la personnalisation. RECITAL98, Le Mans, septembre 1998.
Vivier J., Psychologie du dialogue homme machine en langage naturel. ISBN 2-909285-06-5, europia 1996.
Wlodarczyk A., La validation informative des énoncés et la quantification linguistique. 1999.
Wlodarczyk A., Sur les homotopies du topique et du focus. 2000.
Traduction de parole :
Boitet C., Caelen J., Fafiotte G., Keller E., Lafourcade M., Wehrli E., Integrating French within C-STAR II. Second report & demos of the CLIPS++ group., 1998, CLIPS, IMAG.
Site officiel de C-Star : HYPERLINK "http://www.c-star.org/"http://www.c-star.org
Site officiel de NESPOLE ! : HYPERLINK "http://nespole.itc.it/"http://nespole.itc.it/
Annexes
Statistique de cooccurrence des bi-grammes {Acte, Acte-suivant}
Réels HH de PVE : 29 dialogues - 4548 actes
Af(p)Afd(p)Aff(p)Affd(p)Affp(p)Affs(p)Afp(p)Afs(p)Cf(p)Cfd(p)Cff(p)Cffd(p)Cffp(p)Cffs(p)Cfp(p)Cfs(p)finTotalAf(p)009101192120080531187Afd(p)100001017001308464072Aff(p)3007011195200100014069Affd(p)00000003186000307097Affp(p) 0Affs(p)000003340110041840165Afp(p)1001012781110525471173Afs(p)20110327121201016801563Cf(p)9081502532020000252366Cfd(p)40250112600001022110125Cff(p)680000801600000008025Cffd(p)08900002200000220247Cffp(p)00000000000001000001Cffs(p)000307277000106120325Cfp(p)102020142190002012262109Cfs(p)1223043670011061901536debut00000059200020331205922220443413110723414548
Tests de PVE : 86 dialogues - 1604 actes
Af(p)Afd(p)Aff(p)Affd(p)Affp(p)Affs(p)Afp(p)Afs(p)Cf(p)Cfd(p)Cff(p)Cffd(p)Cffs(p)Cfp(p)Cfs(p)finTotalAf(p)200001325130601513922104Afd(p)02500000000002505004Aff(p)100304364501021113378Affd(p)20000400767401122046Affp(p)0000000000000010001Affs(p)000000001020202721250Afp(p)10000010902069113398Afs(p)1010020280161398202165Cf(p)1205101841020000024582Cfd(p)34019031313130000300332Cff(p)330270240262000000542Cffd(p)0100000000000000002Cffs(p)9013603812610003030233Cfp(p)8014303181430000031736Cfs(p)15011903561800002012262debut00000675180000010085Total605301661052301521651604
Réels HH + Pré-tests de PVE : 40 dialogues - 1184 actes
Af(p)Afd(p)Aff(p)Affd(p)Affs(p)Afp(p)Afs(p)Cf(p)Cfd(p)Cff(p)Cffd(p)Cffs(p)Cfp(p)Cfs(p)finTotalAf(p)000555500005556319Afd(p)00003600006111757035Aff(p)0007020067000007015Affd(p)000000009100044023Affs(p)000000200355877060Afp(p)10101011300492346099Afs(p)00125230314511601282Cf(p)0000401600048446025Cfd(p)3033375300303710330Cff(p)330011220110000022009Cffd(p)094003030000000032Cffs(p)003255750020062263Cfp(p)140021252110098018087Cfs(p)12236145500117350323debut002033311200000021742Total231258242313572731184
Total PVE : 113 dialogues - 5994 actes
Af(p)Afd(p)Aff(p)Affd(p)Affp(p)Affs(p)Afp(p)Afs(p)Cf(p)Cfd(p)Cff(p)Cffd(p)Cffs(p)Cfp(p)Cfs(p)finTotalAf(p)1041082781401272917192Afd(p)110001016001310462079Aff(p)20050321249011111131149Affd(p)10000102380106160145Affp(p)0000000000000010001Affs(p)000001121010132771419Afp(p)1000011491113019312255Afs(p)2011032612221326301656Cf(p)11069011419110001335150Cfd(p)1006411145000012191159Cff(p)460140180221000003367Cffd(p)0880000420000220252Cffp(p)0000000000001000001Cffs(p)406502025600005120562Cfp(p)10242092820100110166136Cfs(p)314409458000161701741debut000004711400022610117Total3122074283311922925994
Statistiques sur les attentes
PVE réel : 29 dialogues - 4548actes
Af(p)Afd(p)Aff(p)Affd(p)Affp(p)Affs(p)Afp(p)Afs(p)Cf(p)Cfd(p)Cff(p)Cffd(p)Cffp(p)Cffs(p)Cfp(p)Cfs(p)TotalAf(p) 21200805387Afd(p) 00130846472Aff(p) 520010001469Affd(p) 18600030797Affp(p) 0Affs(p) 011004184165Afp(p) 8111052547173Afs(p) 12120101681563Cf(p)9081502532 66Cfd(p)4025011260 125Cff(p)6800008016 25Cffd(p)089000022 47Cffp(p) 1Cffs(p)000307277 325Cfp(p)10202014219 109Cfs(p)122304367 1536debut00000059200020331259fin 292222044341311072344548
Analyse des résultats dattentes acte par acte pour les différents corpus
1. Actes posant des attentes
Faire-faire
Côté Agent :
Côté client :
Faire-faire-savoir
Côté agent :
Côté client :
Faire-faire-devoir
Côté agent :
Côté client :
Faire-faire-pouvoir (quasiment inexistant dans nos dialogues)
Côté agent :
Côté client :
2. Actes répondant à des attentes
Faire-faire
Côté Agent :
Côté client :
Faire-savoir
Côté Agent :
Côté client :
Faire-devoir
Côté Agent :
Côté client :
Faire-pouvoir
Côté Agent :
Côté client :
Instructions à suivre pour le système PVE
Selectionner le nom de machine correspondant au serveur dactes
Se connecter au serveur dactes (une fois connecté le bouton reste enfoncé)
Decrocher (quand on est prêt)
Attendre que le client aie décroché (client passe au vert)
Selectionner la tâche en cours
Selectionner la phase (ouverture, cloture
)
Selectionner le label voulu
Selectionner la phrase correspondante (elle saffichera dans la zone du bas)
Choisir éventuellement les paramètres
Envoyer
Attendre réponse
Raccrocher (pve passera au rouge)
Lexpérimentateur qui simule le système exécute le script concernant la partie magicien-secrétaire du système. Linterface ci-dessus lui est alors proposée. Il doit alors, dans une perspective dannotation in vivo en actes de dialogue, se connecter au serveur dactes. Pour cela, il sélectionne le nom de la machine sur laquelle tourne ce serveur (1), et sy connecte en appuyant sur le bouton ad-hoc (2). Si une telle annotation nest pas souhaitée (pour les tests par exemple), ces deux premières étapes ne sont pas nécessaires. Dune manière générale, il devra décrocher lorsquil sera en mesure de dialoguer (3) et raccrocher lorsquil estime que le dialogue est terminé (12). Son avatar (pve) changera alors de statut pour indiquer aux autres participants quil est ouvert au dialogue (vert) ou pas (rouge). Lorsquil a indiqué quil était en mesure de dialoguer (donc pve en vert), lexpérimentateur attend que le client aie décroché, cest à dire que son avatar (client) sur linterface passe au vert (en mesure de dialoguer). Sensuit alors le dialogue entre les deux interlocuteurs.
Lexpérimentateur sélectionne dès que nécessaire la tâche en cours (5). Par défaut, il aura les informations voulues au début du dialogue (à louverture) dans la partie omnitâche en attendant que lutilisateur émette le souhait daborder une nouvelle tâche (à nimporte quel moment du dialogue). Par la suite, il naura à sélectionner la tâche que si lutilisateur en a émis le souhait.
Il sélectionne alors la phase dans laquelle se situe cette portion de dialogue (6). Par défaut, au début du dialogue, la phase douverture est sélectionnée. Par la suite, la phase est conservée jusquà ce que lexpérimentateur souhaite en changer.
Saffichent alors les étiquettes concernant les énoncés possibles en fonction de la tâche et de la phase sélectionnées. Elles ont une forme condensée afin de diminuer la charge cognitive de lexpérimentateur. Par exemple, il verra « pas dispo » au lieu de « [sexe][nom] nest pas disponible pour le moment ; [sexe][nom] nest pas disponible à ce moment là ». Il doit donc sélectionner létiquette voulue (7). Un menu contextuel apparaîtra montrant les énoncés correspondants (cf. exemple ci-dessus) lui permettant de choisir précisément lénoncé quil souhaite envoyer à lutilisateur (8). Cette phrase saffiche alors dans la zone du bas (par exemple « [sexe][nom] nest pas disponible pour le moment »). Une autre zone en dessous permet de visualiser la phrase obtenue après remplacement des paramètres par leur valeur (par exemple « monsieur Dupond nest pas disponible pour le moment »). Les paramètres ont des valeurs par défaut. Il nest donc pas toujours nécessaire de les changer. Mais dans le cas contraire, il suffit de sélectionner les paramètres et leur valeur (ici choisir monsieur Dupond dans lannuaire) pour que ces paramètres soient modifiées (9). La zone du bas affichera donc lénoncé prêt à être envoyé. Il suffit alors, après vérification, denvoyer lénoncé à lutilisateur (10) puis dattendre la réaction de lutilisateur (11). Lénoncé de lutilisateur saffichera alors dans lhistorique et lexpérimentateur reprendra la boucle de dialogue à partir du (5). A la fin du dialogue, cest à dire lorsque lutilisateur a raccroché (licône client est passée au rouge) considérant que le dialogue est terminé, lexpérimentateur raccroche (12) à son tour (son avatar passe au rouge). Il recommencera au (3) lorsquil sera de nouveau disponible.
Les interlocuteurs sont en ligne (leur avatar est vert et le bouton raccrocher est enfoncé). Lénoncé de lutilisateur est dans lhistorique. Lexpérimentateur a sélectionné Pas dispo parmi les étiquettes proposées (et soulignées) pour faire apparaître le menu lui permettant de choisir la phrase quil souhaite répondre à lutilisateur. Il a ensuite sélectionné la première. Celle-ci sest affichée en bas tandis que le menu sest masqué. Il a alors sélectionné monsieur Dupond dans lannuaire (dans notre exemple monsieur Dupond nétait pas encore sélectionné sinon cette étape est inutile) pour construire sa réponse. Il lui suffit maintenant denvoyer lénoncé au client.
Système de Reconnaissance + Synthèse
Interface « Client »
Dialogue complet vu de lannotateur
Enoncés proposés au contrôleur
[OMNITACHE]
0=D=Afp(p)=Ouverture="Bonjour, ici l'assistante virtuelle Vocalisa. (Quelle est votre demande ?/Quel est le motif de votre appel, s'il vous plait ?)"
1=D=Affs(p)=Nom?="(C'est à quel/Quel est votre) nom ?"
1=D=Affs(p)=UnNom?="indiquez moi l'un des noms"
1=D=Affs(p)=Epelez!="Pouvez-vous épeler s'il vous plait ?"
2=D=Affs(p)=Répetez!="(Pouvez-vous répéter s'il vous plait ? /Veuillez m'excuser, je vais vous demander de répéter à nouveau.)"
5=D=Afp(p)=Reprenons!="Alors, reprenons, si vous le voulez bien"
6=D=Afd(p)=Au Revoir="Au revoir ([sexe])"
2=D=Afs(0)=--Je regarde agenda--="je consulte l'agenda"
2=D=Aff(p)=--Attendez!--="(Alors) attendez une minute s'il vous plait"
4=C=Affs(p)=Vos coordonnées="Au cas où j'aurais besoin de vous joindre, quel est votre (numéro de téléphone/adresse électronique) ?."
4=C=Affs(p)=Nos coordonnées?="Avez-vous nos coordonnées ?"
5=R=Afs(p)=Vocalisa="Je m'appelle Vocalisa"
5=R=Afs(p)=Je sais
="Je m'occupe du standard, des prises de rendez-vous et des réservations de salle, etc."
5=R=Afs(p)=Désolé="(Excusez-moi/Désolée)"
5=R=Afs(p)=Merci="Merci"
5=R=Afs(p)=De rien="Je vous en prie"
5=R=Afs(p)=Oui="(Oui/okay) (d'accord)"
5=R=Afs(p)=Non="non"
5=R=Afs(p)=Notre Fax="C'est le 04 76 63 55 52"
5=R=Afs(p)=Notre Courriel="C'est vocalisa arobasse imag point f r"
5=R=Afs(p)=Notre adresse="C'est sur le domaine universitaire de Grenoble (au 220, rue de la chimie au premier étage)."
5=R=Afs(p)=Au TRAM="C'est au terminus de la ligne B du tramway."
5=R=Afs(p)=Pas gentil="(Ce n'est pas gentil!/Vous m'avez coincée! Vous l'avez fait exprès ?)"
5=R=Afs(p)=Pas possible="Je suis désolée, (ça ne va pas être possible/je ne peux pas répondre à votre demande)."
5=R=Afs(p)=Vraiment pas possible="(Désolée, je n'ai pas les éléments pour vous répondre. Voulez-vous que je vous passe [sexe] [nom], la personne compétente./Je suis obligée d'interrompre notre entretien ! Au revoir !)"
5=D=Affs(p)=Autre demande ?="(Avez-vous une autre demande/Desirez-vous autre chose) ?"
[STAND]
3=D=Aff(p)=MSG (début...fin)="(Je vous écoute, veuillez parler après le bip sonore/Votre message est enregistré)"
2=D=Affs(p)=Qui?="qui voulez-vous joindre ?"
2=D=Affs(p)=C'est Perso?="C'est personnel (ou professionnel) ?"
2=D=Affs(p)=De qui?="C'est de la part de qui ?"
3=D=Affs(p)=Rappelez + tard!="Pouvez-vous rappeler plus tard ?"
3=C=Affs(p)=Son poste direct?="Avez-vous essayé son poste direct ?"
3=C=Afs(p)=Mais joignable + tard="Cette personne sera joignable ([joursemaine] [jourmois]/[moment])"
3=C=Afs(p)=Mais autre pers="Je peux vous passer un autre membre de son équipe, par exemple [sexe] [nom]."
3=C=Afs(p)=Mais MSG ?="Si vous voulez, je peux prendre un message."
5=R=Afs(p)=Pas chez nous="(Cette personne n'est pas chez nous/Ah ! Ce n'est pas ici !)"
5=R=Afs(p)=Pas dispo="[sexe] [nom] n'est pas disponible (pour le moment/ à ce moment-là)"
5=R=Afs(p)=Je vous le passe="Un instant, je vous passe votre correspondant(e) ([sexe] [nom])."
5=R=Afs(p)=C'est occupé="(son poste est occupé/ça ne répond pas)."
5=R=Afs(p)=Son numéro="Je vais vous donner son numéro (de portable/ de poste). C'est le [annuaire]"
5=R=Afs(p)=Son courriel="Je vous donne son (mail/ courriel). C'est [nom] arobasse imag point f r"
5=R=Afs(p)=Son site="Je vais vous donner le site internet. C'est [adressesite]"
[RDV]
2=D=Affs(p)=Avec Qui?="Avec quelle personne ?"
2=D=Affs(p)=C'est Perso?="C'est personnel (ou professionnel) ?"
2=D=Affs(p)=De qui?="C'est de la part de qui ?"
2=D=Affs(p)=Date/jour?="(Ce serait pour) quelle (date/jour) ?"
2=D=Affs(p)=Heure?="(Ce serait pour) quelle heure ?"
2=D=Affs(p)=Moment?="à quel moment ?"
2=D=Affs(p)=Combien de tps?="(Ce serait pour) combien de temps ?"
5=D=Affd(p)=Résumé?="Nous disons donc [joursemaine] [jourmois] à [heure] [minutes] (salle B2) (avec [sexe] [nom]) ?"
3=C=Affs(p)=RDV prop°="Je peux vous proposer [joursemaine] ([jourmois] à [heure] [minutes]/ [moment]). (Qu'est-ce qui/Est-ce que cela) vous conviendrait ?"
3=C=Affs(p)=RDV 10 min.="Si ça ne dépasse pas dix minutes, je peux vous mettre [joursemaine] ([jourmois] à [heure] [minutes]/ [moment] )"
3=C=Affs(p)=RDV autre pers="Vous pourriez rencontrer un autre membre de son équipe, par exemple [sexe] [nom]."
5=R=Afs(p)=Pas chez nous="(Cette personne n'est pas chez nous/Ah ! Ce n'est pas ici !)"
5=R=Afs(p)=Pas dispo="Cette personne n'est pas disponible (pour le moment/ à ce moment-là)"
5=R=Afs(p)=Les dispos sont="Les disponibilités de [sexe] [nom] sont (lundi et mardi/en fin de semaine)"
5=R=Afs(p)=Les créneaux pris sont="Les créneaux déjà pris sont [joursemaine] ([jourmois] à [heure] [minutes]) (avec [sexe] [nom])"
5=R=Afp(p)=Résumé="Nous disons donc [joursemaine] [jourmois] à [heure] [minutes] (salle B2) (avec [sexe] [nom])"
5=R=Af(p)=C'est noté="C'est noté"
[RESA]
2=D=Affs(p)=Date?="(Ce serait pour) quelle date (précisément) ?"
2=D=Affs(p)=Jour?="(Ce serait pour) quel jour (précisément) ?"
2=D=Affs(p)=Heure?="(Ce serait pour) quelle heure (précisément) ?"
2=D=Affs(p)=Moment?="à quel moment ?"
2=D=Affs(p)=Combien de tps?="(Ce serait pour) combien de temps ?"
2=D=Affs(p)=Matos?="Avez-vous besoin du matériel de projection ?"
5=D=Affd(p)=Confirmez!="Pouvez-vous m'envoyer une confirmation par fax ou par courriel, s'il vous plait ?"
5=D=Affd(p)=Résumé?="Nous disons donc [joursemaine] [jourmois] à [heure] [minutes] (salle B2) ?"
3=C=Affs(p)=Mais pour 25 (prof)="J'aurais une salle pour vingt-cinq personnes [joursemaine] ([jourmois] à [heure] [minutes] /[moment]), sinon la salle de trente personnes sera libre (lundi/mardi) prochain."
3=C=Affs(p)=Mais sans matos(étud.)="J'aurais une salle à ce moment là mais sans rétro-projecteur, sinon la salle avec rétro-projecteur sera libre [joursemaine] ([jourmois] à [heure] [minutes]/ [moment])"
3=C=Affs(p)=Salle?="Voulez-vous la salle de vingt-cinq places ou celle de trente places ?"
5=R=Afs(p)=SalleB2="La salle B2."
3=R=Afs(p)=Matos="Cette salle possède seulement un rétroprojecteur"
5=R=Afp(p)=Résumé="Nous disons donc [joursemaine] [jourmois] à [heure] [minutes] (salle B2)"
5=R=Af(p)=C'est noté="C'est noté"
[COM-info]
0=D=Afp(p)=PresentVocalisa="Bonjour, ici Vocalisa, la secrétaire virtuelle. J'ai un message à vous transmettre"
1=D=Aff(p)=Identification="Pouvez-vous prononcer (votre nom/identificateur) s'il vous plait ?"
1=D=Aff(p)=Repetition?="Pouvez-vous répéter votre (nom/identificateur) s'il vous plait ?"
5=R=Afs(p)=Info="Vous êtes convoqué à une réunion d'équipe pour le projet PVE, samedi prochain, de neuf heures à midi, dans la salle de conférences."
5=R=Afs(p)=Info_jour="Samedi prochain, le 22"
5=R=Afs(p)=Info_heure="De neuf heures à midi"
5=R=Afs(p)=Info_ou="Dans la salle de conférences."
5=R=Afs(p)=Info_resume="(réunion PVE) samedi prochain, le 22, de neuf heures à midi, dans la salle de conférences."
5=R=Afs(p)=Info_qui="Toute l'équipe sera là sauf monsieur Dupuis."
4=C=Afs(p)=Complement-info="Il s'agit de revoir le cahier des charges du projet PVE pour l'adapter à un nouveau contrat proposé par un partenaire chinois"
2=D=Affs(p)=Présent?="Serez-vous présent à cette réunion ?"
5=C=Affs(p)=NotéPrésent="Je note donc que vous serez présent samedi prochain. Est-ce correct ?"
5=C=Affs(p)=NotéPasPrésent="Je note donc que vous (ne serez pas présent/serez absent) samedi prochain. Est-ce correct ?"
[RSG_agd]
1=D=Aff(p)=identification="Pouvez-vous me donner votre (nom/identificateur) s'il vous plait ?"
1=D=Aff(p)=répétition?="Pouvez-vous répéter votre (nom/identificateur) s'il vous plait ?"
2=C=Aff(p)=Précis/Identif="Pouvez vous m'en dire un peu plus s'il vous plait ?"
1=C=Affs(p)=confirmation="Pouvez-vous s'il vous plait confirmer cette opération en prononçant le mot : valide ?"
2=C=Afs(p)=bienvenue="Bienvenu [sexe] [nom]. Quelle opération voulez-vous faire ?"
2=C=Afp(p)=opérations="Vous pouvez effectuer des opérations telles que : consulter, ajouter, annuler, déplacer, modifier un horaire d'une réunion ou d'un rendez-vous. Quelle opération voulez-vous faire ?"
5=C=Afs(p)=autre modification?="Voulez-vous mettre à jour autre chose dans votre agenda ?"
5=C=Afs(p)=liste_disponibilités="Vos (disponibilités/créneaux pris) sont toute la semaine sauf [joursemaine]."
5=C=Affs(p)=Prévenir?="Votre information est enregistrée. Si vous souhaitez que je me charge de la transmettre, veuillez me dire à qui. Je vous écoute"
5=C=Affs(p)=Transmettre?="Voulez-vous que je me charge de transmettre l'information ?"
5=C=Affs(p)=Rendre compte?="Entendu! Je contacterai (cette personne/ces personnes). Dois-je vous rappeler pour vous en rendre compte ?"
5=R=Afs(p)=Les dispos sont="Les disponibilités de [sexe] [nom] sont (lundi et mardi/en fin de semaine)"
5=R=Afs(p)=Les créneaux pris sont="Les créneaux déjà pris de [sexe] [nom] sont [joursemaine] ([jourmois] à [heure] [minutes]) (avec [sexe] [nom])"
0=C=Afd(p)=Cpte rendu OK="Bonjour, ici Vocalisa, la secrétaire virtuelle. Votre information a bien été transmise à vos correspondants."
0=C=Afd(p)=Cpte rendu Pb="Bonjour, ici Vocalisa, la secrétaire virtuelle. Votre information a bien été transmise à vos correspondants, sauf à monsieur Dupont, qui n'est pas joignable avant le mois prochain."
3=C=Afs(p)=mais autre créneau="Je peux vous proposer [joursemaine] [jourmois] à [heure] par exemple."
5=C=Afd(p)=consult_RDV/réunion="(Ce rendez-vous est prévu/cette réunion est prévue) pour [joursemaine] [jourmois] à [heure] avec [sexe] [nom]."
0=R=Afs(p)=info-modif="Je vous informe que (la réunion prévue/le rendez-vous prévu) [joursemaine] [jourmois] à [heure] avec [sexe] [nom] est (annulé/déplacé)."
1=R=Afs(p)=code bon_érroné="Ce code est (bon/érroné)."
5=R=Afs(p)=Mr Pas dispo="[sexe] [nom] (est/n'est pas) disponible à ce moment-là"
5=R=Afs(p)=dispo_déjà pris="Ce créneau est (disponible/déjà pris)."
2=D=Affs(p)=Date/jour?="(Ce serait pour) quelle (date/jour) ?"
2=D=Affs(p)=Heure?="(Ce serait pour) quelle heure ?"
2=D=Affs(p)=Moment?="à quel moment ?"
2=D=Affs(p)=Combien de tps?="(Ce serait pour) combien de temps ?"
2=D=Affs(p)=Avec Qui?="Avec quelle personne ?"
5=D=Affd(p)=Résumé?="Nous disons donc [joursemaine] [jourmois] à [heure] [minutes] (salle B2) (avec [sexe] [nom]) ?"
3=C=Affs(p)=RDV prop°="Je peux vous proposer [joursemaine] ([jourmois] à [heure] [minutes]/ [moment]). (Qu'est-ce qui/Est-ce que cela) vous conviendrait ?"
3=C=Affs(p)=RDV 10 min.="Si ça ne dépasse pas dix minutes, je peux vous mettre [joursemaine] ([jourmois] à [heure] [minutes]/ [moment] )"
3=C=Affs(p)=RDV autre pers="Vous pourriez rencontrer un autre membre de son équipe, par exemple [sexe] [nom]."
5=R=Af(p)=C'est noté="C'est noté"
5=R=Af(p)=confirm="(Votre/l') agenda est mis à jour."
5=R=Afd(p)=confirmRemplace="[sexe] [nom] vous remplacera [joursemaine] [jourmois] à [heure] [minutes]"
[ENV-doc]
2=D=Affs(p)=Envoi où?="(Où dois-je envoyer ce document/Pouvez-vous préciser l'adresse) ?"
5=C=Affs(p)=Transmettre?="Voulez-vous que je me charge de transmettre votre document ?"
5=R=Afs(p)=Envoi ok="(Entendu je m'occupe de cet envoi/Oui, je vais le faire)."
5=R=Afs(p)=Attente doc="J'attends votre document."
2=C=Afd(p)=dernière version="La dernière version date d'aujourd'hui (à [heure] [minutes]
Liste des mots phonétisés et classes
{$} {SIL}
{(} {SIL}
{)} {SIL}
{-} {SIL}
{.} {SIL}
{} {SIL}
{FERMETURE} {{b WB} p t k g {f WB}}
{FERMETURE(adieu)} {{a WB} d j {2 WB}}
{FERMETURE(adios)} {{a WB} d j O {s WB}}
{FERMETURE(au_revoir)} {{o WB} R 2 v w a {R WB}}
{FERMETURE(bonne_journée)} {{b WB} O n Z u R n {e WB}}
{FERMETURE(bonne_soirée)} {{b WB} O n s w a R {e WB}}
{FERMETURE(bye)} {{b WB} a {j WB}}
{FERMETURE(bye_bye)} {{b WB} a j b a {j WB}}
{FERMETURE(bye_bye_2)} {{b WB} a b a {j WB}}
{FERMETURE(ciao)} {{t WB} Z a {o WB}}
{FERMETURE(ciao_2)} {{t WB} Z {o WB}}
{FERMETURE(bonsoir)} {{b WB} on s w aA {R WB}}
{FERMETURE(salut)} {{s WB} a l {y WB}}
{FERMETURE(à_bientôt)} {{a WB} b i an t {o WB}}
{FERMETURE(à_ce_soir)} {{a WB} s 2 s w a {R WB}}
{FERMETURE(à_cet_après_midi)} {{a WB} s e t a p R E m i d {i WB}}
{FERMETURE(à_demain)} {{a WB} d 2 m {in WB}}
{FERMETURE(à_la_semaine_prochaine)} {{a WB} l a s 2 m E n p R o S E {n WB}}
{FERMETURE(à_plus)} {{a WB} p l y {s WB}}
{FERMETURE(à_plus_tard)} {{a WB} p l y t a {R WB}}
{FERMETURE(à_tout_à_l'heure)} {{a WB} t u t a l 9 {R WB}}
{FERMETURE(à_tout_de_suite)} {{a WB} t u d 2 s y i {t WB}}
{FERMETURE(à_toute_allure)} {{a WB} t u t a l y {R WB}}
{GENRE} {{b WB} p t k g {f WB}}
{GENRE(madame)} {{m WB} a d a {m WB}}
{GENRE(madame_2)} {{m WB} aA d aA {m WB}}
{GENRE(madame_3)} {{m WB} aA d aA m {& WB}}
{GENRE(madmoiselle)} {{m WB} a d m w a z E l {l WB}}
{GENRE(mademoiselle)} {{m WB} a d & m w a z E l {l WB}}
{GENRE(mesdames)} {{m WB} E d a {m WB}}
{GENRE(messieurs)} {{m WB} e s j {2 WB}}
{GENRE(monsieur)} {{m WB} & s j {2 WB}}
{MOMENT} {{b WB} p t k g {f WB}}
{MOMENT(année)} {{a WB} n {e WB}}
{MOMENT(année_2)} {{aA WB} n {e WB}}
{MOMENT(après-demain)} {{a WB} p R E d 2 m {in WB}}
{MOMENT(après-midi)} {{a WB} p R E m i d {i WB}}
{MOMENT(aujourd'hui)} {{o WB} Z u R d y {i WB}}
{MOMENT(demain)} {{d WB} & m {in WB}}
{MOMENT(demain_2)} {{d WB} m {in WB}}
{MOMENT(hier)} {{j WB} E {R WB}}
{MOMENT(hier_2)} {{i WB} j E {R WB}}
{MOMENT(hier_3)} {{i WB} E {R WB}}
{MOMENT(jour)} {{Z WB} u {R WB}}
{MOMENT(matin)} {{m WB} a t {in WB}}
{MOMENT(matin_2)} {{m WB} aA t {in WB}}
{MOMENT(mois)} {{m WB} w {a WB}}
{MOMENT(mois_2)} {{m WB} w a {z WB}}
{MOMENT(mois_3)} {{m WB} w {aA WB}}
{MOMENT(nuit)} {{n WB} H {i WB}}
{MOMENT(soir)} {{s WB} w a {R WB}}
{MOMENT(soir_2)} {{s WB} w aA {R WB}}
{MOMENT(soirée)} {{s WB} w a R {e WB}}
{MOMENT(tout_à_l'heure)} {{t WB} u t a l 9 {R WB}}
{MONAIE} {{b WB} p t k g {f WB}}
{MONAIE(dollars)} {{d WB} O l a {R WB}}
{MONAIE(euro)} {{9 WB} R {o WB}}
{MONAIE(euros)} {{9 WB} R {o WB}}
{MONAIE(franc)} {{f WB} R {an WB}}
{MONAIE(franc_2)} {{f WB} R an {k WB}}
{MONAIE(francs)} {{f WB} R {an WB}}
{MONAIE(francs_2)} {{f WB} R an {z WB}}
{NOM_JOUR} {{b WB} p t k g {f WB}}
{NOM_JOUR(dimanche)} {{d WB} i m an {S WB}}
{NOM_JOUR(dimanche_2)} {{d WB} i m an S {& WB}}
{NOM_JOUR(jeudi)} {{Z WB} 2 d {i WB}}
{NOM_JOUR(jeudi_2)} {{Z WB} 29 d {i WB}}
{NOM_JOUR(lundi)} {{l WB} un d {i WB}}
{NOM_JOUR(mardi)} {{m WB} a R d {i WB}}
{NOM_JOUR(mardi_2)} {{m WB} aA R d {i WB}}
{NOM_JOUR(mercredi)} {{m WB} E R k R & d {i WB}}
{NOM_JOUR(mercredi_2)} {{m WB} e R k R & d {i WB}}
{NOM_JOUR(mercredi_3)} {{m WB} E R k R & d {i WB}}
{NOM_JOUR(samedi)} {{s WB} a m & d {i WB}}
{NOM_JOUR(samedi_2)} {{s WB} a m d {i WB}}
{NOM_JOUR(samedi_3)} {{s WB} aA m & d {i WB}}
{NOM_JOUR(vendredi)} {{v WB} an d R & d {i WB}}
{NOM_JOUR(vendredi_2)} {{v WB} an d R & d {i WB}}
{NOM_LIEU} {{b WB} p t k g {f WB}}
{NOM_LIEU(avenue)} {{a WB} v & n {y WB}}
{NOM_LIEU(avenue_2)} {{aA WB} v & n {y WB}}
{NOM_LIEU(bastille)} {{b WB} a s t i {j WB}}
{NOM_LIEU(centre_ville)} {{s WB} an t R & v i {l WB}}
{NOM_LIEU(cinéma)} {{s WB} i n e m {a WB}}
{NOM_LIEU(cinéma_2)} {{s WB} i n eE m {aA WB}}
{NOM_LIEU(cours)} {{k WB} u {R WB}}
{NOM_LIEU(gare)} {{g WB} a {R WB}}
{NOM_LIEU(gare_2)} {{g WB} aA {R WB}}
{NOM_LIEU(gare_3)} {{g WB} aA R {& WB}}
{NOM_LIEU(jardin)} {{Z WB} a R d {in WB}}
{NOM_LIEU(jardin_2)} {{Z WB} aA R d {in WB}}
{NOM_LIEU(l'aéroport)} {{l WB} aA eE R oO p O {R WB}}
{NOM_LIEU(mer)} {{m WB} E {R WB}}
{NOM_LIEU(montagne)} {{m WB} on t a {NJ WB}}
{NOM_LIEU(montagne_2)} {{m WB} on t aA {NJ WB}}
{NOM_LIEU(montagne_3)} {{m WB} on t aA NJ {& WB}}
{NOM_LIEU(musée)} {{m WB} y z {e WB}}
{NOM_LIEU(rue)} {{R WB} {y WB}}
{NOM_LIEU(stade)} {{s WB} t a {d WB}}
{NOM_LIEU(stade_2)} {{s WB} t aA {d WB}}
{NOM_LIEU(stade_3)} {{s WB} t aA d {& WB}}
{NOM_LIEU(terrasse)} {{t WB} eE R aA {s WB}}
{NOM_LIEU(terrasse_2)} {{t WB} eE R aA s {& WB}}
{NOM_LIEU(théatre)} {{t WB} e a t {R WB}}
{NOM_LIEU(corenc)} {{k WB} o R {an WB}}
{NOM_LIEU(biviers)} {{b WB} i v j {e WB}}
{NOM_LIEU(clips)} {{k WB} l i p {s WB}}
{NOM_LIEU(fourrier)} {{f WB} u R j {e WB}}
{NOM_LIEU(imag)} {{i WB} m a {g WB}}
{NOM_MACHINE} {{b WB} p t k g {f WB}}
{NOM_MACHINE(vocaliza)} {{v WB} o k a l i z {a WB}}
{NOM_MACHINE(pve)} {{p WB} e v e {& WB}}
{NOM_MOIS} {{b WB} p t k g {f WB}}
{NOM_MOIS(août)} {{u WB} {t WB}}
{NOM_MOIS(août_2)} {u}
{NOM_MOIS(août_3)} {{u WB} t }
{NOM_MOIS(avril)} {{aA WB} v R i {l WB}}
{NOM_MOIS(décembre)} {{d WB} e s an b {R WB}}
{NOM_MOIS(décembre_2)} {{d WB} e s an b R {& WB}}
{NOM_MOIS(décembre_3)} {{d WB} eE s an b {R WB}}
{NOM_MOIS(décembre_4)} {{d WB} eE s an b R {& WB}}
{NOM_MOIS(février)} {{f WB} e v R i {e WB}}
{NOM_MOIS(février_2)} {{f WB} eE v R i {e WB}}
{NOM_MOIS(janvier)} {{Z WB} an v j {e WB}}
{NOM_MOIS(juillet)} {{Z WB} H i j {e WB}}
{NOM_MOIS(juillet_2)} {{Z WB} H i j {eE WB}}
{NOM_MOIS(juin)} {{Z WB} H {in WB}}
{NOM_MOIS(juin_2)} {{Z WB} o {in WB}}
{NOM_MOIS(juin_3)} {{Z WB} w {in WB}}
{NOM_MOIS(mai)} {{m WB} {eE WB}}
{NOM_MOIS(mars)} {{m WB} aA R {s WB}}
{NOM_MOIS(novembre)} {{n WB} O v an b {R WB}}
{NOM_MOIS(novembre_2)} {{n WB} O v an b R {& WB}}
{NOM_MOIS(novembre_3)} {{n WB} oO v an b {R WB}}
{NOM_MOIS(novembre_4)} {{n WB} oO v an b R {& WB}}
{NOM_MOIS(octobre)} {{O WB} k t O b {R WB}}
{NOM_MOIS(octobre_2)} {{O WB} k t O b R {& WB}}
{NOM_MOIS(octobre_3)} {{oO WB} k t O b {R WB}}
{NOM_MOIS(octobre_4)} {{oO WB} k t O b R {& WB}}
{NOM_MOIS(septembre)} {{s WB} E p t an b {R WB}}
{NOM_MOIS(septembre_2)} {{s WB} E p t an b R {& WB}}
{NOM_PAYS} {{b WB} p t k g {f WB}}
{NOM_PAYS(france)} {{f WB} R an {s WB}}
{NOM_PAYS(italie)} {{i WB} t a l {i WB}}
{NOM_PAYS(japon)} {{Z WB} a p {on WB}}
{NOM_PAYS(suisse)} {{s WB} y i {s WB}}
{NOM_PAYS(suisse_2)} {{s WB} H i s {& WB}}
{NOM_PAYS(usa)} {{y WB} E s {a WB}}
{NOM_PERSONNE} {{b WB} p t k g {f WB}}
{NOM_PERSONNE(adenot)} {{a WB} d 2 n {o WB}}
{NOM_PERSONNE(akbar)} {{a WB} k b a {R WB}}
{NOM_PERSONNE(andré)} {{an WB} d R {e WB}}
{NOM_PERSONNE(andry)} {{an WB} d R {i WB}}
{NOM_PERSONNE(argeles)} {{a WB} R Z 2 l E {s WB}}
{NOM_PERSONNE(argentier)} {{a WB} R Z an t j {e WB}}
{NOM_PERSONNE(becquet)} {{b WB} e k {E WB}}
{NOM_PERSONNE(besacier)} {{b WB} & z a s i {e WB}}
{NOM_PERSONNE(besacier_2)} {{b WB} 2 z a s i {e WB}}
{NOM_PERSONNE(blanc)} {{b WB} l {an WB}}
{NOM_PERSONNE(boisdon)} {{b WB} w a d {on WB}}
{NOM_PERSONNE(boitet)} {{b WB} w a t {e WB}}
{NOM_PERSONNE(bougnoux)} {{b WB} u NJ {u WB}}
{NOM_PERSONNE(caelen)} {{k WB} a E l E {n WB}}
{NOM_PERSONNE(carton)} {{k WB} a R t {on WB}}
{NOM_PERSONNE(chabuel)} {{S WB} a b y E {l WB}}
{NOM_PERSONNE(coquelle)} {{k WB} O k E {l WB}}
{NOM_PERSONNE(cornut)} {{k WB} O R n {y WB}}
{NOM_PERSONNE(cotté)} {{k WB} O t {e WB}}
{NOM_PERSONNE(courteau)} {{k WB} u R t {o WB}}
{NOM_PERSONNE(cuccaro)} {{k WB} k a R {o WB}}
{NOM_PERSONNE(demongeot)} {{d WB} 2 m on Z {o WB}}
{NOM_PERSONNE(degery)} {{d WB} e Z 2 R {i WB}}
{NOM_PERSONNE(descalle)} {{d WB} E s k a {l WB}}
{NOM_PERSONNE(descalle_2)} {{d WB} E z k a {l WB}}
{NOM_PERSONNE(dupond)} {{d WB} y p {on WB}}
{NOM_PERSONNE(dupuis)} {{d WB} y p y {i WB}}
{NOM_PERSONNE(durand)} {{d WB} y R {an WB}}
{NOM_PERSONNE(fagot)} {{f WB} a g {o WB}}
{NOM_PERSONNE(ferrand)} {{f WB} e R {an WB}}
{NOM_PERSONNE(fouquet)} {{f WB} u k {E WB}}
{NOM_PERSONNE(garrel)} {{g WB} a R E {l WB}}
{NOM_PERSONNE(gatia)} {{g WB} a s j {a WB}}
{NOM_PERSONNE(gehard)} {{Z WB} e a {R WB}}
{NOM_PERSONNE(giroud)} {{Z WB} i R {u WB}}
{NOM_PERSONNE(gorius)} {{g WB} O R i y {s WB}}
{NOM_PERSONNE(grandvaux)} {{g WB} R an v {o WB}}
{NOM_PERSONNE(grivel)} {{g WB} R i v E {l WB}}
{NOM_PERSONNE(hinaux)} {{i WB} n {o WB}}
{NOM_PERSONNE(hollard)} {{o WB} l a {R WB}}
{NOM_PERSONNE(ittel)} {{i WB} t E {l WB}}
{NOM_PERSONNE(joseph)} {{Z WB} O z E {f WB}}
{NOM_PERSONNE(joubert)} {{Z WB} u b E {R WB}}
{NOM_PERSONNE(kirshner)} {{k WB} i R S n E {R WB}}
{NOM_PERSONNE(millien)} {{m WB} i l j {in WB}}
{NOM_PERSONNE(mollard)} {{m WB} O l a {R WB}}
{NOM_PERSONNE(nombret)} {{n WB} on b R {E WB}}
{NOM_PERSONNE(noraz)} {{n WB} O R a {z WB}}
{NOM_PERSONNE(pène)} {{p WB} E n {& WB}}
{NOM_PERSONNE(piolat)} {{p WB} j o l {a WB}}
{NOM_PERSONNE(piolat_2)} {{p WB} i o l {a WB}}
{NOM_PERSONNE(qualizza)} {{k WB} a l i z {a WB}}
{NOM_PERSONNE(qualizza_2)} {{k WB} w a l i t z {a WB}}
{NOM_PERSONNE(reverdi)} {{R WB} 2 v E R d {i WB}}
{NOM_PERSONNE(schlecht)} {{a WB} k b a {R WB}}
{NOM_PERSONNE(serignat)} {{s WB} E R i NJ {a WB}}
{NOM_PERSONNE(vaufreydaz)} {{v WB} o f R e d a {z WB}}
{NOM_VILLE} {{b WB} p t k g {f WB}}
{NOM_VILLE(chambéry)} {{S WB} an b e R {i WB}}
{NOM_VILLE(genève)} {{Z WB} 2 n E {v WB}}
{NOM_VILLE(grenoble)} {{g WB} R & n O b {l WB}}
{NOM_VILLE(lyon)} {{l WB} j {on WB}}
{NOM_VILLE(nantes)} {{n WB} an t {& WB}}
{NOM_VILLE(new-york)} {{n WB} u j o R {k WB}}
{NOM_VILLE(new-york_2)} {{n WB} y u j o R {k WB}}
{NOM_VILLE(new-york_3)} {{n WB} y u j O R {k WB}}
{NOM_VILLE(paris)} {{p WB} a R {i WB}}
{OUVERTURE} {{b WB} p t k g {f WB}}
{OUVERTURE(allô)} {{a WB} l {o WB}}
{OUVERTURE(bonjour)} {{b WB} on Z u {R WB}}
{OUVERTURE(bonsoir)} {{b WB} on s w aA {R WB}}
{OUVERTURE(salut)} {{s WB} a l {y WB}}
{PRENOM_PERSONNE} {{b WB} p t k g {f WB}}
{PRENOM_PERSONNE(alain)} {{a WB} l {in WB}}
{PRENOM_PERSONNE(alexis)} {{a WB} l E k s {i WB}}
{PRENOM_PERSONNE(alexis_2)} {{j WB} e t {i WB}}
{PRENOM_PERSONNE(anne)} {{a WB} n {& WB}}
{PRENOM_PERSONNE(anne-claire)} {{a WB} n k l E {R WB}}
{PRENOM_PERSONNE(anne-claire_2)} {{a WB} n & k l E {R WB}}
{PRENOM_PERSONNE(anne-lise)} {{a WB} n l i {z WB}}
{PRENOM_PERSONNE(anne-marie)} {{a WB} n m a R {i WB}}
{PRENOM_PERSONNE(anne-marie_2)} {{a WB} n & m a R {i WB}}
{PRENOM_PERSONNE(annie)} {{a WB} n {i WB}}
{PRENOM_PERSONNE(aristide)} {{a WB} R i s t i d {& WB}}
{PRENOM_PERSONNE(aristide_2)} {{a WB} R i s t i {d WB}}
{PRENOM_PERSONNE(bertrand)} {{b WB} E R t R {an WB}}
{PRENOM_PERSONNE(brieuc)} {{b WB} R i {2 WB}}
{PRENOM_PERSONNE(brigitte)} {{b WB} R i Z i {t WB}}
{PRENOM_PERSONNE(carol)} {{k WB} a R O {l WB}}
{PRENOM_PERSONNE(carole)} {{k WB} a R O {l WB}}
{PRENOM_PERSONNE(carole_2)} {{k WB} a R O l {& WB}}
{PRENOM_PERSONNE(catherine)} {{k WB} a t 2 R i {n WB}}
{PRENOM_PERSONNE(catherine_2)} {{k WB} a t 2 R i n {& WB}}
{PRENOM_PERSONNE(céline)} {{s WB} e l i {n WB}}
{PRENOM_PERSONNE(céline_2)} {{s WB} e l i n {& WB}}
{PRENOM_PERSONNE(chloé)} {{k WB} l o {e WB}}
{PRENOM_PERSONNE(christian)} {{k WB} R i s t i {an WB}}
{PRENOM_PERSONNE(christine)} {{k WB} R i s t i {n WB}}
{PRENOM_PERSONNE(christine_2)} {{k WB} R i s t i n {& WB}}
{PRENOM_PERSONNE(christophe)} {{k WB} R i s t O {f WB}}
{PRENOM_PERSONNE(christophe_2)} {{k WB} R i s t O f {& WB}}
{PRENOM_PERSONNE(chrystel)} {{k WB} R i s t E {l WB}}
{PRENOM_PERSONNE(claire)} {{k WB} l E {R WB}}
{PRENOM_PERSONNE(clotilde)} {{k WB} l o t i l {d WB}}
{PRENOM_PERSONNE(clotilde_2)} {{k WB} l o t i l d {& WB}}
{PRENOM_PERSONNE(danielle)} {{d WB} a n i E {l WB}}
{PRENOM_PERSONNE(danielle_2)} {{d WB} a n i E l {& WB}}
{PRENOM_PERSONNE(davy)} {{d WB} e v {i WB}}
{PRENOM_PERSONNE(delfine)} {{d WB} E l f i {n WB}}
{PRENOM_PERSONNE(delfine_2)} {{d WB} E l f i n {& WB}}
{PRENOM_PERSONNE(dominique)} {{d WB} O m i n i {k WB}}
{PRENOM_PERSONNE(dominique_2)} {{d WB} o m i n i {k WB}}
{PRENOM_PERSONNE(elisabeth)} {{e WB} l i z a b E {t WB}}
{PRENOM_PERSONNE(eric)} {{e WB} R i {k WB}}
{PRENOM_PERSONNE(evelyne)} {{e WB} v & l i n {& WB}}
{PRENOM_PERSONNE(franck)} {{f WB} R an {k WB}}
{PRENOM_PERSONNE(françois)} {{f WB} R an s u {a WB}}
{PRENOM_PERSONNE(françoise)} {{f WB} R an s u a {z WB}}
{PRENOM_PERSONNE(françoise_2)} {{f WB} R an s u a z {& WB}}
{PRENOM_PERSONNE(frédérique)} {{f WB} R e d e R i {k WB}}
{PRENOM_PERSONNE(frédérique_2)} {{f WB} R e d e R i k {& WB}}
{PRENOM_PERSONNE(frédérique_3)} {{f WB} R e {d WB}}
{PRENOM_PERSONNE(guénaelle)} {{g WB} e n a E {l WB}}
{PRENOM_PERSONNE(guénaelle_2)} {{g WB} e n a E l {& WB}}
{PRENOM_PERSONNE(hélène)} {{e WB} l E {n WB}}
{PRENOM_PERSONNE(hélène_2)} {{e WB} l E n {& WB}}
{PRENOM_PERSONNE(henriette)} {{an WB} R i E t {& WB}}
{PRENOM_PERSONNE(hervé)} {{E WB} R v {e WB}}
{PRENOM_PERSONNE(isabelle)} {{i WB} z a b E {l WB}}
{PRENOM_PERSONNE(isabelle_2)} {{i WB} z a b E l {& WB}}
{PRENOM_PERSONNE(jean)} {{Z WB} {an WB}}
{PRENOM_PERSONNE(jean_2)} {{d WB} Z i {n WB}}
{PRENOM_PERSONNE(jean-christophe)} {{Z WB} an k R i s t O {f WB}}
{PRENOM_PERSONNE(jean-christophe_2)} {{Z WB} an k R i s t O f {& WB}}
{PRENOM_PERSONNE(jean-christophe_3)} {{Z WB} i s {e WB}}
{PRENOM_PERSONNE(jean-francois)} {{Z WB} an f R an s u {a WB}}
{PRENOM_PERSONNE(jean-francois_2)} {{d WB} Z E {f WB}}
{PRENOM_PERSONNE(jean-luc)} {{Z WB} an l y {k WB}}
{PRENOM_PERSONNE(jean-rené)} {{Z WB} an R & n {e WB}}
{PRENOM_PERSONNE(jérémie)} {{Z WB} e R e m {i WB}}
{PRENOM_PERSONNE(jérôme)} {{Z WB} e R O {m WB}}
{PRENOM_PERSONNE(jérôme_2)} {{Z WB} e R O m {& WB}}
{PRENOM_PERSONNE(jocelyn)} {{Z WB} O s & l {in WB}}
{PRENOM_PERSONNE(jocelyn_2)} {{Z WB} O s l {in WB}}
{PRENOM_PERSONNE(joel)} {{Z WB} o E {l WB}}
{PRENOM_PERSONNE(julien)} {{Z WB} y l i {in WB}}
{PRENOM_PERSONNE(juliette)} {{Z WB} y l i E {t WB}}
{PRENOM_PERSONNE(juliette_2)} {{Z WB} y l i E t {& WB}}
{PRENOM_PERSONNE(karine)} {{k WB} a R i {n WB}}
{PRENOM_PERSONNE(karine_2)} {{k WB} a R i n {& WB}}
{PRENOM_PERSONNE(laetitia)} {{l WB} e t i s j {a WB}}
{PRENOM_PERSONNE(laure)} {{l WB} o R {& WB}}
{PRENOM_PERSONNE(laurent)} {{l WB} o R {an WB}}
{PRENOM_PERSONNE(mado)} {{m WB} a d {o WB}}
{PRENOM_PERSONNE(maelle)} {{m WB} a E {l WB}}
{PRENOM_PERSONNE(maelle_2)} {{m WB} a E l {& WB}}
{PRENOM_PERSONNE(marcello)} {{m WB} a R t Z E l {o WB}}
{PRENOM_PERSONNE(marie)} {{m WB} a R {i WB}}
{PRENOM_PERSONNE(marie-agnès)} {{m WB} a R i a NJ E {s WB}}
{PRENOM_PERSONNE(marie-madelaine)} {{m WB} a R i m a d & l E {n WB}}
{PRENOM_PERSONNE(marie-odile)} {{m WB} a R i O d i l {& WB}}
{PRENOM_PERSONNE(marie-pierre)} {{m WB} a R i p j E {R WB}}
{PRENOM_PERSONNE(marie-pierre_2)} {{m WB} a R i p j E R {& WB}}
{PRENOM_PERSONNE(marie-pierre_3)} {{m WB} a R i {p WB}}
{PRENOM_PERSONNE(marine)} {{m WB} a R i {n WB}}
{PRENOM_PERSONNE(marine_2)} {{m WB} a R i n {& WB}}
{PRENOM_PERSONNE(marjolaine)} {{m WB} a R Z o l E n {& WB}}
{PRENOM_PERSONNE(marjolaine_2)} {{m WB} a R Z o l E {n WB}}
{PRENOM_PERSONNE(marjolaine_3)} {{m WB} a R Z {o WB}}
{PRENOM_PERSONNE(myriam)} {{m WB} i R j a {m WB}}
{PRENOM_PERSONNE(nadège)} {{n WB} a d E {Z WB}}
{PRENOM_PERSONNE(nadège_2)} {{n WB} a d E Z {& WB}}
{PRENOM_PERSONNE(nathalie)} {{n WB} a t a l {i WB}}
{PRENOM_PERSONNE(nicolas)} {{n WB} i k o l {a WB}}
{PRENOM_PERSONNE(noémie)} {{n WB} o e m {i WB}}
{PRENOM_PERSONNE(odile)} {{o WB} d i {l WB}}
{PRENOM_PERSONNE(odile_2)} {{o WB} d i l {& WB}}
{PRENOM_PERSONNE(olivier)} {{o WB} l i v j {e WB}}
{PRENOM_PERSONNE(olivier_2)} {{b WB} u f {i WB}}
{PRENOM_PERSONNE(pascaline)} {{p WB} a s k a l i {n WB}}
{PRENOM_PERSONNE(pascaline_2)} {{p WB} a s k l i n {& WB}}
{PRENOM_PERSONNE(patrick)} {{p WB} a t R i {k WB}}
{PRENOM_PERSONNE(patrick_2)} {{p WB} a t O {S WB}}
{PRENOM_PERSONNE(pierre)} {{p WB} j E {R WB}}
{PRENOM_PERSONNE(pierre_2)} {{p WB} j E R {& WB}}
{PRENOM_PERSONNE(revol)} {{R WB} e v O {l WB}}
{PRENOM_PERSONNE(roland)} {{R WB} o l {an WB}}
{PRENOM_PERSONNE(sabine)} {{s WB} a b i {n WB}}
{PRENOM_PERSONNE(sabine_2)} {{s WB} a b i n {& WB}}
{PRENOM_PERSONNE(sami)} {{s WB} a m {i WB}}
{PRENOM_PERSONNE(samuel)} {{s WB} a m u E {l WB}}
{PRENOM_PERSONNE(samuel_2)} {{s WB} a {m WB}}
{PRENOM_PERSONNE(sandrine)} {{s WB} an d R i {n WB}}
{PRENOM_PERSONNE(sandrine_2)} {{s WB} an d R i n {& WB}}
{PRENOM_PERSONNE(sébastien)} {{s WB} e b a s t j {in WB}}
{PRENOM_PERSONNE(sébastien_2)} {{s WB} E {b WB}}
{PRENOM_PERSONNE(serge)} {{s WB} E R {Z WB}}
{PRENOM_PERSONNE(serge_2)} {{s WB} E R Z {& WB}}
{PRENOM_PERSONNE(serge_3)} {{s WB} E R Z j {o WB}}
{PRENOM_PERSONNE(serge_4)} {{s WB} E R t Z j {o WB}}
{PRENOM_PERSONNE(séverine)} {{s WB} e v & R i {n WB}}
{PRENOM_PERSONNE(séverine_2)} {{s WB} e v & R i n {& WB}}
{PRENOM_PERSONNE(simone)} {{s WB} i m O {n WB}}
{PRENOM_PERSONNE(simone_2)} {{s WB} i m O n {& WB}}
{PRENOM_PERSONNE(solange)} {{s WB} o l an {Z WB}}
{PRENOM_PERSONNE(solenn)} {{s WB} o l E {n WB}}
{PRENOM_PERSONNE(sophie)} {{s WB} o f {i WB}}
{PRENOM_PERSONNE(sophie_2)} {{s WB} O f {i WB}}
{PRENOM_PERSONNE(stephanie)} {{s WB} t e f a n {i WB}}
{PRENOM_PERSONNE(sylvain)} {{s WB} i l v {in WB}}
{PRENOM_PERSONNE(sylvie)} {{s WB} i l v {i WB}}
{PRENOM_PERSONNE(valérie)} {{v WB} a l e R {i WB}}
{PRENOM_PERSONNE(véronique)} {{v WB} e R o n i {k WB}}
{PRENOM_PERSONNE(véronique_2)} {{v WB} e R {o WB}}
{PRENOM_PERSONNE(yannick)} {{j WB} a n i {k WB}}
{PRENOM_PERSONNE(yannick_2)} {{f WB} u k {s WB}}
{PRENOM_PERSONNE(yves)} {{i WB} {v WB}}
{PRENOM_PERSONNE(yves_2)} {{i WB} v {& WB}}
{affolant} {{a WB} f O l {an WB}}
{affolant(2)} {{a WB} f oO l {an WB}}
{affolant(3)} {{a WB} f O l an {t WB}}
{calculé} {{k WB} a l k y l {e WB}}
{annulées} {{a WB} n y l {e WB}}
{annulées(2)} {{a WB} n y l e {z WB}}
{annulés} {{a WB} n y l {e WB}}
{annulés(2)} {{a WB} n y l e {z WB}}
{appelais} {{a WB} p & l {E WB}}
{appelais(3)} {{a WB} p & l E {z WB}}
{appelais(2)} {{a WB} p l {E WB}}
{appellerait} {{a WB} p E l & R {E WB}}
{appellerait(2)} {{a WB} p E l & R E {t WB}}
{arobase} {{aA WB} R o b a z {z WB}}
{aïe} {{a WB} {i WB}}
{aïe(2)} {{a WB} i {& WB}}
{aïe(3)} {{a WB} {j WB}}
{aïe(4)} {{a WB} j {& WB}}
{bise} {{b WB} i z {& WB}}
{bises} {{b WB} i z {& WB}}
{bises(2)} {{b WB} i z e {z WB}}
{boulette} {{b WB} u l E {t WB}}
{boulette(2)} {{b WB} u l E t {& WB}}
{boulettes} {{b WB} u l E t {z WB}}
{boulettes(2)} {{b WB} u l E {t WB}}
{bousculé} {{b WB} u s k y l {e WB}}
{bécane} {{b WB} e k a n {& WB}}
{bécanes} {{b WB} e k a n {& WB}}
{bécanes(2)} {{b WB} e k a n & {z WB}}
{ciao)} {{t WB} Z a {o WB}}
{copieur} {{k WB} O p j 2 {R WB}}
{copieurs} {{k WB} O p j 2 {R WB}}
{d'ac} {{d WB} a {k WB}}
{d'accord} {{d WB} aA k O {R WB}}
{d'accord(2)} {{d WB} a k O {R WB}}
{dicter} {{d WB} i k t {e WB}}
{dicter(2)} {{d WB} i k t e {R WB}}
{débrouiller} {{d WB} E b R u j {e WB}}
{démo} {{d WB} E m {o WB}}
{démos} {{d WB} E m {o WB}}
{démos(2)} {{d WB} E m o {z WB}}
{dépanner} {{d WB} e p a n {e WB}}
{dépanner(2)} {{d WB} e p a n e {R WB}}
{déranger} {{d WB} E R an Z e {R WB}}
{déranger(2)} {{d WB} E R an Z {e WB}}
{email} {{i WB} m E {l WB}}
{email_2} {{i WB} m E j {l WB}}
{email_3} {{k WB} u R j E {l WB}}
{email_4} {{m WB} E {l WB}}
{email_5} {{m WB} E j {l WB}}
{embrouillé} {{an WB} b R u j {E WB}}
{embête} {{an WB} b E t {& WB}}
{embête(2)} {{an WB} b E {t WB}}
{embêté} {{an WB} b E t {e WB}}
{embêtée} {{an WB} b E t {e WB}}
{ennuyée} {{an WB} n H i j {e WB}}
{ennuyé} {{an WB} n H i j {e WB}}
{excusé} {{E WB} k s k y z {e WB}}
{excusée} {{E WB} k s k y z {e WB}}
{externalisé} {{E WB} k s t E R n a l i z {e WB}}
{feras} {{f WB} & R {a WB}}
{feras(2)} {{f WB} & R a {z WB}}
{fff} {{f WB} f {f WB}}
{férié} {{f WB} eE R j {e WB}}
{férié(2)} {{f WB} E R j {e WB}}
{gérait} {{Z WB} E R {E WB}}
{gérait(3)} {{Z WB} E R E {t WB}}
{gérait(2)} {{Z WB} e R {E WB}}
{d'hab} {{d WB} a {b WB}}
{indiquerez} {{in WB} d i k & R {e WB}}
{indiquerez(2)} {{in WB} d i k & R e {z WB}}
{jeanne} {{Z WB} a {n WB}}
{jeanne(2)} {{Z WB} a n {& WB}}
{labo} {{l WB} a b {O WB}}
{login} {{l WB} O g i {n WB}}
{maintiens} {{m WB} in t j {in WB}}
{maintiens(2)} {{m WB} in t j in {z WB}}
{mettrai} {{m WB} E t R {E WB}}
{mettrais} {{m WB} E t R {E WB}}
{mettrais(2)} {{m WB} E t R E {s WB}}
{ok} {{O WB} k {E WB}}
{ok(2)} {{O WB} k {e WB}}
{okay} {{O WB} k {E WB}}
{okay(2)} {{O WB} k {e WB}}
{okai} {{O WB} k {E WB}}
{okai(2)} {{O WB} k {e WB}}
{ouh} {u}
{parles} {{p WB} a R l {& WB}}
{parles(2)} {{p WB} a R l & {s WB}}
{pff} {{p WB} f {f WB}}
{plantée} {{p WB} l an t {e WB}}
{poisse} {{p WB} w a s {& WB}}
{poisse(2)} {{p WB} w a {s WB}}
{pressez} {{p WB} R E s e {z WB}}
{pressez(2)} {{p WB} R E s {e WB}}
{promettent} {{p WB} R O m E t {& WB}}
{promettent(2)} {{p WB} R O m E {t WB}}
{promettent(3)} {{p WB} R O m E t & {t WB}}
{prévienne} {{p WB} R E v j E {n WB}}
{prévienne(2)} {{p WB} R E v j E n {& WB}}
{raccroche} {{R WB} a k R O S {& WB}}
{raccroche(2)} {{R WB} a k R O {S WB}}
{raccroché} {{R WB} a k R O S {e WB}}
{rassurées} {{R WB} a s y R e {z WB}}
{rassurées(2)} {{R WB} a s y R {e WB}}
{rassurée} {{R WB} a s y R {e WB}}
{rassuré} {{R WB} a s y R {e WB}}
{redémarrer} {{R WB} 2 d E m a R {e WB}}
{redémarrer(3)} {{R WB} 2 d E m a R e {R WB}}
{redémarrer(2)} {{R WB} 2 d e m a R {e WB}}
{regardes} {{R WB} & g a R {d WB}}
{regardes(2)} {{R WB} & g a R d {& WB}}
{renégocier} {{R WB} 2 n E g O s j {e WB}}
{renégocier(3)} {{R WB} 2 n E g O s j e {R WB}}
{renégocier(2)} {{R WB} 2 n e g O s j {e WB}}
{reprenne} {{R WB} & p R E {n WB}}
{reprenne(2)} {{R WB} & p R E n {& WB}}
{réceptionniste} {{R WB} E s E p s j o n i s {t WB}}
{réceptionniste(2)} {{R WB} E s E p s j o n i s t {& WB}}
{sauriez} {{s WB} O R j {e WB}}
{sauriez(2)} {{s WB} O R j e {z WB}}
{sss} {{s WB} s {s WB}}
{tit} {{t WB} i {t WB}}
{tit(2)} {{t WB} {i WB}}
{tondeuse} {{t WB} on d 2 {z WB}}
{tondeuse(2)} {{t WB} on d 2 z {& WB}}
{transmette} {{t WB} R an s m E t {& WB}}
{transmette(2)} {{t WB} R an s m E {t WB}}
{trompée} {{t WB} R on p {e WB}}
{ttendez} {{t WB} an d e {z WB}}
{ttendez(2)} {{t WB} an d {e WB}}
{verras} {{v WB} E R {a WB}}
{verras(2)} {{v WB} e R {a WB}}
{visioconférences} {{v WB} i z j o k on f E R an {s WB}}
{visioconférences(3)} {{v WB} i z j o k on f E R an s {z WB}}
{visioconférences(2)} {{v WB} i z j o k on f e R an {s WB}}
{voilou} {{v WB} w a l {u WB}}
{yep} {{j WB} E {p WB}}
{yop} {{j WB} O {p WB}}
Modélisation des attentes en dialogue oral
Résumé :
Cette thèse porte sur la modélisation des attentes du locuteur en dialogue humain et en dialogue homme-machine. Les attentes du locuteur sont vues comme les résultats espérés de ses actes, selon lhypothèse quun individu en situation de dialogue finalisé (oral ou non, humain ou homme-machine) aura certaines attentes vis-à-vis de son allocutaire suite à son énoncé.
La théorie développée puise ses sources dans la philosophie analytique et sa logique dialogique dérivée des actes de langage, dans léthnométhodologie et la théorie des faces, dans les cognisciences et la théorie de la pertinence, et enfin dans la linguistique. Une notation en actes de dialogue a été établie pour représenter les connaissances, les rôles et les actes de langage des interactants. La modélisation considère des règles dassociation acte-attentes assorties de probabilités, les stratégies employées et les buts dialogiques.
Pour évaluer les règles et les probabilités, deux corpus ont été collectés : lun en dialogue humain (dans un cadre de traduction de parole), lautre en dialogue homme-machine (pour développer un assistant dentreprise virtuel). Pour la collecte du deuxième, une plate-forme à base de magicien dOz a été réalisée afin de simuler le système final. Les corpus recueillis ont été transcrits, annotés et analysés en vue de montrer lintérêt de considérer les attentes plutôt que de faire de la simple prédiction dacte.
Les résultats sont intéressants pour le dialogue humain et pour le dialogue homme-machine : la prise en compte des attentes améliore lidentification des actes de dialogue des interlocuteurs, et le contrôle du dialogue.
Mots-clés : attentes, dialogue homme-homme, dialogue homme-machine, actes de langage, magicien dOz
Modelization of Expectations in Oral Dialogue
Summary:
This thesis aims at modelling speakers expectations in human dialogue and in man-machine dialogue. Speakers expectations are the expected results of its acts, assuming that someone in finalized dialogue (oral or not, human or man-machine) has certain expectations from its addressee following his statement.
The theory developed draws its sources from analytic philosophy and its speech acts, from ethnomethodology through the faces theory, from cognisciences and the theory of relevance, and from linguistics. A notation of dialog acts has been made to represent knowledge, roles and speech acts of participants. The model considers rules - associating acts and expectations - supplied with probabilities, strategies and dialogic goals.
For rules and probabilities evaluation, two corpora were collected: first with human dialogue (within a framework of speech translation), second with man-machine dialogue (to develop a virtual assistant). For the collection of the second one, a wizard of Oz based platform has been made in order to simulate the final system. The corpora collected were transcribed, annotated and analysed in order to show the interest of considering expectations rather than making simple speech acts prediction.
The results are interesting for both human and man-machine dialogue: considering the expectations improves identification of interlocutor dialogue acts, and dialogue management.
Keywords: expectations, human dialogue, man-machine dialogue, speech act, wizard of Oz
Le récipiendaire de lénoncé oral du locuteur
Lanaphore est un mot renvoyant à un membre de phrase déjà énoncé.
Lellipse est lomission dun ou de plusieurs mots dun énoncé sans altération du sens de lénoncé.
Un trope est une figure rhétorique consistant à employer un mot ou une expression en les détournant de leur sens propre.
ensemble des termes qui tirent leur signification, au moins en partie, de la situation de la communication ; ce sont par exemple les pronoms de la première et deuxième personne, les références temporelles comme demain, la semaine prochaine, les références spatiales comme ici, là, etc.
Francisation de lexpression italienne signifiant excursions ciblées, excursions à thème.
PAGE 102
Thèse préparée au sein du laboratoire de Communication Langagière et Interaction Personne Système CLIPS Fédération IMAG
PAGE 101
Modélisation des attentes en dialogue oral
Introduction
Problématique
Modélisation des attentes en dialogue oral Partie A : contexte pratique et théorique
Chapitre I : contexte pratique détude
Chapitre II : Cadre théorique en modélisation du dialogue oral
Modélisation des attentes en dialogue oral Partie B : Etude théorique
Chapitre I : Modélisation et traitement des attentes en dialogue aspect théorique
Chapitre II : Approche à base de corpus
Modélisation des attentes en dialogue oral Partie C : Expérimentation et tests
Chapitre I : Plate-forme dexpérimentation (Magicien dOz)
Chapitre II : Modélisation stochastique
Modélisation des attentes en dialogue oral
Conclusions et perspectives
Références bibliographiques
Annexes
Laboratoire CLIPS, Université Joseph Fourier et Fédération IMAG, BP 53, 38041 Grenoble Cedex 9
Laboratoire CLIPS, Université Joseph Fourier et Fédération IMAG, BP 53, 38041 Grenoble Cedex 9
Je nai pas le temps !
Désolé, je nai pas de montre
Bien sûr,
Je ne vous la donne pas, je vous la prête,
Il est 18h00 !
Métadiscursif
Négatif
Affirmatif
Métadiscursif
Requête indirecte
Question directe
Pouvez-vous me donner lheure ?
Attentes en situation
Enoncé, historique, champ de la tâche, marqueurs du discours, règles du dialogue
Notre approche, combinaison
Approche sociale (Goffman)
Approche Cognitive (Sperber & Wilson)
Approche intentionnelle (Colineau)
Module Dialogue
Historique (contexte)
énoncé
réponse
Application cliente
Module Attentes
Module Actes
Module Concepts
Module Lemmes
Serveur Attentes
Serveur Actes
Serveur Concepts
Serveur Lemmes
Lemmatiser
Generer_Concept
Generer_Acte
Generer_Attentes
Generer_Reponse
Serveur Dialogue
F1B(p)
FnB(p)
FiB(p)
FA(p)
Divergence
Divergence
Convergence
Répondeur
Demandeur
But
Demandes
Offres
Mises en
question
Mises en
cause
Répliques
Requêtes
Avancement vers laccord
Rôles
M(p)
1
Axe régissant
FB(p)
FfB(p)
FfsB(p)
FsB(P)
FfsA(p)
BUT
Axe incident
Axe régissant
canal
récepteur
Déterminations psychologiques
Compétence idéologique et culturelle
Compétence linguistique et para-linguistique
émetteur
Déterminations psychologiques
Compétence idéologique et culturelle
Compétence linguistique et para-linguistique
encodage MESSAGE - décodage
référent
Modèle dinterprétation
Contraintes de lunivers de discours
Modèle de production
Contraintes de lunivers de discours
But illocutoire
Engagement
p
2
3
4
5
6
7
8
9
10
11
6
5
4
3
2
1
Contrôleur de dialogue
Analyseur dactes de dialogue
Client
Synthèse de parole
Reconnaissance
FB(q)
FA(p)
Modèle de Langage
Modèle Acoustique
EMBED MS_ClipArt_Gallery.5
EMBED MS_ClipArt_Gallery.5
Acte
Interprétation
pragmatique
Représentation conceptuelle de lénoncé
Analyse
syntactico-sémantique
Texte reconnu
Reconnaissance
vocale
décodage
penséeR
transport
parole
codage
parole
penséeE
information
récepteur
émetteur
EMBED MS_ClipArt_Gallery.5
5%
15%
45%
35%
Module Tâche
FB(p)
FfB(p)
FfsB(p)
FsB(P)
FfsA(p)
BUT
Axe incident
Enregistrement
corpus HH
Analyse
Annotation
Transcription
Usages
Domaine
vocabulaire
et énoncés
étendus
Analyse
Analyse
Analyse
+Evaluation
Questionnaire
Questionnaire
Enregistrement
corpus HM
par Moz (tests)
+Annotation in vivo
Questionnaire
Enregistrement
corpus HH
Enregistrement
corpus HM
par système
Enregistrement
corpus HM
par Moz (pré-tests)
+Annotation in vivo
vocabulaire
de base et
énoncés typiques
Analyse
Annotation
Transcription
Usages
Domaine
Janus III
BDLex
Vocabulaire
Dictionnaire Phonétique
Corpus dapprentissage
Bref80
Association manuelle
Système de reconnaissance