Td corrigé 1.1 Une sémantique linguistique universaliste a priori ... - Memodata pdf

1.1 Une sémantique linguistique universaliste a priori ... - Memodata

L'ordre d'envoi des messages est précisé par un n° placé en tête de message. ..... Remarque: les multiplicités fonctionnent exactement à l'inverse des cardinalités du modèle Merise. ..... Examen du cahier des charges provenant du client. ... Vous avez eu une place différente dans chaque vol mais, grâce à votre incroyable ...




part of the document



ICE, Ens Montrouge
Certaines rencontres donnent l’énergie, psychologique ou financière, pour continuer un projet.
A ce titre, nous remercions M. Michel Régnier qui, dans le cadre de son activité au Centre National de la Fonction Publique Territoriale, nous a fait travailler en formation tant que nous en avons eu besoin,
M. Michel Héon, ancien DDRT, qui nous a fait confiance, et a contribué à nous fournir les premiers financements du Ministère de la Recherche (1991),
MM. Bernard Victorri et Patrice Enjalbert qui ont été les premiers chercheurs à trouver un intérêt à nos travaux.
Sans ces personnalités, notre projet aurait avorté il y a bien longtemps.
Et nous pensons aussi, sans les citer, à nombre de caractères qui nous ont soutenus et orientés par la suite. Les enseignants-chercheurs du Greyc se retrouveront ici, jusqu’à Pierre Nugues qui nous a autorisé à soutenir une thèse de doctorat en prenant le risque de sa direction.
Mais d’autres rencontres font qu’un projet passe de l’état de rêve à celui de début de réalisation.
C’est à M. Patrick de Torcy, informaticien talentueux, homme de constance et de confiance, ami de quinze ans que je dédie en premier lieu cette thèse.
C’était il y a 6 et 7 ans : nos deux premières propositions d’articles ont été acceptées dans des conférences importantes.
Depuis plus rien. C’est que par la suite, nos articles reprenaient, en le disant, mais sans pouvoir le détailler à nouveau, tout ce que nous avions déjà écrit et qui avait intéressé. Les nouveaux textes proposés ont paru sans substance à quiconque les découvrait sans nous connaître bien. Voilà, pour faire court, nous disions : c’est un réseau sémantique de 200.000 mots, et le lecteur avisé pensait : c’est WordNet en français. Nous disions : c’est de la sémantique componentielle hors domaine, et le lecteur suffisamment expert ne pouvait que penser : c’est une maquette sans prototype.
Mais le temps est encore passé et il nous offre aujourd’hui de mieux préciser notre cadre de travail, nos objectifs et nos moyens. C’est tout juste ce que nous souhaitons faire ici.
Table des matières



 TM \o "2-4" \t "Titre 1;1;grossepartie;1;ss-pointdetm;5" 1. Introduction  RENVOIPAGE _Toc504533282 \h 11
1.1 Une sémantique linguistique universaliste a priori pour des opérations sens(texte et texte(sens  RENVOIPAGE _Toc504533283 \h 11
1.1.1 Une sémantique linguistique  RENVOIPAGE _Toc504533284 \h 11
1.1.2 Les opérations sémantiques texte(sens et sens(texte  RENVOIPAGE _Toc504533285 \h 13
1.1.3 Une sémantique universaliste a priori  RENVOIPAGE _Toc504533286 \h 14
1.1.4 Quelques problèmes posés par l’universalisme et l’apriorisme  RENVOIPAGE _Toc504533287 \h 18
1.2 Les opérations linguistiques traitées dans la thèse  RENVOIPAGE _Toc504533288 \h 19
1.2.1 Les opérations non sémantiques  RENVOIPAGE _Toc504533289 \h 19
1.2.1.2 Les opérations morphologiques  RENVOIPAGE _Toc504533290 \h 19
1.2.1.3 Les opérations syntaxiques  RENVOIPAGE _Toc504533291 \h 19
1.2.1.4 Les opérations lexicales d’une langue vers une même langue  RENVOIPAGE _Toc504533292 \h 20
1.2.1.5 Les opérations lexicales d’une langue vers une autre langue  RENVOIPAGE _Toc504533293 \h 20
1.2.2 L’opération texte(sens de désambiguïsation lexicale  RENVOIPAGE _Toc504533294 \h 20
1.2.3 Les opérations texte-->sens-->texte  RENVOIPAGE _Toc504533295 \h 23
1.2.3.1 La gestion de l’opération de réduction et le dictionnaire à l’envers.  RENVOIPAGE _Toc504533296 \h 23
1.2.3.2 Le résumé automatique de textes au plan lexical  RENVOIPAGE _Toc504533297 \h 24
1.2.3.3 La sélection des mots pouvant rentrer dans les paraphrases d’énoncés courts pour l’expansion de requêtes  RENVOIPAGE _Toc504533298 \h 24
1.2.3.4 La sélection de contextes (co-texte) pour le filtrage d’informations  RENVOIPAGE _Toc504533299 \h 25
1.2.3.5 L’extraction d’informations structurée  RENVOIPAGE _Toc504533300 \h 25
1.2.3.6 La signature sémantique d’un texte  RENVOIPAGE _Toc504533301 \h 26
1.2.3.7 La classification automatique, le routage, l’accès aux nomenclatures  RENVOIPAGE _Toc504533302 \h 26
1.3 Travaux similaires aux travaux présentés  RENVOIPAGE _Toc504533303 \h 26
1.4 Historique de nos travaux et plan de la thèse  RENVOIPAGE _Toc504533304 \h 27
Partie I : Le Dictionnaire Intégral  RENVOIPAGE _Toc504533305 \h 31
2. Les descriptions universalistes du Dictionnaire Intégral  RENVOIPAGE _Toc504533306 \h 33
2.1 Les sources retenues pour élaborer le modèle de données du Dictionnaire Intégral  RENVOIPAGE _Toc504533307 \h 33
2.1.1 Le LADL  RENVOIPAGE _Toc504533308 \h 34
2.1.2 GENELEX  RENVOIPAGE _Toc504533309 \h 35
2.1.3 Le DEC  RENVOIPAGE _Toc504533310 \h 36
2.1.4 Les travaux de MEMODATA  RENVOIPAGE _Toc504533311 \h 36
2.1.5 WordNet et EuroWordNet  RENVOIPAGE _Toc504533312 \h 36
2.2 Les règles des descriptions universalistes  RENVOIPAGE _Toc504533313 \h 37
2.2.1 Les signes linguistiques  RENVOIPAGE _Toc504533314 \h 38
2.2.1.1 La graphie  RENVOIPAGE _Toc504533315 \h 38
2.2.1.2 Les signes de ponctuation  RENVOIPAGE _Toc504533316 \h 38
2.2.1.3 Règles concernant les unités morphologiques (UMorph)  RENVOIPAGE _Toc504533317 \h 38
2.2.1.4 Conclusion sur les unités morphologiques  RENVOIPAGE _Toc504533318 \h 45
2.2.2 Les propriétés syntaxiques des USèm : USynt  RENVOIPAGE _Toc504533319 \h 45
2.2.2.1 Les propriétés grammaticales des USèm  RENVOIPAGE _Toc504533320 \h 45
2.2.2.2 Règles concernant les propriétés syntaxiques des USèm  RENVOIPAGE _Toc504533321 \h 45
2.2.3 L’unité sémantique (USèm)  RENVOIPAGE _Toc504533322 \h 48
2.2.3.1 Les USèm selon le modèle sens(texte  RENVOIPAGE _Toc504533323 \h 48
A ] Les fonctions lexicales de dérivation sémantique.  RENVOIPAGE _Toc504533324 \h 48
A1 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases conservant la structure sémantico-discursive.  RENVOIPAGE _Toc504533325 \h 49
A2 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases modifiant la structure sémantico-discursive.  RENVOIPAGE _Toc504533326 \h 50
B] Les fonctions lexicales verbales.  RENVOIPAGE _Toc504533327 \h 53
B1] Les fonctions lexicales verbales sans apport sémantique.  RENVOIPAGE _Toc504533328 \h 53
B2] Les fonctions lexicales verbales avec apport sémantique.  RENVOIPAGE _Toc504533329 \h 55
C] La synonymie  RENVOIPAGE _Toc504533330 \h 56
C1] La synonymie sans permutation d’actants  RENVOIPAGE _Toc504533331 \h 57
C2] La synonymie avec permutation d’actants  RENVOIPAGE _Toc504533332 \h 58
D] Relations de collocations et termes privilégiés  RENVOIPAGE _Toc504533333 \h 58
D1] Les collocations sémantiquement vides  RENVOIPAGE _Toc504533334 \h 58
D2] Les collocations avec apports sémantiques  RENVOIPAGE _Toc504533335 \h 59
E] Fonctions lexicales à valeur sémantique spécifique  RENVOIPAGE _Toc504533336 \h 62
F] Préposition régissant le mot clé  RENVOIPAGE _Toc504533337 \h 63
G] Formes exclamatives  RENVOIPAGE _Toc504533338 \h 64
H] Les fonctions lexicales non ou rarement autonomes  RENVOIPAGE _Toc504533339 \h 64
I] Fonctions diverses  RENVOIPAGE _Toc504533340 \h 66
J] Conclusions sur les rapports DEC / Dictionnaire Intégral  RENVOIPAGE _Toc504533341 \h 66
2.2.3.2 Autres informations concernant USèm  RENVOIPAGE _Toc504533342 \h 66
2.2.4 Conclusion sur les règles de description contextuelles.  RENVOIPAGE _Toc504533343 \h 68
2.3 Comparaison quantitative de WordNet puis de EuroWordNet et du Dictionnaire Intégral  RENVOIPAGE _Toc504533344 \h 68
2.3.1 WordNet et le Dictionnaire Intégral  RENVOIPAGE _Toc504533345 \h 68
2.3.1.1 Le dénombrement des nœuds  RENVOIPAGE _Toc504533346 \h 69
2.3.2 Dénombrement des sens par catégories syntaxiques  RENVOIPAGE _Toc504533347 \h 71
2.3.3 Dénombrement des relations de WordNet  RENVOIPAGE _Toc504533348 \h 71
2.3.3.1 Topologie générale  RENVOIPAGE _Toc504533349 \h 73
2.3.4 EuroWordnet et le Dictionnaire Intégral.  RENVOIPAGE _Toc504533350 \h 74
3. Les descriptions aprioriques du Dictionnaire Intégral  RENVOIPAGE _Toc504533351 \h 77
3.1 Principes minimaux de construction du Dictionnaire Intégral  RENVOIPAGE _Toc504533352 \h 77
3.1.1 Les principes minimaux de modélisation des mots-sens  RENVOIPAGE _Toc504533353 \h 77
3.1.1.1 Exposé général : l’exemple de renard  RENVOIPAGE _Toc504533354 \h 77
3.1.1.2 Cinq autres exemples  RENVOIPAGE _Toc504533355 \h 83
3.1.1.3 Peut-on sélectionner a priori certains traits sémantiques ?  RENVOIPAGE _Toc504533356 \h 90
3.1.2 Les principes minimaux de création des concepts.  RENVOIPAGE _Toc504533357 \h 92
3.2 L’ineffable dans le langage du Dictionnaire Intégral  RENVOIPAGE _Toc504533358 \h 96
3.2.1 Les propositions courantes  RENVOIPAGE _Toc504533359 \h 96
3.2.2 La non-prise en compte de la localisation dans le temps et l’espace  RENVOIPAGE _Toc504533360 \h 97
3.2.3 La non-prise en compte de la négation (en général)  RENVOIPAGE _Toc504533361 \h 97
3.2.4 L’impossibilité de déclarer certains traits de sens  RENVOIPAGE _Toc504533362 \h 97
3.2.5 La non-prise en compte de la rhétorique et de la thématique  RENVOIPAGE _Toc504533363 \h 97
3.2.6 Conclusion sur le point  RENVOIPAGE _Toc504533364 \h 98
3.3 Implémentation informatique des données du Dictionnaire Intégral  RENVOIPAGE _Toc504533365 \h 98
3.3.1 Principes de représentation  RENVOIPAGE _Toc504533366 \h 99
3.3.2 Modèle entité-relation des données.  RENVOIPAGE _Toc504533367 \h 103
Partie 2 : Le Sémiographe  RENVOIPAGE _Toc504533368 \h 105
4. L’architecture des composants et les traitements phonétiques, morphologiques syntaxiques et lexicaux du sémiographe  RENVOIPAGE _Toc504533369 \h 107
4.1 Une architecture particulière de composants linguistiques qui utilise la plupart des experts  RENVOIPAGE _Toc504533370 \h 108
4.2 Les experts morpho-phonétiques  RENVOIPAGE _Toc504533371 \h 109
4.2.1 Le phonétiseur du Sémiographe  RENVOIPAGE _Toc504533372 \h 109
4.2.2 Les experts morphologiques du Sémiographe  RENVOIPAGE _Toc504533373 \h 110
4.2.2.1 Les experts de lemmatisation  RENVOIPAGE _Toc504533374 \h 110
4.2.2.2 Les outils de flexion  RENVOIPAGE _Toc504533375 \h 113
4.3 L’analyseur syntaxique du Sémiographe  RENVOIPAGE _Toc504533376 \h 113
4.4 Les experts lexicaux du Sémiographe  RENVOIPAGE _Toc504533377 \h 116
4.4.1 Les experts lexicaux  RENVOIPAGE _Toc504533378 \h 117
4.4.1.1 Synonyme et antonyme du mot-sens clé  RENVOIPAGE _Toc504533379 \h 117
4.4.1.2 Spécifique du mot-sens clé  RENVOIPAGE _Toc504533380 \h 118
4.4.1.3 Générique du mot-sens clé  RENVOIPAGE _Toc504533381 \h 119
4.4.1.4 Les lieux inclus  RENVOIPAGE _Toc504533382 \h 120
4.4.1.5 Les lieux « incluant »  RENVOIPAGE _Toc504533383 \h 121
4.4.1.6 Les dérivés  RENVOIPAGE _Toc504533384 \h 122
4.4.1.7 Les équivalents de traduction  RENVOIPAGE _Toc504533385 \h 122
4.4.2 L’enchaînement des experts lexicaux et leurs usages  RENVOIPAGE _Toc504533386 \h 123
4.4.2.1 L’enchaînement des fonctions lexicales  RENVOIPAGE _Toc504533387 \h 123
4.4.2.2 Autres extractions : le filtrage paradigmatique et l’expansion de requêtes…  RENVOIPAGE _Toc504533388 \h 125
5. Quelques opérations texte(sens du Dictionnaire Intégral  RENVOIPAGE _Toc504533389 \h 127
5.1 La désambiguïsation des mots-sens dans la littérature récente  RENVOIPAGE _Toc504533390 \h 127
5.1.1 Les systèmes fonctionnant à l’aide de corpus annotés  RENVOIPAGE _Toc504533391 \h 128
5.1.2 Les systèmes fonctionnant depuis des corpus non annotés  RENVOIPAGE _Toc504533392 \h 129
5.1.3 Les systèmes fonctionnant sans corpus  RENVOIPAGE _Toc504533393 \h 131
5.1.4 Conclusion  RENVOIPAGE _Toc504533394 \h 131
5.2 Les opérations de distance sémantique du Sémiographe  RENVOIPAGE _Toc504533395 \h 132
5.2.1 Principe général  RENVOIPAGE _Toc504533396 \h 133
5.2.1.1 Exposé du problème  RENVOIPAGE _Toc504533397 \h 133
5.2.1.2 L’algorithme de calcul des PPPCS et des PPPCNS  RENVOIPAGE _Toc504533398 \h 136
5.2.1.3 La justification du mode de calcul par quelques exemples  RENVOIPAGE _Toc504533399 \h 138
5.2.1.4 Les cas supplémentaires traités dans l’algorithme  RENVOIPAGE _Toc504533400 \h 140
5.2.1.5 Les paramètres d’activation et de proximité sémantique  RENVOIPAGE _Toc504533401 \h 141
5.2.2 Résultats concrets de désambiguïsation sémantique  RENVOIPAGE _Toc504533402 \h 142
5.2.2.1 Étude détaillée de « Information sur le sens d’un énoncé »  RENVOIPAGE _Toc504533403 \h 142
A] La vision macroscopique de l’activation  RENVOIPAGE _Toc504533404 \h 142
B] La vision très analytique de la proximité sémantique  RENVOIPAGE _Toc504533405 \h 147
C°] Synthèse concernant les critères de choix entre les fonctions d’activation et de proximité sémantique.  RENVOIPAGE _Toc504533406 \h 153
5.2.2.2 Résultats sur les autres exemples (fonction d’activation seule utilisée)  RENVOIPAGE _Toc504533407 \h 154
5.2.3 Commentaires des résultats  RENVOIPAGE _Toc504533408 \h 155
5.2.3.1 Commentaire statistique  RENVOIPAGE _Toc504533409 \h 155
5.2.3.2 Commentaire critique : le bon sens  RENVOIPAGE _Toc504533410 \h 156
6. Les opérations applicatives texte(sens(texte du Dictionnaire Intégral  RENVOIPAGE _Toc504533411 \h 159
6.1 La réduction lexicale et le dictionnaire à l’envers  RENVOIPAGE _Toc504533412 \h 160
6.1.1 Problème posé  RENVOIPAGE _Toc504533413 \h 160
6.1.2 Architecture  RENVOIPAGE _Toc504533414 \h 161
6.1.3 Quelques résultats actuels et commentaires  RENVOIPAGE _Toc504533415 \h 162
6.2 Le résumé de textes  RENVOIPAGE _Toc504533416 \h 165
6.3 La sélection des mots pouvant rentrer dans les paraphrases d’énoncés courts pour l’expansion de requêtes  RENVOIPAGE _Toc504533417 \h 166
6.4 La sélection de contextes pour le filtrage d’informations  RENVOIPAGE _Toc504533418 \h 167
6.5 L’extraction d’informations structurées  RENVOIPAGE _Toc504533419 \h 168
6.6 La signature sémantique d’un texte  RENVOIPAGE _Toc504533420 \h 173
6.7 L’accès aux nomenclatures et le routage de documents  RENVOIPAGE _Toc504533421 \h 174
6.7.1 L’accès à un élément de nomenclature  RENVOIPAGE _Toc504533422 \h 174
6.7.2 Le routage  RENVOIPAGE _Toc504533423 \h 175
6.7.2.1 La classification automatique de documents  RENVOIPAGE _Toc504533424 \h 175
6.7.2.2 Le routage de courriers  RENVOIPAGE _Toc504533425 \h 177
6.8 La comparaison de deux textes  RENVOIPAGE _Toc504533426 \h 179
7. Conclusion  RENVOIPAGE _Toc504533427 \h 181
8. ANNEXES  RENVOIPAGE _Toc504533428 \h 197
8.1 Probabilité de résolution aléatoire de l’exemple 2  RENVOIPAGE _Toc504533429 \h 197
8.2 Extraits syntaxiques  RENVOIPAGE _Toc504533430 \h 201
8.3 Corrélats de billard trouvés dans la partie de billard (Alphonse Daudet, les contes du lundi)  RENVOIPAGE _Toc504533431 \h 206
9. Bibliographie  RENVOIPAGE _Toc504533432 \h 209
 Introduction
Une sémantique linguistique universaliste a priori pour des opérations sens(texte et texte(sens
Une sémantique linguistique
La définition du mot sémantique est souvent linguistique. D’après le dictionnaire Le Petit Robert (1991), c’est une « théorie visant à rendre compte des phénomènes signifiants dans le langage ». On rencontre aussi des acceptions plus larges. Dans la version non abrégée de ce dictionnaire (Le Robert 1983), c’est le « nom de diverses disciplines à caractère plus philosophique que linguistique ». Cette dernière acception ouvre sur des définitions très larges. Chez Alfred Korzybski (1933) le mot sémantique engendre le terme sémantique générale qui recouvre une « étude sociale, psychologique et logique du signe ». Le romancier A.E. Van Vogt, membre de l’Institut de Sémantique Générale, précise cette définition (1970) : « La sémantique générale traite du sens des significations. De ce fait, elle transcende et surpasse la linguistique ».
La sémantique générale vise à décrire des systèmes doués de facultés cognitives. Elle étudie l’écart entre la signification des textes et leur appropriation cognitive. Des exemples de tels systèmes comprendraient l’étude du fonctionnement d’une machine capable de jouer à un jeu consécutivement à la lecture de ses règles ou les conditions de l’invention de l’ordinateur HAL du film 2001, l’Odyssée de l’espace.
Les règles d’un jeu sont écrites en une langue donnée. HAL parle une langue. Quel rapport existe-t-il entre les textes d’une langue et l’application d’une règle de jeu ou les facultés de HAL ? Ce rapport est l’objet de la sémantique générale qui étudie le

Sens (des (significations (c-à-dReprésentation (mentale, psychologique), compréhensionqui est propre auxinterprétations linguistiques : sens littéraux en contexte, sens linguistiques.
Nous voyons que la sémantique générale admet comme point de départ un sens linguistique résolu. Si le projet de la sémantique générale est séduisant, il faut noter que le présupposé de résolution est audacieux : du fait de l’ambiguïté apparente du langage naturel quand il est considéré indépendamment de mécanismes de désambiguïsation supposés et non apparents, le sens linguistique ne nous est pas encore donné. C’est pourquoi notre thèse développe des mécanismes de désambiguïsation qui participent à la restitution automatique du sens linguistique.
L’ambiguïté recouvre des aspects lexicaux et syntaxiques. L’ambiguïté lexicale tient en la polysémie et en l’homonymie de la plupart des mots de la langue. La polysémie est, en linguistique synchronique, le caractère d'un signe qui à catégorie grammaticale constante possède plusieurs signifiés à noyau commun. Le mot abattre est polysémique quand, à partir du noyau faire tomber, il devient détruire (une chose érigée) ou couper (un arbre dressé). L’homonymie est le caractère d’un signe qui a plusieurs signifiés entièrement disjoints. Dans la phrase l’aide-comptable a sorti un bilan complet alors même que le brouillard n’a pas été validé, les mots bilan et brouillard ont des significations lexicales particulières que nous chercherons à restituer automatiquement. L’ambiguïté syntaxique tient en la difficulté de rattacher d’une manière unique les groupes d’une proposition et à associer des fonctions syntaxiques à ces rattachements. La résolution de l’ambiguïté syntaxique a pour objet la détermination de l’équivalence de deux propositions paraphrastiques d’un même sens linguistique. La restitution de la signification syntaxique conduit à produire des sens linguistiques voisins pour les énoncés l’embouteillage des liquides est effectué automatiquement par des machines spécifiques et des machines spécialisées mettent en bouteille automatiquement les liquides.
Ces tâches que nous regroupons sous le nom de restitution automatique de la signification définissent l’objet de notre sémantique linguistique qui se donne deux hypothèses fondatrices :
premièrement, il n’est pas possible de restituer automatiquement des significations non bruitées, c’est-à-dire uniquement et exactement les bonnes significations, dans tous les cas de figure sans disposer d’un module traitant du sens des significations (compréhension générale). Sans ce module, la restitution ne peut produire qu’un sur-ensemble des significations acceptables, toute compréhension égale par ailleurs.
deuxièmement, il existe des mécanismes linguistiques capables de limiter le nombre de significations linguistiques possibles. Nous décrirons les mécanismes linguistiques que nous utilisons actuellement.
Les opérations sémantiques texte(sens et sens(texte
La restitution automatique des significations de diverses composantes d’un énoncé linguistique met en œuvre deux types d’opérations linguistiques :
Une opération qui part du texte et construit des significations à partir des composantes linguistiques : syntagme, proposition et texte. Quelque que soit la composante linguistique étudiée, nous appelons l’opération qui part du texte pour construire des significations, l’opération texte(sens.
Une opération qui part d’un sens linguistique et aboutit à différentes formulations linguistiques de cette signification. Nous nommons sens(texte cette opération.
La dualité des opérations texte(sens et sens(texte pourrait laisser croire en une complète indépendance des deux opérations. Une grande interdépendance des deux opérations doit au contraire être admise.
A l’évidence, sens(texte dépend de texte(sens puisque l’entité sens n’a pas d’existence extérieure à notre propre subjectivité et que l’entité texte existe en nombre inépuisable. Montrer que texte(sens dépend de sens(texte nécessite une réflexion plus détaillée. L’opération texte(sens peut aboutir pour la phrase à l’élaboration d’une structure sémantique (Ssém chez Mel’Cuk) qui serait un réseau dont « les nœuds sont étiquetés par des sémantèmes de la langue et dont les arcs représentent des relations prédicatsarguments » (Mel’Cuk 1999). Si l’on souhaite l’entité sens unique pour l’ensemble des paraphrases d’une phrase, l’opération texte(sens met en œuvre :
des opérations texte(sens qui effectuent :
au plan syntaxique,
une différenciation des énoncés des machines spécifiques embouteillent automatiquement les liquides et des liquides embouteillent automatiquement les machines spécifiques puisque « l’ordre des mots » de texte « est important » (Journet 1999)
deux représentations profondes de il a parlé de voyage avec Emma puisque « l’ordre des regroupements des mots est important » (Journet 1999)
au plan lexical, une restitution des significations lexicales
des opérations sens(texte qui effectuent :
au plan syntaxique,
un rapprochement de les chiens craignent (avoir peur ) les hommes et l’homme effraie (faire peur) aux chiens en prenant en compte la direction de la prédication (Journet 1999)
une même représentation de l’embouteillage s’effectue par des machines spécifiques et des machines spécifiques embouteillent
au plan lexical, une même représentation par réduction lexicale de monnaie du Japon en yen.
D’une façon générale, sens(texte doit être utilisé pour dédoublonner des propositions du point de vue de leur représentation syntaxique profonde.
Parmi les opérations décrites ici dans leur interdépendance, notre thèse étudiera particulièrement l’opération sens(texte de réduction lexicale et texte(sens de restitution des significations lexicales.
Une sémantique universaliste a priori
Sur un plan très général, nous insisterons sur une relative indépendance du linguistique par rapport aux mécanismes de compréhension mis en jeu dans ce que Hiz (1964) a nommé une sémantique forte ou par rapport à ce que nous avons décrit de la sémantique générale. Cette affirmation d’indépendance du linguistique se traduit par deux caractères parfois contestés de nos orientations sémantiques.
Le premier de ces caractères est l’universalisme. Par universalisme, nous entendons fondamentalement que :
les unités lexicales disposent de significations indépendamment de tous leurs contextes ; ces significations hors contexte sont données par le code de chaque langue. Ce point renvoie à l’activité sémasiologique proprement dite qui, partant du signe linguistique renvoie d’autres unités linguistiques qui lui correspondent.
les significations ne sont pas des suites de signes linguistiques. Ce point renvoie à une sémasiologie comportant une dimension terminologique. Cette sémasiologie associe aux unités linguistiques des champs conceptuels.
pour chaque signification, l’ensemble des formulations est donné. Ce point renvoie à l’activité onomasiologique qui part des concepts et des champs conceptuels et retourne l’ensemble des formulations linguistiques qui lui correspondent.
la signification d’une unité lexicale utilisée dans un contexte présente toujours un rapport avec le sens des significations qui est élaboré « par un sujet donné dans un contexte d’énonciation donné » (Sabah 1997, pp. 91-133)
il existe un nombre fini d’unités lexicales et de significations à connaître pour pouvoir accéder par l’analyse des textes (comme un dictionnaire) à d’autres unités lexicales et d’autres significations.
Le deuxième de ces caractères est l’apriorisme. Par apriorisme, nous entendons fondamentalement que :
les contextes d’apparition des significations lexicales peuvent être décrits indépendamment de tout domaine des connaissances, de toute pragmatique et de toute application particulière
les contextes des significations lexicales disposent de valeurs sémantiques particulières que nous nommerons concepts
les concepts des contextes constituent soit des connaissances linguistiques, soit des connaissances du monde.
Par exemple, l’apriorisme permet de déclarer, sans justification, l’activité (concept) de \pêche. Dans \pêche, les mots pêcheur, filet et prise sont semblables entre eux (bien que sur le plan des significations universalistes, ils soient très différents). Pour d’autres concepts, comme \personne, \pêcheur, \filet et \prise sont totalement différents. L’apriorisme permet d’une part, de déclarer \pêche ou \personne sans préjuger de leur utilité pour traiter d’un texte réel, d’autre part, d’admettre qu’il n’y a pas d’unité à attendre des descriptions aprioriques puisque l’unité n’existe qu’a posteriori, comme interprétation de l’expérience contenue dans un texte réel.
L’universalisme et l’apriorisme caractérisent les grandes bases de connaissances et fait leur force : l’universalisme fournit les hypothèses par les différentes significations connues, l’apriorisme procure des clés de résolution au moyen des associations proposées par les concepts. Cependant, des auteurs qui s’intéressent à l’opération texte(sens rejettent hors du champ de la sémantique linguistique les qualificatifs universaliste et a priori. Par exemple, Rastier (1987, p.33) note :
Formulons à présent une définition du sème ... que nous empruntons à Pottier : « le sème est le trait distinctif sémantique d’un sémème, relativement à un petit ensemble de termes réellement disponibles et vraisemblablement utilisables chez le locuteur dans une circonstance donnée de communication » (1980a, p. 169) . Elle ne peut que chagriner les tenants d’une sémantique universaliste a priori.
Pourtant il semble bien que cette association de l’universalisme et de l’apriorisme soit nécessaire si l’on veut un jour pouvoir calculer le sens de la phrase « toute simple » (Sabah 1997) je reviendrai. Pour cette phrase, Robert Martin (1983) cité par Sabah (1997) évalue pragmatiquement le sens de promesse à la fin d’une visite médicale, celui de compliment de la part d’un client, d’avertissement de la part d’un agent s’adressant à un contrevenant mal garé, de consolation de la part d’un soldat qui part au front. Pour cette phrase, étudions ici les hypothèses d’universalisme et d’apriorisme.
Cette étude doit-elle nous conduire à réfuter l’intérêt d’une base universaliste ? Supposons d’abord que l’on accepte la réfutation de l’universalisme. Dans ce cas, je reviendrai est absent du dictionnaire. De même, une expression synonymique comme je repasserai est également exclue. Fondamentalement, je reviendrai et je repasserai ont une signification commune que l’on peut formuler comme suit : \ce que l’on dit en prenant congé d’une personne en voulant lui exprimer que l’on pense la revoir bientôt. On peut énumérer une liste d’expressions françaises susceptibles de prendre cette valeur. Ces expressions sont par exemple à bientôt, à demain, à tout à l’heure, à plus tard, à plus, à +, à la prochaine fois, à la prochaine… Or nombre de ces expressions sont des entrées ou des sous-entrées de dictionnaires de français contemporain. Selon quels critères à bientôt, à plus ou à demain seraient-ils des entrées du dictionnaire de langue et je repasserai ou je reviendrai n’en seraient-ils pas ? Parmi les critères, le critère le plus courant est celui de la calculabilité de la signification : une expression appartient au dictionnaire si sa signification ne peut pas être déduite de l’analyse des significations de ces constituants. On peut débattre de l’application de ce critère à chacun des vocables que nous venons de citer. Du fait que l’on pourrait fournir une explication en terme de constituants de la signification de chacun de ces vocables, il est possible de défendre le retrait de chacune de ces expressions du dictionnaire. Pour conserver son rôle d’accès à la langue, en retour de cette suppression, le dictionnaire devrait alors fournir les clés d’interprétation des expressions soustraites. Cela est certainement possible au prix d’une refonte complète des dictionnaires et surtout d’un abaissement important de leur accessibilité et de leur lisibilité. Mais le rôle du dictionnaire ne se limite pas à l’explication de la signification (opération texte(sens). Le dictionnaire doit aussi renseigner sur l’usage (opération sens(texte). Si l’on peut imaginer que l’explication des parties puisse rendre compte de la valeur d’une expression rencontrée (opération texte(sens), on ne peut concevoir que d’un énoncé des parties puisse naître seulement les expressions usuelles d’une langue à un moment donné (opération sens(texte). Ainsi, reporter l’usage dans un répertoire (dictionnaire) c’est nécessairement consacrer l’entrée dans le dictionnaire de vocables dont on peut concevoir que leur signification globale se déduit de la signification de leurs constituants. De là vient que à bientôt, à demain, à tout à l’heure, à plus tard, à plus... appartiennent nécessairement à la nomenclature du dictionnaire. Dans cette mesure, il devient impossible de réfuter l’intérêt et même la nécessité d’une base universaliste. Pour notre exemple je reviendrai, comme il est aussi d’usage d’employer cette expression pour \ce que l’on dit en prenant congé d’une personne en voulant lui exprimer que l’on pense la revoir bientôt, il devient naturel que l’expression je reviendrai (ou une quelconque représentation qui aboutirait à je reviendrai) appartienne également à la nomenclature. Dans le dictionnaire universaliste, comme pour chaque signification l’ensemble des formulations est donnée, le concept \ce que l’on dit en prenant congé d’une personne en voulant lui exprimer que l’on pense la revoir bientôt comprend nécessairement l’ensemble des expressions que nous venons de recenser à moins d’accepter de ne pas refléter l’usage.
Considérons maintenant l’apriorisme. Cette étude doit-elle nous conduire à réfuter l’intérêt d’une base apriorique ? Nous admettons désormais que les expressions je reviendrai ou à bientôt appartiennent au dictionnaire universaliste. Ces expressions ont en commun le concept \ce que l’on dit en prenant congé d’une personne en voulant lui exprimer que l’on pense la revoir bientôt. L’apriorisme propose que l’usage d’un mot est conditionné par des contextes d’apparition qui peuvent être donnés indépendamment de tout domaine de connaissances et de toute situation pragmatique identifiée fournie par une application. Ainsi, l’on se demande dans quel cas on utilise l’une des expressions qui appartiennent à notre concept. Pour la partie \ce que l’on dit en prenant congé d’une personne, le contexte de prendre congé est donné. Il reste à justifier les conditions d’emploi de \...en voulant lui exprimer que l’on pense la revoir bientôt. Il s’agit d’une promesse plus ou moins marquée d’une nouvelle rencontre future. Plus généralement, il s’agit d’une promesse d’une réalisation future d’un événement. Il nous semble que d’une façon définitoire toute promesse d’une réalisation future d’un événement porte une menace ou une espérance, une valeur positive ou négative, par exemple quelque chose qui pourra faire office de consolation ou de compliment pour l’immédiat, d’avertissement c’est-à-dire d’encouragement à cesser ou d’encouragement à continuer pour le futur. C’est là précisément le résultat de l’analyse de Martin. Ainsi, plutôt que de contribuer à réfuter l’apriorisme, cette analyse aboutit à une affirmation de la nécessité des descriptions aprioriques des contextes d’apparition des expressions linguistiques. En conclusion, nous suggérons que le sens pragmatique d’un énoncé est pleinement donné par ses significations lexicales si les descriptions aprioriques, qui permettent de sélectionner en contexte certains concepts plutôt que d’autres, sont complètes.
Arrivé à ce point, nous pouvons nous demander si notre sémantique universaliste et apriorique appartient davantage à la sémantique générale et est donc en-dehors du champ linguistique ou si, au contraire, elle appartient au champ linguistique. Rappelons que notre projet consiste essentiellement à déterminer la signification des mots en contexte. Comme Wilks (1999), nous nous posons la question « Est-ce que la désambiguïsation des mots-sens est juste une tâche supplémentaire du traitement automatique des langues ? ». Pour notre exemple, cette question devient : « Est-ce que la désambiguïsation de je reviendrai est juste une tâche particulière du traitement automatique des langues ? ». L’universalisme à travers la nécessité de répertorier l’usage a consacré (directement ou par modèles) je reviendrai comme mot. L’apriorisme par induction des significations a conduit à déclarer les potentialités de promesse ou de menace sans nous imposer l’énumération de l’ensemble des situations pragmatiques possibles. Finalement nous répondons positivement à la question « Est-ce que la désambiguïsation de je reviendrai est juste une tâche particulière du traitement automatique des langues ? ». Et avec Wilks nous soutenons que la désambiguïsation des mots-sens est pour l’essentiel juste une tâche supplémentaire du traitement automatique des langues. Comme la description des mots-sens appartient à la sémantique linguistique, nous concluons que notre sémantique universaliste et apriorique appartient au champ linguistique et non à la sémantique générale.
Quelques problèmes posés par l’universalisme et l’apriorisme
Les trois principales objections posées à l’universalisme et à l’apriorisme sont les suivantes :
il est permis de douter qu’un système artificiel doté hors domaine d’un grand nombre de descriptions universalistes puisse retrouver grâce à des descriptions données a priori les bons éléments de significations lexicales.
il est possible de croire qu’un nombre important des descriptions contextuelles embrouille davantage le système qu’il ne l’aide à résoudre les ambiguïtés.
en supposant que ni l’universalisme ni l’apriorisme ne sont des pièges pour un système automatique, il reste que nombre de personnes doutent que l’on puisse construire, automatiquement ou manuellement, de grandes bases de connaissances.
Les deux premières objections constituent le cœur des critiques formulées contre les grandes bases de connaissances : un système automatique ne peut pas réaliser l’idéal universel de la déclaration de toutes les significations possibles d’une part, sélectionner les sèmes pertinents d’autre part, sans disposer de mécanismes de compréhension profonde. Pour ces deux objections, en reprenant la tournure de phrase de Todorov (cité dans Rastier 1987, p. 30), nous formulons : nous ne disposons pas de critères formels pour délimiter les sèmes automatiquement. La sémantique componentielle a choisi de croire qu’un jour on arriverait à trouver ce critère et pour l’instant agit comme si cela était fait. Du fait même qu’il est malaisé de délimiter les sèmes automatiquement, il est urgent de noter, référencer, mémoriser et mettre en système les sèmes que l’on a cru découvrir par l’étude.
La troisième objection est clairement formulée par Victorri (1998) :
Les projets grandioses de constitution de vastes bases encyclopédiques, comme le projet CYC, ont semble-t-il fait long feu. La plupart des chercheurs en Intelligence Artificielle reconnaissent aujourd'hui qu’il n'est pas réaliste d'envisager, dans un avenir prévisible en tout cas, des systèmes généralistes capables de modéliser l’ensemble des connaissances de base que les humains utilisent dans leurs conversations quotidiennes.
Il faut toutefois noter que le texte de Victorri cite la constitution de bases encyclopédiques et donc concerne davantage la sémantique générale que la sémantique au plan linguistique. Il n’en reste pas moins vrai que l’opinion trouve suspecte les grandes bases de connaissances linguisticosémantiques et que cette opinion contribue à ralentir les développements de ces bases. Malgré l’opinion répandue, nous décrirons ici une grande base de connaissances linguisticosémantiques et ses principales compétences actuelles en terme de traitement automatique.
Les opérations linguistiques traitées dans la thèse
La thèse décrit :
des opérations non sémantiques préalables aux opérations sémantiques
des opérations sens(texte
des opérations texte(sens(texte.
Les opérations non sémantiques
Les opérations non sémantiques concernent les niveaux phonétiques, morphologiques, syntaxiques et lexicales fondées sur le Dictionnaire Intégral.
Les opérations phonétiques
La phonétique permet au Sémiographe de redresser certaines fautes d’orthographe.
Ex : ortaugrafe --> orthographe
Deux opérations sont décrites :
la première opération associe à une chaîne de caractères sa phonétique la plus courante en français
la deuxième opération associe à une chaîne de caractères des phonétiques moins probables mais possibles.
Les opérations morphologiques
Les opérations de lemmatisation et de flexion sont abordées pour les mots simples et les mots composés. L’architecture est capable de gérer plusieurs langues. Cinq langues (le français, l’anglais, l’italien, l’espagnol et l’allemand) peuvent être testées.
Exemples
Flexion : cheval --> cheval, chevaux
Lemmatisation : chevaux --> cheval
Lemmatisation : donna largement libre cours à --> donner libre cours à + largement
Flexion : man --> man, men
Lemmatisation : men --> man
Les opérations syntaxiques
Les résultats d’une analyse syntaxique de surface comprenant les rattachements de groupe dans le cadre de phrases simples ou complexes sont donnés. En cas de succès, l’analyseur syntaxique effectue cette opération jusqu’à l’obtention d’un arbre syntaxique complet pour une phrase. En cas d’échec, l’analyseur syntaxique effectue des résolutions partielles de la phrase dans laquelle certains groupes ne sont pas raccordés entre eux. Ce mode permet de traiter de phrases incorrectes (sans toutefois les corriger) ou des phrases dont la complexité dépasse les 1500 règles de l’analyseur actuel.
Les opérations lexicales d’une langue vers une même langue
Le dictionnaire est capable de retourner pour un mot-sens particulier, ou même pour un mot, de nombreux autres mots par l’exploration des fonctions lexicales (FL) directes ou indirectes attachées au mot. Citons ici quelques exemples :
des synonymes : automobile, voiture
des hyperonymes et des hyponymes 
hyperonyme (fleuriste)={vendeur, commerçant, personne, …}
hyponyme (fleuriste)={bouquetier}
des lieux inclus et des lieux incluants
Lieux inclus (Calvados)={Caen(ville), Bayeux(ville), ... Orne (rivière), ...Bessin (pays)...}
Lieux incluants (Calvados)={Basse-Normandie(région), France(Etat),…, Europe(Continent), ...Terre(planète), Système Solaire(système planétaire)...}
des dérivés
Rel(Caen)={caennais}
Action(améliorer)={amélioration}
Caractère(rouge)= {rougeur}
Agentif(photocopier)= {photocopieur}
Dans de nombreux cas, les FL participent aussi bien aux opérations texte(sens et texte(sens(texte ; cependant leur rôle dans l’opération texte(sens de restitution des significations lexicales sera souvent limité puisque les co-textes d’apparition du mot concerné seront rarement les mots obtenus par les fonctions lexicales de ce mot.
Les opérations lexicales d’une langue vers une autre langue
En matière de traduction les objectifs essentiels du système sont d’éviter les contresens importants : c’est l’opération texte(sens. Le choix d’une traduction pour une acception (l’opération sens(texte) ne sera pas spécifiquement traité dans cette thèse. Notre propos consistera donc principalement à contribuer à abaisser le nombre d’erreurs des systèmes actuels de traduction automatique qui aujourd’hui proposent les traductions suivantes du mot brouillard :
L’accident est survenu par temps de brouillard ( the accident occured by fog
Le solde du brouillard est incorrect ( the balance of the fog is incorrect
L’opération texte(sens de désambiguïsation lexicale
Cette opération a pour objet la restitution automatique des identifiants de signification fournis par le Dictionnaire Intégral. Ce dictionnaire est un référentiel sémantique qui couvre l’ensemble de la langue française : c’est sa dimension universaliste. Le Dictionnaire Intégral comprend dans son organisation des mécanismes intégrés de désambiguïsation hors domaine : c’est sa dimension apriorique. L’organisation apriorique du Dictionnaire Intégral permet d’évaluer en contexte les mot-sens. Il est intéressant d’évaluer la difficulté de la tâche.
Supposons d’abord que notre référentiel sémantique soit le dictionnaire Le Robert et que les mots-sens soient identifiés par la numérotation de ce dictionnaire. Pour l’énoncé information sur le sens d’un énoncé, nous fournissons la liste des significations des mots lexicaux de ces énoncés tels que les propose Le Robert. Ensuite nous calculons la probabilité d’une détermination aléatoire des bons sens lexicaux. L’annexe 1 effectue la même présentation pour L’aviateur, abattu en plein vol, réussit à rejoindre ses lignes en manœuvrant son parachute.
Désambiguïsation lexico-sémantique de « information sur le sens d’un énoncé »
Dans le Robert, nous lisons :
information
-I. Dr. et cour. « Ensemble des actes qui tendent à établir la preuve d’une infraction, et à en découvrir les auteurs » (Capitant).
-II. (1495). Didact. et vx. Action de donner une forme (- Informer, I.).
-III.
- 1. (V. 1360). Renseignement* (sur qqn, qqch.).
- 2. (1867). Action de s’informer, de prendre des renseignements.
- 3. (1902). Renseignement ou événement qu’on porte à la connaissance d’une personne, d’un public.
- 4. (Déb. XXe). Ensemble des informations, et, par ext., action d’informer le public, l’opinion.
-IV. (V. 1950; angl. information). Sc. Élément ou système pouvant être transmis par un signal ou une combinaison de signaux (- Message) appartenant à une structure commune (- Code); ce qui est transmis (objet de connaissance, de mémoire).
Notons Sp, le nombre de sens principaux. Sp= 4.
Notons Ss, le nombre de sous-sens. Ss= 8.
Nous souhaitons voir sélectionné le sens principal 3. Notons Spr, le nombre de sens principaux que nous avons retenu. Spr = 1.
Notons Ssr le nombre de sous-sens que nous retenons. Ssr = 3 (par exemple).
sens
-I.
- 1. Faculté d’éprouver les impressions que font les objets matériels (- Sensation); chaque système récepteur unitaire d’une modalité spécifique de sensations, correspondant, en gros, à un organe déterminé.
- 2. (Au pluriel). LES SENS : source de plaisirs.
- 3. LE SENS DE..., LE SENS (et adj.) : « faculté de connaître d’une manière immédiate et intuitive (comme celle que paraissent manifester les sensations proprement dites) », Lalande.
-II. Vx. Faculté de bien juger.
- 1. - Discernement, entendement, jugement, raison. Un grand sens (- Haut, cit. 45; héros, cit. 10).
- 2. (1167). BON SENS. [a] Philos. (chez Descartes). Vx. Raison*.
[b] Mod., cour. Capacité de bien juger, sans parti pris, sans passion, en présence de problèmes, de questions qui ne peuvent être résolus par un raisonnement rigoureux, scientifique.
- 3. SENS COMMUN (lat. sensus communis) : manière de juger, d’agir commune à tous les hommes (qui équivaut au bon sens). - Égarement, cit. 5; projet, cit. 3.
- 4. (Dans à mon, à son sens..., dans le sens, en un sens, etc.). Manière de comprendre, de juger (d’une personne). - Avis, gré, opinion, point (de vue), sentiment.
-III. (De II., 4.).
- 1. Cour. Idée ou ensemble intelligible d’idées que représente un signe* ou un ensemble de signes.
- 2. Ce qu’un signe (notamment un signe du langage) signifie.
- 3. Idée intelligible à laquelle un objet de pensée peut être rapporté et qui sert à expliquer, à justifier son existence.
Nous avons retenu le sens III.2
Sp = 3
Ss = 10
Spr = 1
Ssr = 1
énoncé
- 1. Cour. Action d’énoncer; énonciation, déclaration.
- 2. Formule, ensemble de formules exprimant qqch.
- 3. Ling. Résultat de l’énonciation (opposé à énonciation).
Le sens 3 semble correspondre.
Sp = 3
Ss = 3
Spr = 1
Ssr = 1
Pour cet exemple information sur le sens d’un énoncé qui est composé de trois mots lexicaux, la probabilité de restituer aléatoirement les bonnes significations est (dans le contexte du référentiel sémantique du Grand Robert) :
pour les sens principaux : 1/36
pour les sous-sens : 1/80.
 Désambiguïsation lexico-sémantique de « L’aviateur, abattu en plein vol, réussit à rejoindre ses lignes en manœuvrant son parachute »
L’annexe 1 détaille cet exemple. Elle ne traite que les mots au caractère homonymique suffisamment marqué : abattre - vol - réussir - rejoindre – ligne. Pour ces mots, la probabilité de restitution aléatoire des bonnes significations est :
pour les sens principaux : 1/900
pour les sous-sens : 1/30982.
Les probabilités que nous venons de calculer montrent la difficulté qu’il y a à désambiguïser automatiquement les mots des textes. En terme d’occurrence, il faut considérer qu’un mot lexical a en moyenne 2,5 sens principaux et 8 sous-sens du fait que les mots les plus employés de la langue sont aussi les plus polysémiques. Nous laissons au lecteur le soin d’estimer les probabilités de restitution aléatoire de la bonne signification des énoncés suivants qui seront également traités dans cette thèse.
 Autres exemples
Nous traiterons d’une manière détaillée dans cette thèse, en plus des exemples précédents, les exemples suivants :
L’avocat mange un avocat.
Et sur le mot RENARD :
Le renard est un mangeur de poules
Le renard propage la rage
Les renards mettent en danger la solidité du barrage
Elle porte un manteau de renard
Méfies-toi. C’est un renard. Il joue la comédie.
Le renard de mer est un poisson
Les opérations texte-->sens-->texte
Nous présenterons huit opérations texte(sens(texte complètes :
la réduction lexicale en contexte (monnaie de Hiro-Hito --> yen) ou dans le cadre du dictionnaire à l’envers (monnaie japonaise --> yen)
le résumé de texte au plan lexical
La sélection des mots pouvant rentrer dans les paraphrases d’énoncés courts pour l’expansion de requêtes
La sélection de contextes (co-texte) pour le filtrage d’informations
L’extraction d’informations factuelles
la signature sémantique d’un texte
la classification automatique, le routage, l’accès aux nomenclatures
La gestion de l’opération de réduction et le dictionnaire à l’envers.
Une utilisation importante de l’organisation du dictionnaire en terme d’hyperonyme et d’hyponyme est fournie par l’opération de réduction : quand, dans un article d’économie, un journaliste écrit la monnaie d’Hiro-Hito, comment est-il possible de déterminer la valeur yen alors que ce dernier est peut-être totalement absent du co-texte d’apparition de l’expression à réduire (ici : monnaie de...). Dans ce sens, l’opération de réduction participe à la réalisation d’une opération texte(sens en effectuant, avec succès, cette réduction qui consiste finalement en une opération complète texte(sens(texte(sens.
Une autre utilisation de cette opération réside dans le projet de dictionnaire à l’envers, ou, comment répondre à une question d’un utilisateur formulée comme suit : quels sont les mots, s’il y en a, qui me permettent d’exprimer tel sens ou tel nuance... ? La thèse étudiera d’une manière détaillée la résolution des réductions suivantes :
monnaie du Japon
monnaie du pays du Soleil Levant
vendeur de fleurs
vendeurs de magnolias
vendeurs de bleuets
vendeur de bouquets de fleurs
personne qui vend des fleurs
personne qui vend des magnolias
personne qui vend des roses
personne qui fait le commerce de magnolias
personne qui cultive des fleurs et les vend
personne qui vend qqch
aventurier qui parcourt les mers en vue de piller les navires de commerce
crier pour le dindon
cri de la poule.
La probabilité de succès aléatoire de l’opération de réduction dépend du nombre de spécifiques du terme générique de la question. Pour monnaie, il y a environ 250 spécifiques dans le Dictionnaire Intégral. Nous trouvons environ 11 000 désignations de personne dans ce même dictionnaire.
Le résumé automatique de textes au plan lexical
Le résumé automatique de textes au plan lexical est une application qui sélectionne dans le dictionnaire quelques mots susceptibles de refléter au mieux les thèmes abordés par le texte étudié. Dans un processus documentaire complet, ces mots-sens extraits peuvent aider à déterminer automatiquement des mots clés.
Prenons un premier exemple. Soit le texte : L’accident a eu lieu par temps de brouillard. Les deux voitures qui se sont percutées sur les deux voies de la nationale ont provoqué un carambolage d’environ cinquante véhicules. Il faudrait produire, par exemple, accident d’automobile /carambolage /voiture automobile.
Un deuxième exemple nous est fourni par La partie de billard (voir, annexe 3, une reproduction complète de cette nouvelle de A. Daudet). Le mot billard en tant que jeu doit fortement ressortir de ce texte.
La sélection des mots pouvant rentrer dans les paraphrases d’énoncés courts pour l’expansion de requêtes
Cette fonction effectue une opération texte(sens(texte complète destinée à faciliter l’expansion de requêtes. Au départ une question est posée au système. Par exemple :
aboutissement des négociations au Kosovo.
Des paramètres de la fonction permettent d’élargir cette requête, pour une signification donnée, selon une sélection de fonctions lexicales reflétant des paraphrases particulières. Pour notre exemple, les expansions de aboutissement en aboutir et de Kosovo en kosovar sont obtenus selon ces paramètres.
La sélection de contextes (co-texte) pour le filtrage d’informations
Actuellement, l’interrogation par un unique mot clé des moteurs de recherche a une probabilité d’être très bruitée. Supposons que nous recherchions des sites de l’Internet qui s’intéressent au jeu de billard dans son ensemble. Dans ce cas, une interrogation par le seul mot clé billard pourra produire deux types de bruits :
d’une part, des sites spécialisés dans un aspect du contexte de billard apparaîtront d’emblée : il s’agira par exemple des sites spécialisés dans la commercialisation de billards.
d’autre part, billard pris isolément étant polysémique, quelques sites traiteront de tables d’opération.
Une solution à ce problème peut venir de la production automatique de contexte, c’est-à-dire d’un ensemble de mots qui apparaissent souvent avec le mot billard dans l’acception choisie. Il s’agit, par exemple, de mots qui englobent le champ lexical de billard comme jeu ou jouer, ou de mots qui peuvent participer à ce champ lexical d’une façon définitoire comme bleu ou queue, accessoire comme table, bille, collocative comme académie.
Une interrogation d’un moteur statistique faite d’une question comme (billard) ET (jouer ou jeu ou bleu ou queue ou ...) a beaucoup de chances de ramener des résultats plus pertinents qu’une interrogation où le mot billard est pris isolément.
L’extraction d’informations structurée
L’expression technique extraction d’informations recouvre un ensemble de techniques applicatives assez large. Le résumé lexical de textes appartient, par exemple, à ce domaine ; dans cette approche, l’extraction d’information est faite pour l’essentiel d’opérations texte(sens. À l’inverse, quand l’extraction d’informations concerne des applications de type de celles des conférences MUC où l’on doit remplir automatiquement des fiches avec des renseignements extraits depuis des textes, les technologies employées sont généralement de type sens(texte : ce que l’on cherche (le sens) est donné au départ et l’on construit des filtres syntaxico-lexicaux depuis le résultat attendu. Cette organisation du traitement est typique du système FASTUS (Appelt 1993).
En détaillant l’architecture courante des systèmes d’extraction d’information, nous présenterons dans la thèse comment nos outils peuvent grandement faciliter l’élaboration de logiciels dédiés à cette tâche.
La signature sémantique d’un texte
L’expansion de requêtes et la sélection de contextes que nous avons présentées précédemment font l’hypothèse d’un moteur de recherche qui indexe les mots des textes dans des listes inverses avec peu d’enrichissement. Cette approche pourra paraître insuffisante pour trois raisons :
le signe linguistique indexé ne rend pas compte de sa signification en contexte. Par exemple, carambolage a au moins deux acceptions courantes (accident de la route ou choc des billes de billard).
cette indexation ne rend pas davantage compte de l’importance thématique de l’élément indexé dans le contexte.
Soit le texte : après avoir joué au billard, nous sommes allés au restaurant. Ce restaurant appelé …. Si le repas est maintenant décrit sur quelques pages, l’importance de l’occurrence devient très faible.
Enfin, cette indexation sans filtrage aboutit à des index considérables qui sont tout sauf une mémoire (dans l’acception faculté de conserver et de rappeler des états de conscience passés…).
Nous montrerons comment le Dictionnaire Intégral avec le Sémiographe peut fournir des signatures sémantiques.
La classification automatique, le routage, l’accès aux nomenclatures
Nous traiterons dans ce chapitre les différentes stratégies possibles pour :
accéder à une nomenclature
Sur les pages jaunes, il s’agit par exemple, d’obtenir la rubrique légumes : détail à partir de la question : acheter un avocat.
effectuer du routage de documents selon des profils d’utilisateur ou classer des documents selon un plan de classement.
Dans le routage de document selon un profil, l’utilisateur dispose de moyens lui permettant de déclarer ses centres d’intérêts. Les documents soumis au système sont alors comparés au(x) profil(s) soumis et obtiennent un résultat d’évaluation par comparaison.
Dans le classement de documents dans un plan de classement, il s’agit de comparer les documents soumis au système aux éléments de ce plan de classement puis de proposer, selon les contraintes du plan de classement, un ou plusieurs éléments de nomenclature.
Travaux similaires aux travaux présentés
Une partie importante de la thèse aborde la question de la constitution d’une grande base de données sémantiques. Dans ce domaine, les travaux sont assez nombreux. Nous présenterons les principaux travaux :
WordNet (Miller 1998) qui est un réseau sémantique pour la langue anglaise. Ce réseau comporte fort peu de types de relations sémantiques, relativement peu de descriptions contextuelles et aucune structure componentielle… Comme WordNet est une réalisation de grande ampleur, nous l’utiliserons comme base de comparaison pour conclure la présentation du Dictionnaire Intégral.
EuroWordNet (Vossen 1999) qui est une adaptation de WordNet à plusieurs langues européennes. EuroWordNet comporte seulement une vingtaine de milliers d’acceptions pour chacune de ces langues. Nous avons contribué à sa version française.
CYC (Lenat 1999) qui est un réseau de concepts plus orienté vers une sémantique générale (description du monde) que vers une sémantique linguistique (description de la langue). CYC comporte de nombreuses déclarations de connaissances encyclopédiques.
Le DEC (Mel’Cuk 1992) qui est d’abord un système formel de description sémantique. En effet, le Dictionnaire Explicatif et Combinatoire dispose d’un formalisme solide et d’une grande richesse du modèle adapté à la résolution d’opérations de génération sens(texte (paraphrases) mais comporte actuellement seulement quelques centaines d’acceptions décrites pour le français.
Une deuxième partie importante de la thèse abordera la question du calcul sémantique. Là aussi, les travaux sont nombreux. Nous citerons quelques travaux importants comme ceux de Resnik (1995), Xaobin (1998), Agirre (1996), Wilks (1998). D’une façon générale, ces chercheurs proposent des algorithmes de désambiguïsation des mots-sens qui utilisent des bases de données sémantiques dont ils ne sont pas les auteurs et qui, généralement, ne sont pas conçues pour effectuer cette tâche. Par ailleurs, la plupart des opérations sémantiques texte(sens(texte que nous présentons ne semblent pas donner lieu actuellement à des publications, sauf ponctuellement, à l’aide d’importants corpus, dans le cadre récent du textmining. Nous ne présenterons pas ici ces travaux importants du fait que les algorithmes de text-mining sont généralement spécialisés dans une opération particulière donnant lieu à d’importantes validations manuelles dépendantes du domaine applicatif.
Historique de nos travaux et plan de la thèse
Le contexte de nos travaux est celui d’une entreprise qui occupe depuis 10 ans la majeure partie de son temps à faire de la recherche d’une façon isolée, et l’autre partie à financer cette recherche. Il y a maintenant 8 ans M. Héon, ancien DRRT, et Messieurs Enjalbert et Victorri ont été parmi les premiers à ne pas décourager nos efforts. L’objet initial de la société était centré sur la constitution d’un dictionnaire sémantique de la langue française, qui devait, au moyen de l’informatique, recenser tous les liens analogiques qu’un être humain peut établir entre deux concepts. Un travail titanesque un peu insensé comme le sont certainement tous les travaux innovants en matière de dictionnaires. Décrétant ce projet de nouveau dictionnaire, et nous y tenant, nous rencontrâmes des difficultés que nous ne soupçonnions pas de prime abord. C’est confronté à ces difficultés que nous avons ouvert des livres, participé à des séminaires, publié à un moment des articles, réalisé des maquettes. La fréquentation des auteurs nous a inclinés progressivement à élargir considérablement le champ de notre travail : l’objectif initial unique de constitution d’un dictionnaire sémantique hors domaine fut complété dès 1991 d’un objectif de calculs sémantiques hors domaine. Seulement ces calculs restaient inutiles sans attacher une attention minimale aux propriétés du signe linguistique : comment faire du calcul sémantique si l’on ne sait pas corriger automatiquement chevaus, lemmatiser chevaux  et exploiter les constructions syntaxiques d’un mot comme abattre ? Abordant la phonétique, la morphologie et la syntaxe une question importante s’est rapidement posée : les descriptions phonétiques, morphologiques et syntaxiques sont-elles indépendantes des unités sémantiques ou non ? Cette question est assez importante pour ne pas être éludée sous prétexte d’un exposé sur la calculabilité sémantique.
Ainsi, la thèse aborde un domaine très vaste qui reflète l’étendue de notre travail :
La partie I de la thèse concerne la constitution d’un dictionnaire sur les plans phonétiques, morphologiques, syntaxiques et sémantiques. L’accent y est mis sur les aspects sémantiques.
La partie II de la thèse traitera des calculs en rapport avec ces questions. Là encore, les traitements non sémantiques seront davantage décrits en terme de principes généraux et de résultats que d’une façon détaillée. A l’inverse, les calculs sémantiques seront partiellement donnés.
Le graphique suivant présente les trois entités étudiées :
Le Dictionnaire Intégral( qui est un graphe orienté de mots et de concepts.
Lexidiom( qui est l’outil de gestion du Dictionnaire Intégral (ajout, suppression, modification, visualisation des éléments du graphe).
Le Sémiographe( qui est un logiciel qui transforme la données déposées dans le graphe en un ensemble de traitements capables de restituer de la signification.

Architecture logicielle

Partie I : Le Dictionnaire Intégral


Cette partie décrit le Dictionnaire Intégral (Dutoit 1990, 1992 et 2000), dont :
la couverture (186.000 mots-sens) est semblable à celle de WordNet,
la structure componentielle (décomposition sémantique) reste souple pour permettre, par exemple, d’effectuer différentes opérations texte(sens,
l’organisation en concepts dotés de traitements permet de déclarer quelques connaissances encyclopédiques comme qu’est ce que font les animaux, qu’est ce que subissent les événements...
les relations syntaxico-sémantiques (comme négociation : action de négocier) suffisament riches permettent de prévoir de nombreuses opérations de génération sens(texte.
Nous présentons le Dictionnaire Intégral à l’aide de trois chapitres :
le chapitre 2 présente les informations phonétiques, morphologiques, syntaxiques et sens(texte du Dictionnaire Intégral sous un titre unique : les descriptions universalistes du Dictionnaire Intégral (ou non contextuelles).
le chapitre 3 présente les informations componentielles et encyclopédiques du Dictionnaire Intégral. Ces informations ont une utilisation texte(sens. Le titre de ce chapitre est Les descriptions aprioriques du Dictionnaire Intégral (ou contextuelles au plan sémantique).
le chapitre 4 schématise le format des données du Dictionnaire Intégral
Les descriptions universalistes du Dictionnaire Intégral
Le Dictionnaire Intégral stocke et restitue les éléments non contextuels de la description des mots. Ces éléments de description sont lexico-phonétiques, morphologiques, dérivationnels, lexico-syntaxiques et sémasiologiques. Les descriptions regroupées dans ce chapitre ont une inspiration universaliste.
Historiquement, nous nous sommes inspirés de plusieurs travaux pour élaborer les modèles sous-jacents à ces différentes descriptions. Les modèles du Dictionnaire Intégral reprennent souvent les conclusions de ces travaux. Il y a aussi de nombreuses occasions où notre réflexion nous a conduit à rejeter ces modèles. Pour faire le point sur ces questions et pour présenter l’organisation des données non contextuelles du Dictionnaire Intégral, nous donnons au lecteur les règles de conception des modèles courants puis, pour chaque règle, nous indiquons sa formulation dans le Dictionnaire Intégral. Cette présentation est effectuée en deux parties : la première partie présente les sources retenues pour élaborer le modèle de données du Dictionnaire Intégral, la deuxième partie présente chacune des règles rencontrées.
Le Dictionnaire Intégral n’est pas seulement un modèle de données. Il est aussi largement instancié. Pour présenter sur un plan quantitatif cette instanciation, nous effectuons dans une troisième partie une comparaison quantitative entre WordNet et le Dictionnaire Intégral. Dans cette partie, nous montrerons que les deux dictionnaires présentent de nombreuses similarités en volume que la différence d’organisation voile assez peu.
Les sources retenues pour élaborer le modèle de données du Dictionnaire Intégral
Le modèle du Dictionnaire Intégral repose sur un nombre important de règles. Ces règles sont principalement issues des spécifications et des travaux de recherche élaborées par :
le projet Eureka « GENELEX » [G]
le Dictionnaire Exploratoire et Combinatoire du Français contemporain ou DEC (Mel’cuk 1992) [D]
certaines spécifications émanant essentiellement du Laboratoire Automatique des Langues de l’Université Paris 7 [L]
la norme ISO 1087 concernant les recommandations en matière terminologique [I].
des spécifications particulières au Dictionnaire Intégral [Di]
WordNet [W]
Dans notre présentation, une règle ou spécification de modèle peut se terminer par des lettres majuscules encadrées par des crochets []. Une marque comme [GL] signifie que la spécification ou l’élément à représenter est référencé dans GENELEX et le LADL.
L’examen de nos principales sources de référence montre que celles-ci sont issues de trois sources universitaires avec le DEC, le LADL et l’Université Princeton, un grand projet européen avec GENELEX, une norme ISO et nos propres besoins. Cette variété des sources aboutit au modèle actuel du Dictionnaire Intégral et explique pour partie son contenu ramifié. Présentons maintenant sommairement les objectifs et réalisations des organisations mentionnées (la norme ISO pourra être consultée facilement par le lecteur).
Le LADL
Le LADL ou Laboratoire Automatique des Langues de l’Université Paris 7 a principalement pour objectif de « décrire la langue pour l’ordinateur » (Silberztein 1990). Sur le plan conceptuel, le LADL insiste sur l’aspect compositionnel et combinatoire d’une langue pour l’ordinateur. Courtois (1990) écrit :
L’ordinateur est une machine formelle, c’est-à-dire que son fonctionnement est combinatoirement déterminé. Décrire la langue pour l’ordinateur revient à en construire une description formelle.
Admettant avec le LADL que la langue peut supporter une certaine analyse compositionnelle selon un objectif précis, nous avons retenu quatre sources détaillées de spécification en provenance de ce laboratoire :
Courtois (1990, p. 11) décrit :
Le DELAS, un dictionnaire de près de 80 000 entrées de mots simples
Le DELAF qui est obtenu par génération à partir du premier et comporte les formes fléchies
Le DELAR qui est un dictionnaire de radicaux de la langue.
En introduction à la description de ces dictionnaire, Courtois rappelle que le mot simple ne constitue pas une évidence :
La présentation d’un système de mots simples suppose d’abord la définition du concept de mot simple.
Laporte (1990) décrit le DELAP :
Le DELAP est un dictionnaire phonémique du français, représentation systématique de la prononciation de 620.000 formes et de certaines de leurs variantes phonétiques.
Silberztein (1990, p71) décrit le DELAC et le DELACF :
Le dictionnaire de mots composés (DELAC) décrit la morphologie et la flexion des mots composés. (...) Nous décrivons par la suite le DELACF des formes fléchies composées engendrées automatiquement à partir du DELAC. »
GENELEX
GENELEX est l’acronyme d’un projet européen dont le nom complet est : GENEric LEXicon. Les principaux membres du consortium GENELEX ont été les sociétés GSI-ERLI, IBM France et Sema Group. Hachette fut membre de ce consortium au début. L’environnement scientifique de GENELEX est largement influencé par des laboratoires français proches des conceptions du LADL.
Voyons maintenant les principaux objectifs de GENELEX. La fiche de présentation du projet (GENELEX 1994-2) note :
Le résultat attendu dans le développement de GENELEX est la généralité de son format, qui aura les propriétés suivantes :
Couverture Maximale : (...) le nombre maximal d’information linguistique non-redondante
Portabilité Maximale : pour être capable de supporter différents types d’informations, le modèle GENELEX doit être un modèle sémantique de l’information et pas seulement un modèle physique des données (...)
Discrimination Minimale : le projet n’a pas pour but de diviser mais au contraire d’unifier » (points de vue et théories)
Nous voyons que GENELEX est essentiellement un projet normatif qui cherche à atteindre un certain consensus de la description lexicale. Contrairement aux travaux du LADL présentés dans le paragraphe précédent, GENELEX dépasse sensiblement dans ses objectifs les résultats du LADL. GENELEX est censé fournir des spécifications exhaustives pour l’ensemble des descriptions phonétiques, morphologiques, syntaxiques, sémantiques en environnement mono et multilingue. La référence à GENELEX pour l’élaboration et la présentation du Dictionnaire Intégral est incontournable.
Le DEC
Le DEC est une réalisation concrète de la théorie sens ( texte. Pour cette théorie, la première tâche du modèle linguistique est de décrire le mécanisme traduisant le sens en texte. Ainsi, la théorie s’inscrit dans une approche onomasiologique qui se demande comment, dans une langue donnée, on exprime un sens. Dans ces conditions, la première fonction du modèle sens ( texte est la génération d’énoncés semblables à un énoncé source appelé « inscription de sens ». Dans ce modèle, le calcul de la paraphrase est essentiel puisque le but de la théorie est finalement de produire toutes les expressions d’un même sens en langue.
Les travaux de MEMODATA
MEMODATA est née d’un projet sur la langue française conçu par l’auteur et Patrick de Torcy dès 1988. Cette année-là, nous avions écrit en Prolog un outil de gestion de graphe orienté pour établir et mémoriser des relations entre les mots et entre des mots et un système de concepts (structure).
Les travaux de MEMODATA ont pour objet depuis l’origine d’établir toutes les associations possibles entre les mots. Des organisations lexico-syntaxique et componentielle du lexique ont résulté de la présence simultanée de ces deux perspectives dans notre projet. Une version du travail réalisé en 1992 (version 1.1 du Dictionnaire Intégral) est disponible au public sur le site http://www.memodata.com. Cette version correspond à une édition connue sous le nom de Dicologique.
WordNet et EuroWordNet
WordNet est un projet sur la langue anglaise qui a été conçu par Georges A. Miller. Miller (1998, p. xvii) résume l’origine de ce projet de la manière suivante :
with some modest help from the Sloan Foundation, the Spencer Foundation and the IBM Tomas J. Watson Research Center, I was able to keep the ideas alive, and in 1984 I even managed to build a small semantic net of 45 nouns on an IBM PC.
Wordnet est volontairement limité à la description des relations paradigmatiques entre les lexies. L’interface de WordNet est disponible sur le site http://www.cogsci.princeton.edu.
WordNet fournit des descriptions détaillées et précises des mots. Leur structuration sur un axe ontologique a un fondement psychologique. Il résulte de cette approche qu’il arrive parfois que l’on rencontre plus de 20 sens pour un verbe (par exemple give a 27 sens).
Dans WordNet, les différentes catégories syntaxiques sont étudiées séparément pour des raisons méthodologiques et techniques. Toutes les catégories syntaxiques ne sont toutefois pas étudiées : on ne trouvera pas dans WordNet, par exemple, les prépositions, les conjonctions et les pronoms. Les catégories étudiées séparément sont celles des noms, des verbes, des adjectifs et des adverbes mais les auteurs considèrent que les relations entre les catégories devront être étudiées et détaillées.
Wordnet structure chaque catégorie syntaxique dans un axe paradigmatique conçu selon une conception qui mêle psychologie et linguistique. L’unité minimale de cet axe est appelée « synset ». Un synset est un ensemble qui contient tous les sens des mots qui expriment la même notion. La version 1.5 de WordNet comprend 90462 synsets. Dans cette version, 75812 synsets comportent un label (c.-à-d. une définition ou un exemple), et 14650 synsets n’en ont pas. WordNet considère la polysémie comme un phénomène discret : si un mot a plusieurs sens, ses identifiants de sens apparaissent dans différents synsets. WordNet structure les synsets entre eux principalement par une relation d’hyponymie. Ces relations sont généralement monohiérarchiques, c’est-à-dire qu’un synset a au maximum un père. On trouve aussi quelques autres relations comme l’antonymie et les relations partie-tout (méronymie et holonymie).
Le projet EuroWordNet est une extension de WordNet basée sur les mêmes idées mais développée pour plusieurs langues européennes, dont le français. Nous avons participé avec l’Université d’Avignon, le Rank Xerox Research Center de Grenoble et la société Bertin SA à ce projet en fournissant des données lexicales depuis notre propre réseau sémantique multilingue. Notons enfin que EuroWordNet est un projet co-financé par la communauté européenne (LE2-4003 et LE4-8328).
Les règles des descriptions universalistes
La présentation des règles ou spécifications de modèle du dictionnaire suit l’ordre habituel. Elle part du signe linguistique selon les aspects phonétiques et morphologiques, aborde l’unité syntaxique (signe linguistique avec ses informations syntaxiques : Usynt) et enfin traite de l’unité sémantique (signe linguistique avec ses informations sémantiques : USèm) dans son axe sémasiologique.
Les différentes règles ou spécifications issues des sources décrites dans la section 2.1 sont présentées selon un ordre régulier. Cette forme expose d’abord la règle (en gras), fournit un ou plusieurs exemples et indique la représentation dans le Dictionnaire Intégral. Chaque règle présentée est dotée d’un numéro précédé de la lettre R (pour règle).
Les signes linguistiques
La graphie
Pour permettre la saisie des données multilingues, il faut employer la norme ISO8879 [G].
jusqu’à ce siècle ( jusqu’à ce siècle.
Le Dictionnaire Intégral n’intègre pas cette norme. Son architecture est fondée sur un SGBDR grand public qui reconnaissent des normes plus anciennes (ASCII ou ANSI). Depuis la norme ISO8879, une nouvelle norme est apparue : UNICODE. Ce code sera finalement retenu dans le futur.
Les signes de ponctuation
Les signes de ponctuation en tant qu’éléments de la syntaxe, donc de la langue, appartiennent au dictionnaire. [G]
« , », « . », « ( », « … »
Cette règle est adoptée par le Dictionnaire Intégral.
Comme les unités lexicales, Les signes de ponctuation peuvent avoir plusieurs usages (significations) qui dépendent de la langue. [G]
« . » peut être une fin de phrase, une marque de fin d’abrévation et une partie d’une expression composée comme « . . . »
« " » peut être début d’un groupe entre guillemets et fin de ce groupe.
Le Dictionnaire Intégral fournit une propriété langue et une propriété code grammatical à chaque signe de ponctuation. Le Dictionnaire Intégral admet en outre que :
Deux ponctuations peuvent avoir des emplois synonymes dans une langue donnée [DI]
« " » en début de groupe est synonyme de «   «   »
Le Dictionnaire Intégral rend compte de cette règle à l’aide d’une relation nommée synonyme syntaxique.
Règles concernant les unités morphologiques (UMorph)
Nous résumons les règles concernant A) les unités morphologiques simples B) les unités morphologiques complexes.
A ] Les unités morphologiques simples
Les unités morphologiques simples et composées doivent pouvoir être décrites selon leur forme canonique [G, L]
aimer : apprécier positivement
Avec leur contrainte morphologique d’apparition en contexte [G, L]
aimer : vouloir (d’une façon polie) si « aimer » est au conditionnel.
Le Dictionnaire Intégral admet ces deux règles.
Les unités non autonomes quant à leur réalisation et leur interprétation n’ont pas à être présentes dans le Dictionnaire Intégral [G].
l’élément non autonome « aujourd »
Le Dictionnaire Intégral admet cette règle.
Par exception à la règle précédente, il faut prévoir des cas où une unité morphologique non autonome puisse être représentée. [G]
hippophagique ne se trouverait, d’après le Robert, que dans l’expression boucherie hippophagique.
Cette situation survient surtout quand l’unité se fléchit dans un mot composé. Elle peut alors être présente dans le dictionnaire sans aucune autre indication sémantique si l’unité isolée n’a pas signification ou d’emploi propre.
Une unité morphologique peut exister indépendamment de ses catégories grammaticales [G, L]
Une unité morphologique peut exister indépendamment de ses comportements syntaxiques [G, L]
Une unité morphologique peut exister indépendamment de ses significations (hors polysémie) [G, L]
GENELEX est un modèle par couches (morphologique, syntaxique et sémantique) dont la première couche est le comportement flexionnel de l’unité morphologique. Le modèle par couches est certainement lié à une vision cartésienne de la résolution des problèmes : il convient de diviser les problèmes en sousproblèmes pour pouvoir les résoudre. Cette approche est au premier abord aussi conforme à l’objectif de non redondance de l’information linguistique.
Cependant, ce choix a un inconvénient important : il exige la mise en place et la gestion de tables de relations entre les niveaux de la représentation morphologique et les autres niveaux. En pratique, cela aboutit à une structure de base de données assez compliquée. Une dizaine de tables sont nécessaires pour décrire le seul niveau morphologique. Leur gestion informatique a un coût élevé. Bien plus encore, le coût redondant de la description et de la maintenance des données lexicales devient très élevé du fait du coût spécifique de chaque mise en relation entre couches.
Nous croyons voir ici le résultat dommageable d’une idée d’une genèse naturelle de la description de l’unité lexicale qui a certainement influencé les concepteurs de Génelex. Concrètement, il n’est pas sûr que des membres de GENELEX aient retenu ces règles pour leurs propres réalisations.
Pour sa part, le Dictionnaire Intégral ne reprend aucune des règles R9, R10 et R11. Le Dictionnaire Intégral ne connaît qu’une unité linguistique : l’unité sémantique. Comme certaines études se fondent sur un diktat de la textualité, le Dictionnaire Intégral se fonde sur un diktat de l’entrée sémantique. On pourrait dire d’une façon plus jolie qu’il se fonde sur une Gestalt lexico-sémantique, mais cela laisserait entendre que cette situation a un fondement théorique implicite : il n’en est peut-être rien. Un hasard des circonstances a pu aboutir à cette situation : en 1994, nous commencions à peine nos travaux en morphologie, et nous œuvrions déjà depuis cinq ans à la description du niveau sémantique. Pour revenir à l’abandon des règles R9, R10 et R11, notons que le fait de déclarer l’unité morphologique comme une propriété non autonome de l’unité sémantique ne crée aucune gêne en dehors évidemment d’une certaine redondance de l’information (mais non d’un coût élevé de sa description).
Certaines unités morphologiques n’ont aucune signification notable. [G].
Arrive-t-il ou n’arrive-t-il pas? L’on dit qu’il ne viendra pas.
Le Dictionnaire Intégral permet de représenter ces particules qui aboutissent à une racine d’éléments asémantiques.
Pour un même sens, un mot peut avoir plusieurs comportements morphologiques [G].
Le verbe asseoir.
Dans le Dictionnaire Intégral ce point dépend des modèles morphologiques disponibles pour une langue donnée. Pour l’exemple de asseoir, nous disposons d’une description morphologique capable de générer et de lemmatiser je m’assieds et je m’assois.
Il n’y a qu’une entrée morphologique pour les noms dont les variations sémantiques en genre n’aboutissent qu’à une distinction « homme/femme » [G].
Ex : infirmier --> infirmière
Nous avons suivi cette spécification qui présente continuellement les inconvénients suivants :
la résolution en dictionnaire à l’envers de femme produisant des soins nécessite des traitements particuliers.
Idem pour le calcul des isotopies :
La femme est l’avenir de l’homme. Les assemblées auront dorénavant une député(e) pour un député.
Avec une telle spécification, ces textes posent dès le niveau morphologique des problèmes spécifiques (à ce cas et au français). Il reste que les avantages de la règle semblent compenser ses inconvénients.
Une variation en genre qui provoquerait une modification de sens suppose la création de deux entrées morphologiques [G].
impératrice comme femme de l’empereur.
Le Dictionnaire Intégral adopte cette règle en créant deux entrées morpho-sémantiques.
Une variation en nombre qui provoquerait une modification de sens suppose la création de deux entrées morpho-sémantiques [G].
lunette (télescope) et lunettes (ellipse de paire de lunettes), information et informations (j’écoute les informations).
Le Dictionnaire Intégral adopte cette règle en exigeant deux entrées morphosémantiques.
Les variantes graphiques sont représentées au sein d’une même unité morphologique [G].
Ex : clé/clef, abattis/abatis.
Le Dictionnaire n’adopte pas cette règle pour les raisons suivantes :
les variantes graphiques n’ont pas forcément les mêmes modèles de flexion entre elles.
Par exemple : abrogatoire/abrogatif, antimite/antimites..
Ce point complique sensiblement le modèle de données de GENELEX.
on ne peut pas tirer d’informations sémantiques de la notion de variante graphique. Une relation variante graphique ne nous indique pas si les termes sont sémantiquement identiques pour chacun de leur sens, et peuvent être substitués l’un par l’autre hors contexte ou si une variante graphique présente un sens que l’autre ne possède pas.
Les relations de dérivation sont décrites dès le niveau morphologique (i.e : sans contrainte sémantique) [D, G, L].
Ex : S(acheter)=achat, V(promesse)=promettre, A(scolaire)=école, Adv(honnête)=honnêtement
Le Dictionnaire Intégral n’adopte pas cette règle. Prenons un exemple pour justifier ce point : le champ morphologique dérivationnel du verbe pêcher. Le Robert propose pour pêcher les dérivés morphologiques :
pêche, pêcherie, pêchette, pêcheur, repêcher.
Observons maintenant la composition sémantique de ce champ dérivationnel :
1 pêche : action ou manière de pêcher, résultat de cette action 2 pêcherie : lieu aménagé pour la pêche 3 pêchette : petit filet de pêche (à l’écrevisse) 4 pêcheur : personne qui pêche 5 repêcher : a) pêcher à nouveau b) retirer de l’eau ce qui y est tombé ou c) recevoir à une épreuve qqn qui n’en a pas complètement le niveau.
Nous notons que :
Certains dérivés ont des fonctions bien précises, simples à codifier, et surtout ne modifient pas le champ lexical, la signification globale du verbe pêcher : capturer ou chercher à capturer un poisson. Ici 1, 4 et 5.a appartiennent à cette catégorie de dérivation qu’il faut sélectionner.
Certains dérivés ont des spécificités importantes et difficilement codifiables : c’est le cas pour les termes 2 et 3. pêcherie n’est pas totalement acceptable car il ne lui est pas possible de représenter tous les lieux où l’on pêche, mais seulement des lieux aménagés. De la même façon, pêchette n’est pas acceptable : c’est un filet (voilà quelque chose de spécifique), de plus ce filet ne permet pas de pratiquer toutes les pêches (mais seulement la pêche au filet de l’écrevisse!)
Certains dérivés n’ont absolument rien à voir (sauf peut-être pour des jeux de mots) avec le terme dont ils sont issus. C’est le cas de 5.b et de 5.c.
Les valeurs prises par le complément d’objet sont par exemple capture ou prise. Ces valeurs ne sont pas des dérivées morphologiques du verbe pêcher.
D’une façon générale, nous notons que :
Les relations S, V, A et Adv sont insuffisantes en terme de précision. Par exemple, Achat doit être précisé en tant qu’action, état ou résultat ; Adv ne signifie pas toujours d’une façon ; A n’est pas toujours relatif à (et que signifie relatif à)...
Ces relations, une fois précisées, ne seraient en aucun cas valables pour l’ensemble des sens du mot origine ou de sa dérivation. Par exemple : abyssal en tant que relatif à, qui se situe dans… les abysses est tout à fait différent de abyssal signifiant d’une grande profondeur, même si, bien sûr, la polysémie s’explique bien ici avec un grand nombre de traits de sens semblables. La dérivation est une propriété d’un mot-sens
Certaines valeurs qui participent à la transformation syntaxique d’une phrase ne sont pas données par la dérivation morphologique : cela a été le cas de prise pour le verbe pêcher. La dérivation dans le Dictionnaire Intégral comme dans la théorie sens(texte et son Dictionnaire Explicatif et Combinatoire est de nature sémantique.
La décomposition par affixe, racine et désinence de la forme canonique est fournie dès le niveau morphologique [G, L].
racheter = r+achet+er
Le Dictionnaire Intégral n’adopte pas cette règle pour les raisons suivantes :
il est des cas où cette décomposition diffère selon les significations.
pêcher nom et pêcher verbe
pour le vocabulaire courant, il est très fréquent que la décomposition ne permette pas d’inférer les sens possibles, et rien que les sens possibles et présents dans l’usage, de l’unité lexicale.
En définitive, cette règle complique inutilement le modèle morphologique : nous considérons que la décomposition par affixe est une propriété de l’unité sémantique et non une propriété de l’unité morphologique. Ce rejet de principe de l’autonomie du morphème doit souffrir néanmoins quelques exceptions. Ainsi certaines constructions libres sont très productives et facilement identifiables.
C’est le cas par exemple des terminaisons ien et anti ajoutées aux noms propres :
balladurien ( balladur + ien ( relatif à, qui appartient à + Balladur
ou ( qui est partisan de + Balladur
antiballadurien ( anti + balladur + ien ( qui est contre + Balladur
Ce travail est envisagé dans le cadre du modèle de traitement du Sémiographe. Le Dictionnaire Intégral a dans ce cas pour rôle d’enregistrer le sens des affixes et désinences actuellement productives en français et leur signification contextuelle potentielle (dans le cas de ien il faudra créer deux entrées sémantiques).
La forme phonétique est une propriété de l’unité morphologique [G, L].
Le Dictionnaire Intégral n’adopte pas cette règle pour la raison suivante : l’exemple ils couvent et un couvent montre que la forme phonétique est une propriété d’une unité supérieure à l’entrée morphologique. Pour le français, cette propriété est valide pour l’unité morphologique + la catégorie grammaticale, mais cela n’est pas nécessairement vrai pour toutes les langues.
Dans ces conditions, le Dictionnaire Intégral pourrait formellement prévoir une description phonétique au niveau du mot-sens. Nous n’avons pas retenu cette possibilité parce que nos travaux concernent le traitement de l’écrit, éventuellement de l’oral retranscrit, et non de l’oral. De ce fait, le besoin de précision dans la description du lien signifiant-signification est faible et un lien direct avec l’USèm serait peu utilisé. Ainsi, exceptionnellement, nous avons mis en œuvre une stratégie particulière focalisée sur l’objectif de la correction orthographique automatisée. Sachant que pour restituer les significations d’un texte écrit, le Dictionnaire Intégral doit être robuste aux fautes d’orthographe, notamment aux fautes d’origine phonétiques, un phonétiseur-correcteur (doté d’une clé pour le français égal à la concaténation de la forme et de sa catégorie grammaticale) a été spécialement développé. Ces travaux ont été inspirés de ceux de Catach (1984) et de Perenou.
La fréquence d’apparition est une propriété de l’unité morphologique [DI].
Le Dictionnaire Intégral adopte cette règle.
B ] Les unités morphologiques composées (ou complexes)
Ces unités sont composées de plusieurs mots comme dans pomme de terre, afin de...
Elles peuvent être totalement figées. C’est le cas de pomme de terre. Alors leur présence dans le dictionnaire est peu discutée. Elles peuvent être faiblement figées (faire sauter la banque, faire péter la banque ; prendre son bain, prendre sa douche) ou bien voir leur sens s’expliquer par les mots qui les composent (franc suisse). Dans ce dernier cas, leur introduction dans le dictionnaire est débattue selon des critères syntaxiques, sémantiques et encyclopédiques, c’est-à-dire selon des critères non morphologiques. De notre côté, nous considérons en dernier ressort que seule la compétence prévue du modèle sémantique ou de l’application peuvent justifier des entrées dans la nomenclature des unités morphologiques composées. Ainsi, le modèle morphologique n’a pas à faire peser de contraintes sur ce qui définit ou sur ce qui ne définit pas une unité morphologique dont le choix est de la responsabilité du lexicographe pour le dictionnaire ou d’un informaticien linguiste pour une application informatique particulière.
Indépendamment de ces remarques, l’unité morphologique complexe (UMC) présente des questions morphologiques intéressantes sur le plan de leurs contraintes d’apparition en contexte. Par exemple, certaines UMC sont nécessairement contiguës (pomme de terre), d’autres sont sécables (aller le dimanche à la pêche). Le dictionnaire se doit de décrire ces différences.
Une UMC est décrite quant à son modèle flexionnel.
prendre son bain ( je prends mon bain, tu prends ton bain…
Le Dictionnaire Intégral adopte cette règle. Cette information est gérée au niveau de la propriété morphologique de l’unité sémantique.
Une UMC est décrite selon sa sécabilité.
Jean prend souvent son bain le dimanche mais rien que des douches en semaine.
Le Dictionnaire Intégral adopte cette règle. Cette information est gérée au niveau de la propriété morphologique de l’unité sémantique. L’implémentation actuelle de la donnée reste très faible.
Certaines UMC existent en nombre indéfini et doivent malgré tout être prises en compte par le modèle. [DI]
Une adresse postale (Memodata, 17 rue Dumont d’Urville, 14000 Caen), une molécule chimique (H20), une formule (e = mc²), une date (30 novembre 2000), une adresse électronique (toto@memodata.com) et de dizaines d’autres expressions sont dans ce cas. Ces éléments n’appartiennent pas au dictionnaire de base mais à un module additionnel appelé reconnaisseur T2 qui exécute des expressions régulières durant la phase d’analyse morphologique.
Conclusion sur les unités morphologiques
Le Dictionnaire Intégral ne reconnaît pas l’autonomie de la morphologie. Dans le Dictionnaire Intégral, la morphologie est une propriété de l’unité sémantique, cette dernière étant représentative de l’usage, et l’usage ne respectant aucune loi générale.
Avant de brosser à gros traits les caractères et représentation de l’unité syntaxique (USynt), notons le point suivant : GENELEX et le LADL étudient une unité syntaxique autonome. Les propriétés décrites ici sont principalement la grammaire et les éléments de construction. Suite à ce qui a été dit sur l’unité morphologique, le lecteur devinera par avance notre position : USynt n’a pas d’autonomie dans le Dictionnaire Intégral. La question récurrente que nous nous posons alors sur ces propriétés est toujours formulée comme suit : en partant d’un sens, pour ce sens, quelles sont les formes, les catégories grammaticales, les constructions que l’usage retient ou dont l’usage semble acceptable.
Nous parlerons dès lors des propriétés morphologiques et syntaxiques des USèm. Dans le même temps, nous abandonnerons progressivement les références à GENELEX et au LADL : ni l’un ni l’autre ne jouissent d’un référentiel sémantique avancé. Notre référence principale sera maintenant le DEC car ce dernier pose les questions comme nous les posons. Par exemple, pour un sens donné, quelles sont les constructions syntaxiques possibles ?
Les propriétés syntaxiques des USèm : USynt
Les propriétés grammaticales des USèm
Une USynt possède une catégorie grammaticale [G, L, D]
Le Dictionnaire Intégral reconnaît environ 500 catégories grammaticales pour le français. Le format des catégories peut être donné selon le standard MULTEXT qui décrit les catégories sous la forme d’attributs (Véronis 1995).
Règles concernant les propriétés syntaxiques des USèm
Les verbes, les noms, les adjectifs et les adverbes disposent, pour un sens donné, d’un et un seul régime syntaxique (formes de l’utilisation de l’Usèm et nature des compléments). [D]
Ce régime syntaxique a une arité maximale fixe pour ce sens. [D]
Pour chaque indice de l’arité, les possibilités sémantiques sont homogènes. [D]
Associé au schéma du régime, des commentaires indiquent les combinaisons impossibles. [D]
Ces quatre règles sont suffisamment complexes pour qu’un exposé détaillé leurs soit consacré. Reproduisons ici, en choisissant un nom pour prendre un exemple suffisamment simple, un extrait du DEC (Mel’cuk 1992).

Eclipse, nom, fém.
Définition
SO(X s’éclipse 1.1 derrière Y) ou S0(Y éclipse 1.1 X) [On a observé l’éclipse du soleil]
...
Eclipse de X par Y = S0(X s’éclipse 1.1 derrière Y) ou S0(Y éclipse 1.1 X)
Régime1=X2=Yde N
Aposs
APar N
Contraintes, commentaires et exemples 
1) C1.3 : A=A0(N)
2) C2 sans C1.1 : impossible
C1 : une éclipse de lune (de soleil), une éclipse de ce satellite, son éclipse, une éclipse lunaire (solaire)
C1+C2 : l’éclipse du soleil par la lune
Impossible : *une éclipse lunaire par le soleil(2)Le régime de éclipse dans le DEC
Le premier sens (1.) de éclipse est défini par une fonction lexicale : éclipse est le dérivé syntaxique S0 du verbe s’éclipser (sens 1.1) et du verbe éclipser (sens 1.1).
Détaillons maintenant les régimes de éclipse et leur contrainte associée. Éclipse connaît au plus deux actants : C1 et C2. Les formes élémentaires de C1 et C2 sont données par le tableau du régime du nom. Les combinaisons possibles de ces formes sont données par les contraintes.
Détaillons d’abord la forme de ces actants. Les formes élémentaires du premier actant C1 sont au nombre de trois :
« de N » avec par exemple du soleil
un adjectif possessif représentant « de N » comme son
« A », un adjectif particulier représentant « de N » comme solaire.
L’actant C2 ne connaît qu’une unique forme : « par N » avec par exemple par la lune.
Les contraintes associées au tableau des régimes permettent de générer exhaustivement les combinaisons possibles (paraphrases) de ces actants.
la première ligne est une contrainte. Cette contrainte fixe la valeur de l’adjectif (actant C13 se lit actant C1 et 3° variante pour cet actant). Cette valeur est donnée par A0(x). A0(x) est une fonction lexicale qui retourne un adjectif capable de se substituer au mot clé x. L’indice 0 renvoie au mot clé lui-même. Dans notre exemple, comme x est un groupe nominal, A0(x) est un dérivé adjectival du groupe nominal x si ce dérivé existe pour x.
la deuxième ligne est également une contrainte. Cette contrainte indique que l’actant C2 n’est possible qu’avec C11. Le syntagme une éclipse des satellites de Jupiter par cette planète est possible. Le syntagme une éclipse solaire par la lune est jugé incorrect.
la troisième ligne fournit davantage des exemples d’occurrence du régime C1 + (.
la quatrième fournit un exemple d’occurrence de C1 + C2.
la dernière ligne retourne davantage une connaissance encyclopédique que linguistique : dans un ouvrage de fiction, une éclipse lunaire par le soleil pourra toujours se rencontrer.
Le modèle formel proposé de description des régimes nous pose deux questions :
Soient le tableau de régime pris en bloc et les deux contraintes. Supposons que le DEC soit construit pour tous les mots du français. Combien de fois ce tableau se retrouvera-t-il à l’identique? Si ce nombre est important, une autre représentation de l’information ne serait-elle pas souhaitable?
Supposons à nouveau que le DEC soit construit pour tous les mots du français. Dans ce cas, sachant que éclipse est le résultat sur C1 de l’action A effectuée par C2, en C1 les cas de N et Aposs ne se retrouvent-ils pas toujours ensemble ? Si cela est vrai, le DEC comporte des doublons dans sa représentation et le régime de éclipse peut être simplifié (sachant éclipser Vt, et Vt construction absolue impossible).
Si les deux questions rencontrent des réponses favorables, alors un meilleur choix consiste à représenter les régimes de éclipse par :
- X + de GN + (par GN), [sachant par ailleurs, eclipse=res(éclipser Vt strict)].
C’est l’orientation que nous avons prise pour le moment. Le Dictionnaire Intégral comporte pour le français environ 1500 modèles de construction prédéfinis pour les verbes et quelques modèles de noms, d’adjectifs et d’adverbes. Les règles R30 à R33 sont donc largement adoptées par le dictionnaire.
En conclusion de ce point, nous notons que nous ne réfutons aucune proposition du DEC en matière de construction, mais que la forme de la réalisation pourra être fort différente dans le Dictionnaire Intégral.
Cette thèse abordant peu la syntaxe et les informations sémantiques qui en sont issues, nous ne nous attarderons pas davantage sur ce point. Nous reviendrons toutefois sur la syntaxe en tant que donnée fournie en entrée du calcul sémantique et en tant que membre du couplage syntaxesémantique sur lequel nous travaillons actuellement.
L’unité sémantique (USèm)
Le calcul des paraphrases est intéressant en cela qu’il peut fournir le degré de similarité de deux énoncés. Les paraphrases sont l’objet même du modèle sens(texte. Leur calcul s’appuie sur des relations formelles entre deux unités sémantiques. Ces relations sont appelées Fonction Lexicale (FL). Bien que la déclaration des fonctions lexicales ne constitue pas l’objet principal de notre dictionnaire qui s’intéresse davantage aux opérations texte(sens, il reste que le Dictionnaire Intégral a pour ambition d’intégrer chacune de ces fonctions. Dans cette section, nous présentons d’abord les propriétés sémantiques des USèm en terme de fonction lexicale puis une deuxième section présentera les autres propriétés non contextuelles des USèm.
Les USèm selon le modèle sens(texte
Nous étudions les cinquante et une fonctions lexicales simples du DEC. Nous donnons la manière dont elles sont traitées dans le Dictionnaire Intégral. En cas de différence de traitement, nous expliquons les raisons de ces différences. Pour effectuer cette présentation, nous avons regroupé les fonctions lexicales de la façon suivante  :
Les fonctions lexicales de dérivation sémantique
Les fonctions lexicales verbales
La synonymie
Relations de collocations et termes privilégiés
Fonctions lexicales à valeur sémantique spécifique
Préposition régissant le mot clé
Formes exclamatives
Les fonctions lexicales non ou rarement autonomes
Fonctions diverses
Conclusion pour l’ensemble de cette présentation.
A ] Les fonctions lexicales de dérivation sémantique.
Ces fonctions lexicales sont au cœur des mécanismes de paraphrase du DEC. Elles font directement référence à la notion de régime de construction : ces fonctions renseignent soit sur certaines valeurs prises par un actant i soit sur les dérivations sémantiques de l’argument de la fonction lui-même (noté actant 0).
La notion de dérivation sémantique est plus large que la notion courante de dérivation morphologique : dans la dérivation sémantique, la racine de l’argument peut être changée.
Considérons S1(acheter sens X) qui est la valeur prise par tout de sujet de acheter sens X. S1(acheter sens X)=acheteur.
Dans ce cas, il y a identité entre dérivation morphologique et dérivation sémantique.
Considérons S2(acheter sens X) qui est la valeur prise par tout complément d’objet de acheter sens X.
S2(acheter sens X)={achat, marchandise, service}.
Dans ce cas, la dérivation morphologique est incapable de retourner les différentes dérivations sémantiques.
Considérons S3(acheter sens X) qui est la valeur prise par tout complément d’agent de acheter sens X.
S3(acheter sens X)={vendeur}.
En général, le complément d’agent S3, n’est pas un dérivé morphologique du mot clé.

Le dictionnaire enregistre les dérivations sémantiques valables pour un mot-sens donné plutôt que les dérivations morphologiques valables pour une racine donnée.
Le dictionnaire adopte précisément cette règle.

Il convient de voir maintenant les différents cas de dérivation sémantique et la manière dont elles sont prises en charge par le Dictionnaire Intégral. Le DEC envisage deux cas essentiels de dérivation sémantique. Une première série considère des dérivations qui aboutissent à des paraphrases qui ne changent pas la structure sémantico-communicative de l’énoncé. C’est le cas par exemple de forêt gabonaise avec forêt du Gabon. D’autres aboutissent pour une même énonciation de rapports entre des objets (paraphrases) à une modification de la structure sémantico-communicative. C’est le cas par exemple avec Jacques en colère est dangereux et la colère de Jacques fait que Jacques devient dangereux.
A1 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases conservant la structure sémantico-discursive.
Le dictionnaire fournit les données de la transformation entre une proposition conjuguée et sa nominalisation.
La fonction lexicale associée du DEC est S0. Cette fonction retourne un nom pour un verbe-sens donné en argument.
S0(acheter X) = achat (Y), S0(éclipser X) = éclipse 1, S0(s’éclipser X) = éclipse 1.
Cela permet la transformation :
Pierre achète un œuf ( l’achat de Pierre est un œuf.
Le Dictionnaire Intégral adopte une règle légèrement plus détaillée que le DEC sur ce point : il propose une différence entre action, fait ou résultat.
Action(bleuir X, Verbe transitif) = bleuissement.
Fait(bleuir, Verbe intransitif) = bleuissement.
Résultat(bleuir, Verbe) = bleuissement.
Ces distinctions peuvent parfois être déduites du type de verbe et aboutissent souvent à un même nom. Ce n’est pas toujours le cas :
ActionRésultat(tortiller, Verbe transitif) = {tortillement, tortillage}
Résultat(tortiller, Verbe transitif) = tortillon
FaitRésultat(tortiller, Verbe pron) = {tortillement, tortillage}
Dans cet exemple, la fonction Résultat retourne une valeur qui ne peut être ni une action ni un fait.
Le dictionnaire fournit les données de la transformation entre une nominalisation et une proposition conjuguée.
La fonction lexicale associée du DEC est V0. Cette fonction retourne un verbe pour un nom-sens donné en argument.
V0(promesse X) = promettre (Y), V0(achat X) = acheter (Y).
Le Dictionnaire Intégral adopte cette règle en donnant l’accès aux fonctions réciproques des trois fonctions précédentes.
Le dictionnaire fournit les données de la transformation entre un emploi nominal et son adjectivation.
La fonction lexicale associée du DEC est A0. Cette fonction retourne un adjectif pour un nom-sens donné en argument.
A0(école X) = scolaire (Y)
Ex : cahier d’école ( cahier scolaire, région Île de France ( région francilienne
Pour une même raison que dans le cas précédent, le Dictionnaire Intégral adopte une règle légèrement plus détaillée que le DEC : le dictionnaire connaît une différence entre relatif à, qui appartient à, qui est propre à, qui a lieu à, qui contient de.
Le dictionnaire fournit les données de la transformation entre construction d’adjectifs et construction d’adverbes.
La fonction lexicale associée du DEC est ADV0. Cette fonction retourne un adverbe pour un adjectif-sens donné en argument.
ADV0(honnête X) = honnêtement (Y)
Le Dictionnaire Intégral adopte cette règle sous la forme DuneFaçon(A)=ADV.
DuneFaçon(judicieux X) = judicieusement (Y)
A2 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases modifiant la structure sémantico-discursive.
Dans ces paraphrases, les objets qui composent la situation et leur relation entre eux sont présentés selon une organisation discursive nouvelle. Il y a modification de l’organisation discursive quand au sein d’un syntagme ou d’une proposition la tête du syntagme ou de la proposition sont changés (sans modification des rapports entre les objets présentés).
Le sanglier en rut est dangereux ( le rut rend le sanglier dangereux.
Le dictionnaire fournit la forme adjectivale du mot clé qui permet à un actant i du mot clé de prendre la position de tête du groupe nominal dont le mot clé était la tête.
Le DEC prévoit trois fonctions lexicales différentes : Ai, Ablei, Quali.
Les modificateurs typiques pour le ie actant du mot clé : Ai
A1(mépris 1)=plein, rempli [de mépris 1]
A2(mépris 1)= couvert [de mépris 1]
Soit le mépris de Jacques pour Pierre. A1(mépris) permet :
Jacques rempli de mépris pour Pierre
Et A2(mépris) permet :
Pierre couvert de mépris par Pierre, Pierre couvert du mépris de Jacques.
Le Dictionnaire Intégral reproduit mal cette règle. Mais il nous semble que souvent les phénomènes concernés peuvent être décrits en terme de règle de transformation syntaxique qui s’appuieraient sur des informations non spécifiques à ces cas. Par exemple, pour éclipse, le DEC note :
A1(éclipse) = en [~], avec C2=vide.
L’éclipse du soleil ( le soleil en éclipse.
Posons GN1=éclipse et GN2=soleil. Considérant que éclipse = S0(s’éclipser), il serait intéressant de vérifier si une transformation de GN1 de GN2 en GN2 en GN1 n’est pas vraie pour tout GN1 = S0(V ayant pour COD le sujet) et tel que GN1 est un état de GN2.
Revenons à l’exemple mépris. Mépris est un dérivé d’un verbe qui précise un état du sujet relativement à quelque chose d’extérieur au sujet. Une telle définition est aussi valable pour des verbes comme haïr, aimer, adorer, idolâtrer …Nous observons que leurs substantifs haine, amour, adoration, … supportent les mêmes transformations que celles proposées pour mépris. Aussi, il nous semble que ces transformations sont plutôt des propriétés de champs syntaxico-sémantiques particuliers.
Adjectif, tel qu’il peut, tel qu’on peut le ... : Able1
Able1(peur) = peureux permet la transformation de la peur de Jacques en Jacques, peureux…
Able2(peur) = effrayant permet la transformation de la peur de Jacques pour les araignées en les araignées effrayantes pour Jacques.
Pour ces deux Able, et ces deux exemples nous avons retenu :
Relation N-->N : qui contient de (pour peureux ( peur)
Relation Adj-->N : qui cause de (pour effrayant ( peur)
Relation Adj-->V : qui V (pour effrayant ( effrayer)
Ces relations permettent d’approcher les résultats obtenus par le DEC.
Adjectif, tel qu’il entraîne Ablei avec une haute probabilité : Quali
Qual1(tromper) = malhonnête, un avocat malhonnête qui trompait...
Qual2(tromper) = naïf, un avocat qui trompait un client naïf...
Le Dictionnaire Intégral trouvera le plus souvent un lien entre les mots mis en relation par cette fonction lexicale. Pour les exemples cités, des co-activations se retrouvent aisément entre tromper et malhonnête d’une part et entre tromper et naïf d’autre part. Mais ce lien n’est pas encore associé au régime du mot clé et donc ne peut pas être utilisé pour effectuer les opérations de paraphrase prévues ici par le DEC.
Le dictionnaire fournit la forme adverbiale du mot clé qui permet à un actant i du mot clé de prendre la position de tête de la proposition dont le mot clé était la tête.
Adverbe, adverbe typique du ie actant : Advi
Adv1(joie) = avec [joie]
La nouvelle a causé une grande joie à Marie ( Marie a pris la nouvelle avec joie.
De même, ces fonctions semblent très dépendantes de la nature syntaxico-sémantique de certains noms comme joie, chagrin, tristesse … Quelques cas isolés sont enregistrés dans le Dictionnaire Intégral.
Le dictionnaire fournit les noms typiques des i actants du mot clé.
Noms typiques pour le ie actant du mot clé : Si.
S1(crime) = criminel
S2(crime) = victime [du crime]
S1(acheter) = acheteur
S2(acheter) = marchandise
S3(acheter) = vendeur
S4(acheter) = prix
Pierre a pour profession d’acheter du bois exotique ( Pierre est acheteur de bois exotique.
Le Dictionnaire Intégral prévoit :
acheteur ( personne qui V(acheter)
marchandise ( ce qui est V(acheter)
vendeur ( personne qui V(vendre)
Le DEC fournit les noms typiques des circonstants du mot clé
Ces fonctions sont essentiellement Sinstr, Sloc, Smod, Sres ().
Nom typique pour le circonstant de l’instrument : Sinstr
Sinstr(peindre)=pinceau, brosse, Sinstr(raboter)=rabot
Nom typique pour le circonstant de l’instrument du lieu : Sloc
Sloc(lutter)=arène [de la lutte], Sloc(bataille)=champ [de bataille]
Nom typique pour le circonstant de l’instrument du mode : Smod
Smod(écriture)=écriture, Smod(marcher)=démarche
Nom typique pour le circonstant de l’instrument du résultat : Sres
Sres(copier)=copie
Nous ne retenons pas ces propositions pour le Dictionnaire Intégral sous la forme proposée qui nous paraît souvent soit en redondance d’une autre fonction soit d’interprétation ambiguë. Le Dictionnaire Intégral utilise néanmoins certaines de ces relations.
Sinstr est reproduit par une relation qui indique que le générique du verbe clé associé spécifié par une relation instrumentale à un instrument retourne ce verbe clé : GenV+CCmoyen
GenV+CCmoyen (raboter)=rabot ; par ex. {user, lisser…} au moyen d’un rabot = raboter
Sloc, Smod et Sres sont généralement reproduits par l’organisation générale du Dictionnaire Intégral qui permet à partir d’un terme générique comme lieu associé à un spécifieur comme lutter d’obtenir les spécifiques pertinents :
Spec(lieu / lutte) = arène ; Spec(manière / marcher) = démarche ; Spec (résultat / copier) = copie
Quand, premièrement, le verbe n’a qu’une valeur possible en terme de lieu, manière ou de résultat, et que, deuxièmement, le verbe est défini par ce complément (c’est le cas avec raboter), les relations GenV+CClieu et GenV+CCmanière peuvent être utilisées pour modéliser le sens du verbe.
B] Les fonctions lexicales verbales.
Le dictionnaire retourne le verbe support de l’actant i du mot clé.
Le DEC prévoit des fonctions lexicales qui retournent des verbes neutres sur le plan sémantique. Il s’agit des fonctions lexicales Operi, Funci et Laborij. D’autres fonctions retournent des verbes avec un apport sémantique. Ces fonctions sont : Reali, Facti et Labrealij.
B1] Les fonctions lexicales verbales sans apport sémantique.
Verbe sémantiquement vide qui prend comme sujet le pronom impersonnel il ou l’un des actants du mot clé et le mot clé comme son complément d’objet principal  : Operi
Oper0(vent) = faire [du vent]
Oper1(conseil) = donner ; Oper3(conseil) = recevoir 
Oper1(examen) = faire passer ; Oper2(examen) = subir avec examen par qqn (actant 1) de qqn (actant 2) en qqch (actant 3).
Oper1(attention) = faire ; Oper2(attention) = attirer avec attention à qqch (actant 1) et attention de qqn (actant 2)
Le Dictionnaire Intégral connaît et reconnaît faire du vent et faire attention comme locution verbale. Pour ces locutions, comme membre d’une expression, faire est bien un verbe vide. Mais les autres exemples posent problème. Considérons par exemple Oper1(conseil) = donner. Dans cet exemple, le premier actant de conseil est conseilleur. Un conseilleur donne : il ne nous semble pas que donner soit vide. De plus, prodiguer serait aussi un bel exemple de collocation de conseil dans un français soutenu.
Verbe sémantiquement vide qui prend le mot clé comme son sujet grammatical et un de ses actants (s’il y en a) comme son complément d’objet principal : Funci.
Func0(pluie ) = tomber
Func1(examen) = être effectué ; Func2(examen) = être passé avec examen par qqn (actant 1) de qqch (actant 2) en qqch (actant 3).
Func2(liste) = contenir, comprendre, avec actant 1 = Adjectif et actant2 = de GN : la liste rouge des abonnés ( la liste rouge comprend des abonnés
Si Funci représente une locution figée, le Dictionnaire Intégral fournit Funci. D’une façon générale, le terme de mot vide nous pose problème. Il faut se demander en quoi contenir dans la liste contient des adresses est un mot vide. Est-ce parce que d’une part, l’on peut construire une phrase assez voisine comme une liste d’adresses où de serait considéré comme un mot vide et que, d’autre part, une relation de contenant à contenu existe déjà dans le mot liste ?
Prenons aussi l’exemple de Func0(pluie ) = tomber. Mel’cuk (1992, p. 120) note pour cet exemple qu’en russe la pluie ne tombe pas mais va ou marche. Nous admettons parfaitement cette remarque pour ce qu’elle a de savoureux dans la comparaison du russe et du français. De plus, la remarque montre clairement que l’expression des actions particulières à la pluie ne sont éventuellement ni triviales ni prédictibles dans une langue donnée. Mais cela n’induit pas la notion de verbe vide (dans l’opération texte(sens). Au contraire, considérant que la pluie agit sur un plan ontologique, l’exemple montre que pour traduire cette action en langue, un dictionnaire ontologique ne peut pas manquer de traiter ce fait de langue si particulier. Dans une liste reportant les verbes d’action de la pluie, le français pourra placer tomber et le russe aller ou marcher. De plus, le français pourra toujours reprendre le tomber ordinaire (Jean tombe) du français, car assurément la pluie ne monte pas, elle descend, et évidemment va.
verbe sémantiquement vide qui prend le nom de l’actant i comme son sujet grammatical, le nom de l’actant j comme son complément d’objet principal et le mot clé comme son deuxième complément d’objet : Laborij
Labor12(horreur) = avoir en [horreur], avec actant 1 = de GN et actant 2 = pour qqch : l’horreur de Marie pour les araignées ( Marie a en horreur les araignées.
Le dictionnaire reconnaît l’expression avoir en horreur. Le dictionnaire prévoit d’enregistrer un lien entre horreur et avoir en horreur sous la forme d’une nominalisation particulière.
B2] Les fonctions lexicales verbales avec apport sémantique.
Verbe ayant le sens réaliser qui prend le mot clé C0 comme son complément d’objet principal et le nom du ie actant de C0 comme son sujet grammatical : Reali
Real2(examen) = réussir avec examen par qqn (actant 1) de qqch (actant 2) en qqch (actant 3).
Real1(piège) = tendre ; Real2(piège) = tomber avec de qqn (actant 1) à qqn (actant 2).
Real1(problème)=résoudre avec de qqn (actant 1) en qqch (actant 2)
Par inférence, les isotopies du Dictionnaire Intégral permettent de déterminer des liens (sans les justifier) entre le mot clé et le verbe pointé. Cependant le dictionnaire ne permet d’obtenir ces verbes et donc ne permet d’envisager ces transformations.
Verbe ayant le sens réaliser qui prend les deux actants de la situation comme son sujet grammatical et son complément d’objet principal, et le mot clé C0 comme son deuxième complément d’objet : Labrealij
Labreal12(ordre)=contraindre [par un ordre] avec de qqn (actant 1) à qqn (actant 2) : L’ordre du maton aux prisonniers ( le maton contraint les prisonniers par un ordre.
Même remarques concernant le Dictionnaire Intégral.
Verbe ayant le sens se réaliser qui prend le mot clé C0 comme son sujet grammatical principal et le nom du ie actant de C0 (si C0 a un actant) comme son complément d’objet principal : Facti
Fact0(soupçon) = se confirmer
AntiFact1(mémoire) = trahir, Fact2(mémoire) = garder, retenir avec mémoire de qqn (actant 1) en qqch (actant 2)
Même remarques concernant le Dictionnaire Intégral.
Concluons sur l’ensemble des fonctions lexicales verbales. A l’issue de cette présentation, nous pouvons observer quelques conséquences sur l’analyse d’une même entrée lexicale de deux conceptions et de deux objectifs initiaux différents. Comme nous l’avons dit lors de la présentation du DEC, la théorie sens(texte a pour objet de générer toutes les expressions possibles d’un sens. Dans cette théorie, le sens est donné au départ. Poser contextuellement la vacuité de tomber et de contenir dans certains régimes de pluie et de liste (Func0(pluie ) = tomber et Func2(liste) = contenir), c’est rendre possible certaines générations de paraphrases contenant pluie et liste où l’on voit que le mot clé est si vide qu’il finit par disparaître :
Pendant que la pluie tombe, révise tes leçons ( Pendant la pluie, révise tes leçons.
Donne-moi la liste qui contient les adresses ( Donne-moi la liste d’adresses.
De notre côté, la perspective première est : texte(sens. Dans cette mesure, l’attitude de base consiste à se méfier du mot vide, et même, souvent à essayer de détecter le vide pour le remplir de quelque chose qui pourra compléter la restitution de la signification :
Pendant la pluie : pluie est une chose qui tombe même si le texte ne le précise pas : Pendant que la pluie tombe
Donne-moi la liste d’adresses( de : qui contient
En texte(sens, le but est davantage de faire réapparaître les mots vides que de les faire disparaître.
Plus largement encore, nous pouvons voir dans certains mots vides par rapport à un mot clé donné du DEC des traces possibles de quelque chose qui rend compte d’une situation tellement évidente pour nous que l’économie de son énonciation est systématiquement permise. Or l’évidence ou bon sens est certainement ce qui se prête le moins à la description.
Nous pouvons résumer le point en écrivant :
en effectuant l’opération sens(texte, la génération de paraphrases n’a pas à justifier en sens (mais seulement en langue) les équivalences qu’elle établit entre les énoncés.
en effectuant l’opération texte(sens, la restitution de signification n’a pas à justifier en langue (mais seulement en signification) les représentations qu’elle effectue de chaque énoncé.
de ces deux justifications symétriques naît le fait qu’un mot vide en langue soit plein en signification (contenir pour le de de liste) et le fait qu’un mot plein en langue puisse paraître vide en signification (voiture ou automobile dans voiture automobile).
Sur le plan méthodologique, le caractère micro-systémique (Mel’Cuk 1992, p. 120) du DEC nous pose problème. En effet, les fonctions lexicales du DEC renvoient relativement peu de mots. Par exemple, alors que le DEC ne propose qu’un mot pour Real1(piège) (tendre), le Dictionnaire Intégral donne :
tendre ( \disposer des éléments en les combinant (Liste de V)
tendre ( \piège (termes liés).
Cette représentation permet par inférence d’établir un lien entre tendre et la plupart des collocations typiques ou non typiques prévues par le Grand Robert : piège, collet, embûche, embuscade, souricière, appât...), sans avoir préalablement rédigé les articles collet, embûche, embuscade, souricière, appât. Cet avantage du Dictionnaire Intégral sur le DEC est dû à son organisation non micro-systémique. Mais les représentations du DEC présentent l’avantage fonctionnel de permettre d’identifier des paraphrases.
C] La synonymie
Nous avons regroupé dans cette section deux cas de synonymie. Le premier cas est le cas courant où l’application de la fonction lexicale n’implique aucun déplacement des actants. Nous regroupons les fonctions Syn et Anti dans cette catégorie. Le deuxième cas envisage la synonymie avec permutation des actants. Il s’agit de la fonction Conv.
Le dictionnaire retourne les synonymes du mot clé.
C1] La synonymie sans permutation d’actants
Les synonymes et quasi-synonymes : Syn, Syn(, Syn(, Syn( (vide = exact, ( plus large, ( plus étroit, ( intersection de sens).
Syn(espoir)=espérance, Syn(espérance)=espoir
Deux termes reliés par la fonction lexicale Syn sont déclarés comme étant sémantiquement assez proches pour être substituables en contexte.
Nous acceptons cette règle mais nous la considérons comme insuffisante pour effectuer une opération texte(sens pour les raisons suivantes :
le critère de substituabilité n’induit aucunement que les termes en relation aient les mêmes corrélats. Comme l’écrit Rastier (1995),
espérance, par exemple, convient mieux à des contextes religieux
Dans ces conditions, les mécanismes d’activation de réseau sémantique ne doivent pas être les mêmes dans l’opération texte(sens.
la marque « exact » n’est pas suffisante. Pour le traitement de la langue, et pour faciliter la lecture du dictionnaire, il convient de différencier la synonymie exacte bijective quels que soient les sens (i.e. identité) et la synonymie exacte bijective pour certains sens.
la marque « ( » n’est pas suffisante non plus : il n’y a pas égalité entre A et SYN((A) mais seulement entre A et SYN((A) + (. La valeur de ( doit être formellement indiquée pour stipuler les conditions de la substitution.
réciproquement, la marque « ( » n’est pas suffisante puisqu’il faudrait pouvoir stipuler la valeur des traits sémantiques soustraits.
enfin la marque « ( » n’est pas suffisante puisqu’il faudrait pouvoir stipuler la valeur des traits sémantiques ajoutés et soustraits.
Nous verrons que pour prendre en compte ces remarques, le Dictionnaire Intégral utilise un réseau de concepts et considère différemment les relations mot-sens vers mots-sens et les relations mots vers concepts.
Les antonymes et quasi-antonymes: ANTI, ANTI(, ANTI(, ANTI( (vide = exact, ( plus large, ( plus étroit, ( intersection de sens)
Précisons avant d’en débattre la notion d’antonymie retenue dans le DEC. Dans de nombreux dictionnaires, le relation d’antonymie est fondée sur des critères psycholinguistiques. Par exemple, Miller (1998, p. 40) propose en illustrant WordNet : ANTI(homme) = femme et ANTI(femme) = homme. Il est clair que ces antonymies ne participent pas à une opération sens(texte. Or, le DEC ne reconnaît la relation d’antonymie que si elle participe au processus de paraphrase :
Anti(échouer)=réussir, Anti(faux)=vrai, Anti(avoir raison)=avoir tort …
cette démonstration est incorrecte ( cette démonstration n’est pas correcte.
Nous avons adopté la même règle pour le Dictionnaire Intégral.
C2] La synonymie avec permutation d’actants
Conversif, lexème qui dénote une relation converse de la relation exprimée par le mot clé de la fonction lexicale ; les indices montrent l’ordre des actants syntaxiques associés au conversif relativement à l’ordre de base du mot clé qui est toujours « 123 » : Convijkl
Conv21(être derrière) = être devant, Conv3214((Vendre 1.1)=acheter 1
Le Dictionnaire Intégral encode cette information.
D] Relations de collocations et termes privilégiés
Nous avons regroupé ici des fonctions lexicales qui rendent souvent compte d’une cooccurrence au sein du syntagme.. La présentation distingue les collocations sémantiquement vides selon le DEC des autres collocations. Le dictionnaire retourne les collocations typiques du mot clé.
D1] Les collocations sémantiquement vides
Les fonctions qui retournent des collocations vides sont : Epit et Gener.
Adjectif standard sémantiquement vides : Epit
Epit(océan 1.1)=immense
L’exemple fourni par le DEC entraîne que océan a pour synonyme immense océan puisque immense a une signification nulle dans cette collocation.
Avant de donner le mode d’application de cette règle, considérons les deux énoncés suivants et posons-nous la question de leur équivalence dans une logique sens(texte :
1Ulysse traversa l’immense océan pour rejoindre PénélopeUlysse traversa l’océan pour rejoindre Pénélope2Un immense océan de misèreun océan de misèreUlysse est un héros dont les exploits tiennent en partie dans ses longs voyages sur l’océan. S’il est exact qu’au sens propre, et sur un plan ontologique, océan comporte un trait sémantique immense, vaste, cette isotopie dans l’exemple 1 nous semble donner une situation nouvelle qui contribue à construire le caractère héroïque du personnage de l’Iliade. Pour cet emploi de océan, immense ne semble aucunement vide.
Pour le deuxième exemple, nous trouvons un emploi métaphorique de immense : grande étendue de. Dans cet exemple, immense ne nous semble pas plus vide (et même dans l’opération sens(texte) que dans l’exemple précédent puisqu’il faudra plutôt éviter de confondre
un océan de misère qu’éclaire un immense océan de foi
avec
un immense océan de misère qu’éclaire un océan de foi.
Finalement, pour ces deux emplois d’océan, le Dictionnaire Intégral cherchera une représentation d’abord ontologique, et considérera seulement qu’il existe des cooccurrences remarquables (en langue) entre océan et immense. En résumé de ce point, nous notons que le Dictionnaire Intégral n’adopte pas la règle : une compréhension profonde est nécessaire pour rendre compte des contextes où immense serait seulement pléonastique. Cette compréhension n’est pas fournie par une fonction lexicale isolée.
Mot générique dont la combinaison avec un dérivé syntaxique du mot clé est synonyme du mot clé : Gener.
Gener (colère) = sentiment [de colère], Gener (république) = état républicain
Dans l’optique sens(texte, les énoncés
Depuis son service, Jacques éprouve un sentiment de colère chaque fois qu’il entend le bruit des bottes
et
Depuis son service, Jacques éprouve de la colère chaque fois qu’il entend le bruit des bottes
sont équivalents.
Le Dictionnaire Intégral n’adopte pas cette règle. Par ce fait, sentiment est considéré comme un terme générique de colère sans aucune particularité remarquable. Cela n’empêche pas le système de pouvoir générer colère depuis sentiment de colère comme il génère république depuis état républicain et donc de pouvoir effectuer une partie de l’opération Gener. Il reste alors à vérifier si une opération de réduction n’est pas possible depuis toute situation Générique+Spécifique(Générique). Si une réduction d’artisan de potier en potier ou de poisson de gardon en gardon ne sont pas valables, c’est que les énoncés à réduire ne sont pas valables : ils n’obéissent pas à des constructions possibles du terme générique.
D2] Les collocations avec apports sémantiques
Les fonctions qui retournent des collocations avec apports sémantiques sont Magn, Posi., Bon, Germ, Centr, Culm, Figur, Degrad, Nocer, Involv, Obstr, Excess, Manif, ver, Result.
Mots exprimant à un degré élevé / à un degré faible: Magn, AntiMagn
Magn(mémoire) = prodigieuse, d’éléphant
AntiMagn(vent) = doux, faible, léger
Les formulations adjectives de beaucoup pour un degré et de peu pour un degré avec des adjectifs sont traitées à l’aide de la relation ou des ensembles adjectifs description de dans un rapport généralement accessoire (sauf si le terme ne peut marquer les traits beaucoup ou peu que pour un seul mot clé ou concept clé).
Expression employée comme expression standard de l’évaluation positive du ie actant du mot clé : Posi.
Pos2(opinion) = favorable, AntiPos2(opinion) = défavorable
Pos2(critique) = favorable, élogieuse
Idem.
Mots employés comme une louange standard codifiée par la langue : Bon
Bon(compliment) = recherché, bien tourné
AntiBon (compliment) = maladroit
Bon(refuser) = poliment
AntiBon(refuser) = sèchement, V ( Concept_Ontologique(V) --> V ( Contexte1(V){accessoire ou nécessaire} .... --> V ( Contextei(V){accessoire ou nécessaire} .... --> V ( Contexten(V){accessoire ou nécessaire}.
Pour notre exemple IncepPredMinus(vent) = mollir, se calmer, nous aurons :
mollir : a pour catégorie VI, et construction V, domaine : marine
--> mollir ( devenir de moindre importance (Liste de Verbes) --> mollir ( verbes du vent {nécessaire}
et
--> se calmer ( devenir de moindre importance (Liste de Verbes) --> se calmer ( verbes du vent {accessoire}
Mais le modèle de notre dictionnaire n’est pas toujours suffisant. C’est le cas avec S1Perf(s’évader) = un évadé que nous ne pouvons reproduire pour le moment avec la précision du DEC.
I] Fonctions diverses
Termes dont l’emploi co-occurrent est fréquent, et marque un contraste : Contr.
Contr (terre)=ciel
Par construction, les contrastes partagent de nombreux traits sémantiques. Ainsi le Dictionnaire Intégral reflète de nombreux contrastes sans toutefois les situer au niveau du terme (comme c’est le cas pour le DEC) mais au niveau du concept.
J] Conclusions sur les rapports DEC / Dictionnaire Intégral
La théorie sens(texte propose un système cohérent de description des unités lexicales. Néanmoins l’absence de toute référence aux classes lexicales dans le DEC permet de penser qu’une instanciation à grande échelle du modèle serait peu économique et difficile à réaliser. De son côté, la conception du Dictionnaire Intégral utilise le plus largement possible ces classes. Comme ces classes doivent exister préalablement à la définition des équivalents de fonction lexicale du DEC, le Dictionnaire Intégral présente ponctuellement un retard dans le formalisme des fonctions lexicales. Mais quand les classes préexistent, c’est le cas par exemple pour l’ensemble des fonctions à valeur sémantique particulière, le travail dans le Dictionnaire Intégral est plus systématique.
Autres informations concernant USèm
La plupart des règles de description des USèm données ici sont formulées par le modèle GENELEX. Certaines de celles-ci se retrouvent dans d’autres disciplines comme la norme ISO1087 sur la terminologie.
Les sens par défaut = signification que doit prendre une unité morphologique polysémique quand les calculs contextuels ne fournissent aucun résultat [G]
Cette situation se rencontre très souvent quand on effectue des calculs sur des textes non autonomes comme le renard est beau. La règle veut que pour ce contexte de renard une valeur sémantique par défaut soit donnée. Dans la règle, un marqueur Default est obligatoire pour toutes les unités polysémiques ou homonymiques.
En 1992, nous avons d’abord retenu cette spécification et essayé de l’appliquer au découpage en mots-sens de notre dictionnaire. Cependant, après près d’une année d’effort, il est apparu que quelles que soient les consignes ou conseils donnés (du type : si le renard est le titre d’un « que sais-je? », de quel renard s’agit-il vraisemblablement?), nous n’arrivions que rarement à nous mettre d’accord sur la valeur de default. Finalement, cette règle est aujourd’hui complètement abandonnée.
Pour chaque sens, quand il existe, il convient de fournir les niveaux de langue (nous prenons ce terme dans une acception un peu large) :
Figuré, par métaphore, Péjoratif, Vieux, familier, argotique, argot, argot scolaire terme publié au Journal Officiel., marque déposée français du Canada, français d’Afrique anglicisme, rare, courant...
Nous avons repris intégralement cette règle. Chaque mot-sens peut avoir 1 à N niveaux de langue.
Pour chaque sens identifié, il convient de fournir les domaines d’emploi
Par domaine d’emploi, nous considérons communément des secteurs de l’activité humaine : aviation, astronomie, armement, ...didactique (pour la notion générale)... zoologie.
Cette règle est retenue quand le domaine fait figure de contrainte d’emploi. Le Dictionnaire Intégral comporte environ 400 marques de domaines, chaque mot pouvant avoir 1 à n domaines.
brouillard : document comptable (domaine : comptabilité/gestion) brouillard : phénomène atmosphérique (domaine : Null)
Pour chaque sens, il convient de fournir une définition
Dans le Dictionnaire Intégral, ce travail est fait au moyen de la décomposition sémantique. Cette décomposition permet généralement de retrouver le libellé de la définition du dictionnaire de langue.
Pour chaque sens, il convient de fournir un ou plusieurs exemples d’emploi.
Cela n’est fait que d’une façon exceptionnelle, pour des mots qui présentent des difficultés réelles.
Conclusion sur les règles de description contextuelles.
Nous avons montré que le Dictionnaire Intégral adopte la plupart des règles courantes de la description universaliste des unités linguistiques. Les formes d’application de ces règles sont souvent très différentes de celles habituellement pratiquées. Comme le Dictionnaire Intégral repose sur une structure sémantique importante et préalable à toutes les descriptions, chaque règle est généralement considérée selon son impact sur la structure. Ainsi, en morphologie, nous avons considéré qu’il n’est pas souhaitable de considérer comme autonome l’unité morphologique par rapport à l’unité sémantique. Concernant la dérivation morphologique, nous avons refusé son étude spécifique, considérant à l’instar de la théorie sens(texte que la dérivation réellement utile est de type sémantique et s’inscrit dans l’organisation sémantique du dictionnaire. Mais le modèle sens(texte étudie les unités lexicales sans s’imposer une référence à une superstructure sémantique préalable. Cette liberté permet au modèle sens(texte de créer à l’envie un grand nombre de fonctions lexicales. Nous suivons avec difficulté le rythme de cette créativité du fait des contraintes importantes qui résultent de la maintenance d’une structure générale dont on veut conserver l’organisation homogène. Il reste que la référence aux progrès analytiques du modèle sens(texte est importante dans la mesure où nous souhaitons rapprocher encore les deux modèles pour disposer à terme des données des opérations texte(sens et sens(texte les plus précises possibles.
Comparaison quantitative de WordNet puis de EuroWordNet et du Dictionnaire Intégral
WordNet et le Dictionnaire Intégral
Dans son article Incomparabilité des dictionnaires, Dubois (1990) note :
Affirmer que les dictionnaires de même dimension sont fondamentalement identiques moyennant quelques différences de détail, est une banalité courante (...) et pourtant cette affirmation est radicalement fausse. Cette erreur relève d’une méconnaissance de la lexicographie (...).
Dans le cas du Dictionnaire Intégral et de Wordnet, les bases de la comparaison ne sont bien évidemment pas données sauf, naturellement, en risquant quelques hypothèses fortes.
Les difficultés majeures d’une comparaison Dictionnaire Intégral / (Euro)Wordnet tiennent d’abord en la différence des langues. Cette difficulté peut être contournée par la finalité de la comparaison : notre comparaison est surtout quantitative. Mais la comparaison quantitative est rendue difficile par des structures de représentation totalement différentes. Nous mettrons en œuvre des procédés de projection pour pallier cette difficulté.
Comme la finalité de la comparaison est d’expliciter le contenu du Dictionnaire Intégral à partir du contenu réputé connu et largement décrit (Fellbaum 1998) de WordNet, nous partirons toujours d’une mesure (notée M) connue de (Euro)WordNet puis nous chercherons à construire une mesure similaire, pour la même variable, dans le Dictionnaire Intégral.
Le dénombrement des nœuds
Le nombre d’unités morphologiques : NUm1
On obtient ce nombre par projection des unités sémantique sur les seules chaînes de caractère. Cette mesure retourne donc le nombre de mots de chaque dictionnaire (et non le nombre de mots-sens).
NUm1(WN) = 119.216 NUm1(DI) = 146.238
Cet écart important est essentiellement dû au fait que le DI comporte énormément de toponymes par rapport à WN (voir mesure 2).
Nombre d’unités hors toponymes et anthroponymes : NUm2
NUm2(WN) ( 105.000* NUm2(DI) = 94.434
Longueur moyenne en caractères des unités morphologiques : LNUm
LNUm(WN) = 11,33 LNUm(DI) = 11,48
Ce chiffre voisin de 11 caractères est une propriété de tous les dictionnaires à large couverture quand la mesure se base (comme ici) non sur les mots pris isolément mais sur l’ensemble des unités morphologiques simples et sur les unités morphologiques composées.
Nombre de mots-sens (avec les noms propres) : NMs1
NMs1(WN) = 168.135 NMs1(DI) = 188.442
Nombre de mots-sens (sans les noms propres) : NMs2
NMs2(WN) ( 154.000 NMs2(DI) = 132.899
Nombre de mots-sens par unité : Ms/Num
Avec les noms propres :
Ms/Num1(WN) = 1,41 Ms/Num1(DI) = 1,28

Sans les noms propres : Ms/Num2(WN) = 1,47 Ms/Num2(DI) = 1,41
Nous notons que le nombre de mots-sens par unité morphologique de WordNet est sensiblement voisin de celui du Dictionnaire Intégral une fois que les noms propres sont décomptés. Il reste que WordNet présente un taux moyen d’ambiguïtés sémantiques basé sur les formes morphologiques du dictionnaire qu’il faut considérer comme plus élevé. En effet, comme nous l’avons dit WordNet enregistre un sens par emploi consacré par l’usage : il n’y a pas de prise en compte ici d’une éventuelle possibilité de factorisation des sens de mots polysémiques. Au contraire, dans le Dictionnaire Intégral, quand cela est possible, nous factorisons les sens d’un polysème sous une même entrée avec des valeurs spécifiques pour chaque collocation. Par exemple, en français, abattre sens 1 est considéré comme polysémique. Ce sens comprend un noyau sémantique faire tomber. Quand le complément d’objet du verbe abattre est un avion ou une construction, il y a une destruction. Quand le complément d’objet du verbe abattre est un arbre, on coupe cet arbre. Cela donne dans le dictionnaire intégral la représentation :
abattre :
Sens 1 Abattre, VT, V+comp,V+comp+au moyen de+comp 1. \faire tomber (200 verbes) 1.1 \en détruisant (caractéristique, 10 mots), 1.1.1 \détruire un avion en vol (1 verbe) 1.1.2 \détruire, mettre à bas une construction (6 verbes) 1.2 \couper un arbre (6 verbes) 1.3 \couper une forêt (6 verbes)
Une représentation du verbe français abattre dans le formalisme de WordNet conduirait à la création de quatre sens différents :
Sens 1 Abattre, VT, \faire tomber qqch (synset)
Sens 2 Abattre, VT, \faire tomber un avion en le détruisant (synset)
Sens 3 Abattre, VT, \faire tomber une maison en la détruisant (synset)
Sens 4 Abattre, VT, \faire tomber un arbre en le coupant (synset)
Sur le plan du multilinguisme, l’approche Wordnet présente un avantage : les sens regroupés du Dictionnaire Intégral se prêtent souvent mal à la traduction. Mais au plan monolingue l’inconvénient est patent : Wordnet a une tendance a créer d’une façon bien artificielle des sens (mais rappelons encore que les perspectives de Wordnet ne sont pas linguistiques). En définitive, indépendamment des critères d’éclatement des sens, nous pouvons penser que la couverture par Wordnet de la langue anglaise est comparable à la couverture par le Dictionnaire Intégral de la langue française.
Dénombrement des sens par catégories syntaxiques
Le tableau suivant résume les résultats de ce dénombrement.
Nombre d’unités grammaticales par grandes catégories
WNDIAdjectifs et Satellite2874920302Adverbes62013513Affixe0409Alphabet067Chiffre ex : 2017Conjonction0305Déterminant0168Divers0227Noms10742484073Noms propres selon 10 cat.0 =235,00+140+116+52096+37,00+1820+790+196+17+31 55478Ponctuation019Phrases0546Préposition0635Pronom0311Symbole0166Verbe2576122206Total =SOMME(AUDESSUS) 168135 =SOMME(AUDESSUS) 188442Ce tableau montre que les résultats par grandes catégories sont globalement comparables. On peut noter que la catégorie Adverbe présente quelques insuffisances dans le Dictionnaire Intégral.
Dénombrement des relations de WordNet
Le nombre moyen de mots par synsets selon la relation Is-A : M/Sy
M/Sy(WN) = 1.83
Sur 91591 ensembles (synsets) de Wordnet, 45415 ensembles possèdent seulement un mot Is_A et 88843 ensembles comportent au plus 4 mots.

M/Sy(DI) = 8.65
Sur 21450 ensembles porteurs d’une relation Is_A dans le Dictionnaire Intégral, 580 ensembles de ce type ne portent qu’1 mot et 12% comportent plus de 20 mots.
La différence des statistiques montre que WordNet et le Dictionnaire Intégral ont des définitions complètement différentes de la relation Is_A. WordNet a pour structure première l’ensemble des synonymes ou synset. Les synsets de WordNet comportent (dans une relation Is_A) tous les mots qui partagent entièrement un même sens (c’est-à-dire expriment complètement une même notion). Dans WordNet Is_A est le nom porté par la relation de synonymie (à une définition).
Le Dictionnaire Intégral a pour structure première le concept qui est une hypothèse de sème. Un concept ne constitue pas, en général, la définition d’un mot (sauf dans des cas très particuliers où il existe une lexicalisation précise du sème). Ainsi, les concepts du Dictionnaire Intégral comportent des mots qui partagent partiellement un même sens : dans le Dictionnaire Intégral le nombre d’occurrences de la relation Is_A dans un même concept est forcément élevé. Pour le Dictionnaire Intégral, Is_A est une relation d’hyponymie.
Maintenant que nous avons fixé que la relation Is_A n’a pas la même signification dans les deux dictionnaires, est-il possible de comparer ces deux dictionnaires selon le calcul de WordNet qui donne le nombre moyen de relations Is_A par synset c’est-à-dire le nombre moyen de mots qui ont exactement la même définition. Dans le Dictionnaire Intégral, la définition d’un mot est donnée par l’énumération de plusieurs concepts.
Notons Ci,j, le je concept d’un mot-sens i. Considérons que ce mot a n concepts pères (1(j(n) immédiats (ou directs).

Le mot-sens i dans le Dictionnaire Intégral
Une définition du Dictionnaire Intégral est donnée par la concaténation de l’énumération des concepts qui portent directement ce mot.
Définition (i) = Ci,1+…+Ci,j+…+Ci,n.
Nous avons calculé cette concaténation pour l’ensemble des mots-sens du Dictionnaire Intégral. En divisant le nombre obtenu de concaténations par le nombre de mots-sens nous obtenons un indicateur qui approche la valeur de WordNet :
Finalement, on obtient :
M/Sy(DI) = 2.13
Sur 88257 regroupements de concepts du Dictionnaire Intégral (quasi-synsets) tels qu’au moins l’un d’eux soit porteur d’une relation Is_A, 70412 regroupements ne portent qu’un mot et près de 5% comportent plus de 50 mots.
De tout cela on peut conclure, à gros traits, les faits suivants :
70412 regroupements avec un mot donnent au Dictionnaire Intégral un degré de différenciation des mots légèrement supérieur à celui de WordNet.
Mais, le Dictionnaire Intégral est très imprécis pour environ 7% de son vocabulaire : ces zones correspondent finalement à des Is_A non définitoires, à savoir les taxonomies (comme la zoologie) où les descriptions sont rarement données pour le moment.
Les autres relations
Nous avons observé dans le point M24 que la comparaison la plus banale que l’on puisse faire, à savoir compter la relation Is_A, pose des problèmes importants quand deux dictionnaires n’ont pas une conception commune initiale.
Nous nous contenterons de noter ici les autres relations prévues par WordNet et d’indiquer si elles possèdent un équivalent objectif dans le Dictionnaire Intégral.
La relation d’hyponymie(WN) : 44.000 env.
Le Dictionnaire Intégral reconnaît ces types de relation.
La relation d’antonymie :7.201
Wordnet considère antonyme « victoire et défaite », « homme et femme ». Le Dictionnaire Intégral ne reposant pas sur des mécanismes psycho-linguistiques accepte un peu moins d’antonymes.
La méronymie(WN) : 366
Partie de(WN) : 5.693
Fait de(WN) : 11.471
Le Dictionnaire Intégral reconnaît ces types de relation.
Also see(WN) : 3.507
Derived from(WN) : 6.428
Idem.
Cause(WN) : 204
Idem.
Topologie générale
Le nombre total de synsets : NSy
NSy(WN) = 91.591
NSy(DI) = 88.257 env. (selon le mode de calcul de la mesure M24)
Le Nombre total de Relations directes : NtotR
NtotR(Wn)= 245.119 (maximum) Certaines relations considérées non symétriques (comme l’antonymie) sont données deux fois
NtotR(DI)= 358.499 (exact) Toutes les relations sont symétriques
Les chiffres fournis ici peuvent être multipliés pas deux car nous notons toujours un arc orienté d’un « fils » vers l’un de ses « pères ». Or la plupart des relations décrites dans le Dictionnaire Intégral ont une signification dans les deux sens.
En nombre de relations, le Dictionnaire Intégral comprend près de 50% de relations en plus de Wordnet (du fait même de sa structure sémantique componentielle).
Profondeur moyenne : Pmoy
Pmoy(Wn)= 8
Pmoy(DI)= 13
Profondeur maximale  : Pmax
Pmax(Wn)= 16 (sauf circularité)
Pmax(DI)= 35 (idem)
Nombre moyen de fils directs d’un père : NmoyF (hors synset)
NmoyF(Wn)= 7,50
NmoyF(DI)= 6,49
Nombre moyen de pères directs d’un fils : NmoyP
NmoyP(Wn)= 1,0
NmoyP(DI)= 2,2
WordNet est un arbre. Le Dictionnaire Intégral est graphe orienté (rappel).
Nombre maximal de pères directs d’un fils : NmoyP
NmoyP(Wn)= 2
NmoyP(DI)= 34
Nombre moyens de concepts (directs et indirects) par mot-sens : NbMoyConc
Cette mesure donne le nombre moyen de concepts portant un mot-sens. Cette mesure peut être approchée par la profondeur moyenne PMoy élevée à la puissance nombre de pères moyens d’un fils NmoyP :
NbMoyConc(Wn)= 81 = 8
NbMoyConc(DI)= 132,2 = 281
Dans le Dictionnaire Intégral, un mot est présent en moyenne dans 281 concepts.
EuroWordnet et le Dictionnaire Intégral.
Nous avons été partenaire du projet EuroWordNet (LE4-8328).
Pour réaliser la version française de WordNet, nous avons d’abord communiqué à l’Université d’Avignon le format des données du Dictionnaire Intégral. En effet, ce format est très souple et nous disposons depuis de nombreuses années d’un outil nommé Lexidiom qui est capable de gérer des graphes assez complexes avec une grande efficacité pour la personne qui l’utilise.
 INCORPORER Word.Picture.8 
WordNet 1.5 vu par l’interface LEXIDIOMUne comparaison profonde entre la structure de EuroWordnet et celle du Dictionnaire Intégral multilingue n’apporterait pas un nouvel éclairage à notre présentation du Dictionnaire Intégral. En terme de contenu, EuroWordnet est très proche de WordNet même si quelques nouveaux liens sont apparus, notamment au niveau de la topontologie et dans les descriptions multilingues qui ont fait apparaître les relations se traduit par et ont renforcé l’emploi de la relation similar. Ce choix n’est pas trop discutable puisque :
en général, on appelle un chat un chat
si d’aventure, dans une langue donnée, on dit littéralement les restaurants sont-ils fermés? pour j’ai faim, il sera tout indiqué de placer les restaurants sont-ils fermés? dans la case j’ai faim de la structure Wordnet de base (pour les synsets très référentiels qui sont nombreux à être dans ce cas dans WordNet).
Ce choix a été particulièrement suivi pour le français qui avait l’avantage, dès le départ, de pouvoir bénéficier d’une traduction automatique (et à corriger) d’environ 20.000 synsets de WordNet. Cette traduction automatisée a été faite par nous à partir d’une sélection d’environ 40.000 couples de mots sélectionnés automatiquement dans le Dictionnaire Intégral.
Dans EuroWordNet, chaque représentant d’une langue a eu à remplir de 20 à 25.000 synsets. En ce sens, le contrat EuroWordNet a été parfaitement rempli par l’ensemble des partenaires du projet.
Du côté du Dictionnaire Intégral, on trouve environ 40.000 mots-sens pour chacune des langues suivantes : l’espagnol, l’allemand, l’italien et le portugais. L’anglais comporte environ 65.000 mots-sens et nous savons déjà que le français renferme actuellement 185.000 mot-sens.
En conclusion de ce point, nous avons montré que WordNet rentre facilement dans le gestionnaire de dictionnaire du Dictionnaire Intégral (Lexidiom) et que la plupart des informations de WordNet sont contenues dans notre dictionnaire.
Les descriptions aprioriques du Dictionnaire Intégral
Les descriptions aprioriques (ou contextuelles) du Dictionnaire Intégral effectuent le rapprochement des mots-sens ayant des traits sémantiques partagés d’une façon essentielle ou accessoire.
Nous présentons dans ce chapitre :
Les règles de construction du Dictionnaire Intégral
Ce qui ne peut pas encore être modélisé dans le Dictionnaire Intégral
L’implémentation informatique des données du Dictionnaire Intégral
Principes minimaux de construction du Dictionnaire Intégral
Nous traitons d’abord : les principes minimaux de déclaration d’un mot-sens, puis nous donnerons quelques idées concernant la création des concepts.
Les principes minimaux de modélisation des mots-sens
Nous traitons de cette question à partir de l’étude d’un exemple précis : celui de la description sémantique d’un renard (l’animal). Nous détaillons les différentes questions que l’on doit se poser, puis, nous envisagerons quelques autres exemples.
Exposé général : l’exemple de renard
La principale règle de conception est la suivante : en pensant au dictionnaire à l’envers, comment un individu assez compétent en français pourrait débuter la définition du motclé ?
Supposons que ce mot n’ait en français que les quatre significations suivantes (celles-ci sont prises dans le Grand Robert) :
1. Mammifère carnivore (Canidés) de la taille de certains chiens, au corps allongé, aux oreilles droites, à la tête triangulaire assez effilée, à la queue touffue, au pelage fourni.
2. Peau, fourrure du renard, apprêtée.
3. Fig. Personne fine et rusée*, subtile* (l’accent étant mis soit sur la subtilité, l’astuce, soit sur la malfaisance).
4. Fente, trou par où se perd l’eau d’un canal, d’un bassin.
Pour chaque sens de ce mot, nous devrons nous poser les questions :
Le mot-sens proposé par la source, ici le Grand Robert, est-il incontestable ?
Cette question générale se subdivise ainsi :
rend-il compte de la langue française depuis le XVIIIes ?
est-il autonome par rapport aux autres mots-sens fournis par la source ?
est-il autonome en terme d’expression figée ou semi-figée ?
Si (a) semble faux, vérifier avec une autre source puis décider de ne pas créer le mot, Si (b) semble faux, il vaut mieux d’abord créer l’autre mot-sens, Si (c) semble faux, envisager la conception d’une locution ou d’une expression semifigée.
Quels sont en langue les génériques pour un sens de renard (s’il existe)?
Nous distinguerons ici les génériques ontologiques, linguistiques et fonctionnels. Notre définition du terme Générique ne recouvre ni les travaux du modèle sens(texte ni les relations de WordNet.
A] Les génériques ontologiques
Nous appelons générique1(X) les termes de la langue capables de débuter toutes les plus courtes définitions possibles de X (paraphrases définitionnelles minimales de X). Générique1(X) retourne les génériques immédiats de X. Génériquen(X) retourne tous les génériques de rang n de X.
Un même mot-sens peut avoir plusieurs génériques immédiats : d’une part, le nombre de génériques d’un mot-sens dépend du découpage en concept du dictionnaire, d’autre part ce nombre dépend du nombre de dimensions en langue du mot étudié. Ainsi, un mot comme planche à voile (en tant que l’objet) a (au moins) deux dimensions : l’une est l’élément d’équipement d’un sport, l’autre le matériau de cet équipement. Pour traiter ces cas, le dictionnaire doit prévoir l’existence de génériques dont la nature formelle est d’être métonymique.
Ex. pour planche à voile :
équipement principal du surfeur
planche sur laquelle est dressée une voile servant à l’activité sportive nautique de windsurf.
Pour renard [1], nous ne retiendrons d’abord qu’un seul générique immédiat : canidé, tous les Canidés étant des Mammifères carnivores, la proposition du Robert ne donne pas en premier le terme qui permet de fabriquer la plus courte définition possible.
Cela dit, il faut immédiatement vérifier que les génériques supérieurs (par exemple proposés par le Robert) sont connus du Dictionnaire. Ainsi, il faut suivre les deux chaînes de génériques :
mammifère, avec la question : mammifère est-il un générique de plus haut niveau déjà connu (ou non)?
carnivore, avec la question : l’ensemble de tous les canidés sont-ils carnivores?
La réponse à ces deux questions nous permettra de répondre à la troisième question suivante : mammifère carnivore doit-il devenir un mot de notre dictionnaire? Si le dictionnaire à l’envers est capable depuis \mammifère+\carnivore d’extraire canidé, l’intérêt de créer ce mot sera limité. Toutefois \mammifère carnivore pourra être créé : 1°) si la collocation en langue est jugée naturelle, 2°) si l’application d’un principe d’économie nous conduit à devoir rassembler en une même classe tous les animaux carnivores plutôt que de marquer individuellement le trait.
Enfin, ayant fait toutes ces opérations de vérification, il nous faut vérifier qu’un carnivore mange bien de la nourriture carnée dans notre dictionnaire pour avoir une chance de résoudre la question : mammifère mangeur de viande qui...
B] Les génériques linguistiques
Nous ne nous attarderons pas sur ces mots dont le statut n’est jamais définitif, un peu comme un mot vide n’est vide que dans une manière d’observer particulière. En français, le mot bureau semble un bel exemple de générique linguistique. Cidessus, planche nous semble en être un également. Il s’agit de deux cas de métonymies qui nécessiteraient un sérieux investissement pour être traitées sur le plan ontologique. Il faut noter aussi qu’il y a un risque à vouloir tout faire entrer dans une ontologie a-linguistique : ce risque conduit précisément à tendre vers une ontologie de la langue, laquelle sera très difficile à réutiliser dans une autre langue.
C] Les génériques fonctionnels
De nombreux mots n’ont pas du tout de génériques ontologiques en langue. Nous avons abordé cette question à propos des 20.000 satellites de Wordnet. Mais ces mots doivent pouvoir être retrouvés par le dictionnaire à l’envers.
Par exemple,
sur doit pouvoir être retourné par préposition de lieu,
buccal doit pouvoir être retourné par relatif à la bouche,
vacuité doit pouvoir être retourné par caractère du vide
De la même façon que le Dictionnaire Intégral présente une racine ontologique pour son organisation ontologique, les fonctions lexicales et les fonctions grammaticales ont leur propre racine dans le dictionnaire. Tous les mots de ces racines ont au moins un ancêtre avec deux pères : l’un va vers ces racines, l’autre pointe sur le racine ontologique.
Existent-ils d’autres traits caractérisant renard-canidé?
Curieusement le Grand Robert n’a pas donné le trait \sauvage (caractéristique) qui contribuerait à l’opposer au chien domestique. Au contraire, le Robert renvoie le lecteur au chien, d’une manière fort évasive : de la taille de certains chiens.
Les autres traits proposés ne sont guère plus concluants :
au corps allongé, que faire alors d’un gros renard bien gras?
aux oreilles droites, que faire d’un renard aux oreilles basses
à la tête triangulaire bien effilée, peut-être?...
à la queue touffue, non, pas à sa sortie d’un bain
au pelage fourni, pas davantage.
En bref, de tout cela il ressort que : un renard est un canidé + les traits spécifiques des canidés + les traits caractéristiques nécessaires ou virtuelles des canidés, des mammifères (mode de reproduction), des animaux (manger, dormir, naître, fonctions vitales), il est carnivore, ...
De tout cela doit-on conclure que le renard ne pourrait avoir aucun trait qui le distingue du chien? Non. Avant de prolonger, introduisons la notion de caractère encyclopédique. L’ensemble des éléments fournis par le Robert ont une nature encyclopédique (c’est normal puisque l’article traite d’un animal). Si nous savions coder en langue l’ensemble des traits proposés par le Robert, tous ces traits seraient retenus pour traiter de renard-canidé. Mais les groupes non lexicalisés comme au corps allongé nous posent problème (quelle est leur importance, quelles sont leurs paraphrases...). Sur l’aspect physique du renard, le Dictionnaire Intégral reste pour le moment bien en deçà du Robert. Alors, s’il faut donner quelques caractères encyclopédiques, lesquels choisir? Ceux qui ont déjà une existence dans le Dictionnaire Intégral parce qu’ils sont lexicalisés. Voici :
\animal sauvage (sauvage, caractéristique encyclopédique)
\gibier (sorte de, encyclopédique)
\agent de la rage (sorte de, encyclopédique)
...
Ces informations nouvelles, toutes sous la forme de classe (c’est un hasard), nous fournissent au passage trois génériques immédiats virtuels supplémentaires pour renard-animal. Les génériques encyclopédiques permettent d’effectuer des définitions nouvelles de renard en partant d’une des métonymies du mot clé à décrire.
Mais n’est-il aucune information qui puisse caractériser le renard et le différencier totalement du chien?
Étudions maintenant le monde spécifique du renard. S’il est seulement possible que le renard ait davantage de chances de glapir que le chien, il est une certitude que le renard vit dans une renardière, avec sa renarde et ses renardeaux, plus exactement, et en formulant la proposition dans le bon sens : il est impossible de définir renardière/abri, renarde/femelle, renardeau/petit sans établir de liens nécessaires, non accessoires, ontologiques avec renard. En langue, tout mot-sens défini par un trait sémantique nécessaire (ontologique) t contribue à déterminer d’une façon univoque les sens des mots fondateurs du trait t. Dans notre exemple, le mot renardière est défini d’une façon nécessaire par le mot renard. Ce lieu nécessaire peut être fort utile pour déterminer en contexte la signification de renard.
Mel’cuk se demande pourquoi la fonction lexicale Son Son(renard)=glapir devrait être accompagnée de sa forme réciproque Son-1. Il note :
Personne n’irait chercher dans un dictionnaire le nom d’un animal à partir de son cri.
Nous ne discutons pas ce point. Mais tout le monde utilise couramment Son-1 pour établir le sens d’un texte, en effectuant des opérations de paraphrase. Prenons un exemple. Soit la fonction lexicale à valeur sémantique spécifique Monnaie. On écrit à la manière du DEC : Monnaie(Japon)=yen. Soit le titre d’un article : le pays du yen. Ce titre ne peut-il pas être paraphrasé par le Japon et le yen? Cette paraphrase ne peut être obtenue que par la fonction réciproque Monnaie1(yen)=Japon.
Notre travail sur renard-canidé est-il achevé?
Il convient d’abord de porter un jugement minimal sur ce qui a déjà été fait :
étant donné le contenu du réseau sémantique utilisé à l’instant t, a-t-on bien profité de l’ensemble des possibilités descriptives du réseau (sans ajouter de concepts)?
renard-canidé comporte-t-il des marques qui pourraient limiter son emploi, à savoir :
type de construction en emploi non elliptique
marque de domaine : le mot ne prend-il ce sens que dans le contexte d’une langue de spécialité particulière?
marque de figure : le mot ne prend-il ce sens qu’en consacrant une forme figurée, métaphorique, (...) inscrite dans l’usage?
marque de registre de langue, à savoir :
rapport au temps : le mot-sens correspond- il à un emploi de l’ancienne langue, marque-t-il un effet de style archaïque (ou le contraire)...
rapport à l’espace ou à une sous-communauté linguistique : en Belgique, en Français du Québec, en Français d’Afrique...
rapport au style : littéraire, tournure soutenue, précieux, rare, vulgaire, populaire, familier...Ces marques permettent d’évaluer celui qui s’exprime...
le choix du mot-sens dénote-t-il une opinion du sujet s’exprimant sur l’objet de son discours : péjoratif, affectueux, ...
…
Cet ensemble de marques reflète une pratique aujourd’hui bien établie de la terminologie et de la lexicologie. Chaque marque est utilisée par le système sémantique automatique (donc universel) pour établir, à leur niveau, des isotopies entre elles, et pour certaines comme les domaines avec le jeu de concepts du graphe conceptuel.
Revenons maintenant à renard-canidé : du point de vue de ce qui a été dit, son sens estil limité à un contexte qui devrait le marquer tout particulièrement ? Non : le Dictionnaire Intégral n’enregistrera aucune marque restrictive ici (ni plus qu’une marque de type : valeur par défaut).
Pour conclure sur renard-canidé, récapitulons les liens dans un schéma.
INCORPORER PowerPoint.Show.8
Le « mot-sens » renard-canidé dans le Dictionnaire IntégralCinq autres exemples
Du schéma ci-dessus et de sa comparaison avec le sens 1 de renard-canidé, il ressort que nous n’avons pas représenté les mêmes informations que le Grand-Robert. Est-ce à dire que nous rejetons la description (non linguistique à l’instar de la nôtre) proposée par ce grand dictionnaire ? Aucunement : la raison est du ressort de nos moyens actuels. Le Dictionnaire Intégral ne peut enregistrer d’informations sémantiques que s’il est capable de les générer et de les reconnaître. Or, nous ne sommes pas encore capables de déclarer des compléments déterminatifs introduits par à comme dans aux oreilles droites. Le concepteur du Dictionnaire doit toujours garder à l’esprit que certains faits ne peuvent pas encore être décrits. Mais avant d’aborder cette question dans un deuxième point, analysons plutôt sept nouveaux exemples :
les autres sens de l’article renard
le mot bras dans le sens pièce allongée, horizontale...
un mot transversal gabonais
un verbe : pêcher
un mot abstrait, à la base de l’ontologie : le non-être
1°) Les autres sens de renard
Sens 2 : Peau, fourrure du renard, apprêtée.
Le mot-sens proposé par la source, ici le Grand Robert, est-il incontestable?
Oui, mais il faudra faire attention.
Elle portait un renard qu’elle avait acheté à Paris (non attesté). Les corpus confirment toutefois l’intuition. Anatole France dans Les Dieux ont soif écrit  : « Il revenait heureux de les avoir tous vendus, lorsque, sur la ci-devant place du Carroussel, une fille en pelisse de satin bleu bordée d’hermine, qui courait en boitant, se jeta dans ses bras et le tint embrassé à la façon des suppliantes de tous les temps ».
Quels sont en langue les génériques pour le sens renard-fourrure (s’ils existent)?
Dans le Dictionnaire Intégral, peau a plusieurs sens. L’un d’eux est un générique de fourrure, d’une façon accessoire.
Fourrure sera le seul générique direct de renard-fourrure.
Existent-ils d’autres traits caractérisant renard-fourrure?
Un lien caractéristique entre renard-fourrure et \renard thème.
Mais n’est-il aucune information qui puisse caractériser renard-fourrure et le différencier totalement des autres fourrures?
Il est déjà différencié par son lien avec \renard thème.
Notre travail sur renard-fourrure est-il achevé?
Non : bien que nous n’ayons pas noté la locution fourrure de renard car il s’agit de quelque chose de non figé qui pourra facilement être analysé par ses constituants, nous ajoutons la marque de construction « ellipse ».
Fournissons les ancêtres de renard-fourrure sur 6 niveaux :
¦ M renard Nom M.S.;ellipse/cat=, Gén(N) de
¦ \fourrure de renard [\N] /cat=, Gén(N) de
¦ ¦ \renard [T Act|Réf] /cat, car
¦ ¦ ¦ \canin [T Act|Réf] /cat,T, ency.
¦ ¦ ¦ ¦ \mammifère terrestre [T Act|Réf] /cat,T, ency.
¦ ¦ ¦ ¦ ¦ \mammifère [T Act|Réf] /cat,T, ency.
¦ ¦ ¦ ¦ ¦ ¦ \représentants du règne animal [T’T Suite...] /vers r
¦ ¦ \fourrure de gibier [\N] /cat=, encyclo
¦ ¦ ¦ \fourrure d’animaux [\N] /cat=, Spéc(N) d
¦ ¦ ¦ ¦ \fourrure [\N] /cat=, Spéc(N) d
¦ ¦ ¦ ¦ ¦ \fourrure [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \poil [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \peau [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \les vêtements [T’T Suite...] /cat,T,SUIT
¦ ¦ ¦ ¦ ¦ \peau (dépouille d’un animal) [\N] /cat=, encyclo
¦ ¦ ¦ ¦ ¦ ¦ \cuir et peau d’animal [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \mourir [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ \surface plane (horizontale, verticale, oblique) [caract. forme]
¦ ¦ ¦ ¦ ¦ ¦ \limite externe d’un corps ou d’un lieu [\N] /cat=, Spé
¦ ¦ ¦ ¦ ¦ ¦ \surface plane plus ou moins délimitée [\N] /cat=N, C
¦ ¦ ¦ ¦ ¦ \manteau de fourrure [\N] /cat=, encyclo
¦ ¦ ¦ ¦ ¦ ¦ \manteau [\N] /cat=, Spéc(N) d
¦ ¦ ¦ ¦ ¦ ¦ \vêtement de fourrure [\N] /cat=, Spéc(N) d
¦ ¦ ¦ ¦ \fourrure d’animaux [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ \fourrure [T Act|Réf] /cat,T, ency.
¦ ¦ ¦ ¦ ¦ ¦ \poil [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \peau [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \les vêtements [T’T Suite...] /cat,T,SUIT
¦ ¦ ¦ ¦ ¦ \activité de l’homme avec l’animal [T’T Suite...] /cat
¦ ¦ ¦ ¦ ¦ ¦ \le règne animal [T Act|Réf] /cat,T,ACTIV
Sens 3 : Fig. Personne fine et rusée*, subtile* (l’accent étant mis soit sur la subtilité, l’astuce, soit sur la malfaisance).
Le mot-sens proposé par la source est-il incontestable?
Oui. On peut trouver énormément d’occurrences dans notre corpus Bibliotexte. Par exemple,
Quand elle eut exprimé ses conjonctures à ce renard, il se mit à sourire, et voulut détourner les soupçons de la vieille fille. (Balzac, Le père Goriot).
Quels sont en langue les génériques pour le sens renard-personne (s’il existent)?
Personne fine + personne habile + {encyclo : malfaisant, malhonnête).
Existent-ils d’autres traits caractérisant renard-personne?
Étant donnés ses nombreux génériques, renard-personne sera certainement le seul de son espèce.
Mais n’est-il aucune information qui puisse caractériser renard-personne et le différencier totalement des autres personnes de même sorte ?
Nous répondons non à cette question de contrôle.
Notre travail sur renard-personne est-il achevé?
Non : il faut ajouter la marque figuré malgré le nombre élevé de renard-personne dans les textes. La marque figuré n’est pas une marque statistique et ne doit pas être utilisée comme telle. La preuve tient en une phrase : en toute bonne foi, le texte suivant comprend-il la moindre ambiguïté? Le renard mange et boit pour vivre et assurer sa reproduction. Nous ne ferons pas davantage de commentaires sur cette question ici.
Ci-dessous les pères de renard-personne sur seulement deux niveaux :
M 4 renard Nom M.S.;figuré
 \personne habile [\N] /cat=, Spéc(N) d
¦ \personne humaine [\N suite...] /VersRacineFL
¦ \habile [caract.] /cat, car
\personne qui trompe [\N] /cat=, Spéc(N) d
¦ \tromper [T Act|Réf] /cat,T,ACTIV
¦ \personne humaine [\N suite...] /VersRacineFL
\personne maligne [\N new_class] /cat=, Spéc(N) d
¦ \malice [T Act|Réf] /cat,T,ACTIV
¦ \personne humaine [\N suite...] /VersRacineFL
\personne hypocrite [\N] /cat=, Spéc(N) d
¦ \hypocrisie [T Act|Réf] /cat,T,ACTIV
¦ \personne qui trompe [\N] /cat=, Spéc(N) d
¦ \personne humaine [\N suite...] /VersRacineFL
\personne utilisant un procédé pour réussir qqch [\N] /ca
¦ \personne humaine [\N suite...] /VersRacineFL
¦ \moyen pour parvenir à un résultat déterminé [T Act|Réf] > 3.
(4) : d((fleuriste, vendre+fleur) ( f(\vendre (thème), \fleur (thème))/2 ( (f(\vendre (thème)) + f(\fleur (thème)))/2 ( (2 + 2)/2 ( 2
En conclusion, par la proximité sémantique, vendeur est une bonne réponse à vendre et fleuriste est une bonne réponse à vendre+fleur. En prolongeant ces raisonnements, il est facile de vérifier que
d((fleuriste, vendeur) > d((vendeur, fleuriste) alors que d((vendeur, fleuriste)= d((fleuriste, vendeur)
Un fleuriste est un vendeur mais un vendeur n’est pas un fleuriste : la proximité sémantique observe ce fait qui échappe à l’activation.
Les cas supplémentaires traités dans l’algorithme
Nous avons voulu montrer que plusieurs métriques différentes peuvent être mises en œuvre, avec des objectifs spécifiques, pour calculer des indices de similarité sémantique. Mais l’utilisation directe des procédés présentés ne suffit pas toujours puisque le Dictionnaire Intégral est un graphe bien plus complexe que celui de notre exemple.
Premièrement, il y a des problèmes liés à la mesure des PPPCNS qui donnent les éléments distinctifs aboutissant à un plus petit père commun non symétrique et connaissant une autre voie qui aboutit encore à un PPPCNS de taille supérieure. Si l’on accepte le cumul de ces informations de différence, qui restent des différences vues de plus en plus loin, la composante symétrique de X ( Y peut n’avoir plus aucun poids. A l’inverse, il est risqué d’arrêter trop tôt le calcul des différences. Nous avons mis en œuvre pour gérer ce problème un algorithme qui fonctionne d’une façon plus itérative que celui que nous avons présenté ici. Il reste que la recherche d’une solution simple ou plus simple de mesure de la proximité reste encore un objectif important : l’algorithme retenu pour le moment tombe à l’occasion dans des situations où les PPPCS sont rendus opaques pour certaines agrégations de H ou de C.
Deuxièmement, toutes les relations dans le Dictionnaire Intégral ne disent pas la même chose. Certaines relations indiquent une possibilité plutôt qu’une obligation pour un élément d’être en une place donnée. L’impact de ces relations est l’abandon de certains PPPCNS en contexte. D’autres relations indiquent qu’un trait est définitoire mais qu’il n’a aucune raison de se trouver dans un contexte particulier sauf si précisément on recherche un mot depuis l’expression d’une définition (dans ce cas il est obligatoire). Pratiquement tous les traits saillants permettant d’établir des différences dans des classifications sont comme cela. Encore d’autres relations décrivent des changements de point de vue vers le plus large (on parle de fluctuations du yen avant d’aborder les problèmes du FMI), ou à l’inverse, vers le plus spécifique (on passe d’une présentation des automobiles à une présentation des victimes de l’automobile...). Enfin, certaines relations sont très spécialisées et induisent des traitements très particuliers. C’est le cas par exemple des relations géographiques, des relations du dictionnaire des symboles, des relations de dérivations sémantiques et des relations conditionnées par une contrainte de fonction syntaxique. Toutes ces distinctions sont plutôt marquées dans le Dictionnaire Intégral, mais restent difficiles à utiliser dans un algorithme qui a tout intérêt à rester le plus simple possible.
Les paramètres d’activation et de proximité sémantique
L’algorithme réel d’activation et de proximité sémantique traite de plusieurs cas particuliers tenant aux types de relation du Dictionnaire Intégral. Un paramètre important est la hauteur des segments selon le type de relation et selon la mesure effectuée (activation ou proximité sémantique).
D’une façon générale, l’activation a pour rôle de précéder, par la rapidité de son calcul, la proximité sémantique qui fournit des informations plus détaillées. Ce rôle fait que l’activation ne doit jamais être silencieuse. Ainsi, les paramètres d’activation retenus actuellement sont tels que les h d’un nœud comprennent presque tous les nœuds antécédents du nœud jusqu’à la racine, et un très faible coût pour les liens qui doivent atteindre les racines. C’est le cas par exemple des liens ontologiques et lexicaux de type spécifique / générique.
De leur côté, les paramètres de distance utilisés pour le calcul de proximité ont tendance à établir que tous les liens, en tant que traits sémantiques, ont des coûts a priori équivalents. L’observation détaillée des chemins de la proximité sémantique associée à l’énoncé permet de décider selon le contexte la valeur réelle de ces liens, en considération, par exemple, de l’information syntaxique extraite de l’énoncé.
Résultats concrets de désambiguïsation sémantique
Nous voyons ici tous les exemples prévus en introduction de notre thèse. Pour effectuer cette présentation, et également pour compléter les informations communiquées dans les deux points précédents, nous détaillerons davantage le premier exemple : information sur le sens d’un énoncé.
Pour cela, nous essaierons de comprendre pourquoi l’activation donne pour ce texte un résultat meilleur que la proximité sémantique pourtant bien plus fine dans son analyse. Ensuite, nous traiterons tous les autres exemples, au moyen de la fonction d’activation ou de la fonction de proximité sémantique.
Étude détaillée de « Information sur le sens d’un énoncé »
Les deux fonctions d’activation et de proximité sémantique peuvent être utilisées dans une comparaison depuis un mot vers le restant d’un texte. Afin d’obtenir ce résultat, la phrase sémantique calcule d’abord des agrégations H=Uhi et C=Uci, où i désigne le nombre de mots de la phrase.
Nous étudions d’abord les propositions de désambiguïsation de l’activation, puis nous effectuerons les mêmes calculs avec la proximité sémantique.
A] La vision macroscopique de l’activation
Comme il est souvent le cas en matière de métrique, il est impossible de commenter un résultat sans que les échelles de la métrique utilisée soient données. Pour l’activation nous avons :
score minimal de l’activation : 1200 (meilleur score possible sauf en cas de quasiidentité)
score maximal de l’activation : 2000 (correspond à l’absence totale de liens)
Selon que la comparaison est effectuée entre deux mots et plus de deux mots, les scores obtenus peuvent être interprétés différemment :
avec seulement deux mots-position (soit deux vecteurs de mot-sens), il ne faut pas accorder trop de fiabilité aux scores supérieurs à 1300.
avec plus de deux mots, des scores globaux de 1500 peuvent être considérés comme bons s’il existe par ailleurs de bons scores individuels mot-position à mot-position (i.e. un écart-type élevé).
quand pour un même mot-position, on trouve des scores validés ( à plus --> à plus tard --> ?
 Is Word-Sense disambiguation just one more NLP task ?
 sémantique componentielle : sémantique fondée sur les sèmes.
 De la société Memodata. Le Dictionnaire Intégral est une marque déposée.
 Un signe linguistique défini n’est pas exactement un mot-sens : le signe linguistique défini est fourni par l’humain, le mot-sens est déterminé par la machine.
 Message Understanding Conference, une compétition d’extraction d’information organisée aux États-Unis à sept reprises de 1989 à nos jours.
 WordNet qui a été développé à l’Université de Princeton n’appartient pas aux sources qui ont contribuées historiquement à définir l’organisation informatique de la base de données du Dictionnaire Intégral. Les deux projets ont débuté à des dates semblables (1985 pour WordNet, 1988 pour le Dictionnaire Intégral) a une époque où Internet n’était pas encore répandu.
 Les travaux présentés ici ont été en partie financés par le Programme de Recherches Coordonnées « Informatique Linguistique » du ministère de la Recherche et de la Technologie.
 GENELEX est un projet EUREKA (Project E! 524). Il a débuté le 01/09/1990. Il s’est achevé 12/02/1996. Le financement du projet a été de 35,7 Meuro. Informations juridiques : www3.eureka.be. Il existe de nombreuses références sur Internet.
 Access ou Paradox
 Le terme de « racine » dans le Dictionnaire Intégral renvoie à son organisation en sous-dictionnaires. La racine la plus importante est la racine ontologique. On voit, avec un tel nom, que cette racine ne permettrait pas d’introduire dans la base une unité vide de sens. Il existe plusieurs autres racines comme la racine des symboles, la racine des syntagmes, la racine des fonctions lexicales…
 Co-occurrence d’un même sème dans un texte.
 Base BDLEX de l’IRIT de Toulouse.
 Reconnaisseur T2 pour reconnaisseur type 2. Les reconnaisseurs type 1 sont spécialisées dans la détection des UMC lexicalisées comme pomme de terre ou prendre pied…
Arité : (terme de logique) nombre de termes d’une proposition (RIVENC 1989)
 Note ajoutée par nous pour faciliter la lecture de cet exemple.
 Idem.
 C’est le tableau des contraintes qui fixe cette contrainte.
 dans (par GN), les parenthèses marquent le caractère optionnel de l’élément.
 La plupart des fonctions lexicales complexes et la fonction « Sympt » ne seront pas traitées ici parce que leur présentation indépendamment du régime des mots clés et de leur article complet enlèverait une grande partie de leur intérêt qu’un commentaire de notre part ne saurait rétablir.
 Nous reproduisons ici "telles quelles" les définitions et exemples du DEC. Sur ce plan, des paraphrases seraient stériles. Les extraits choisis, la classification des fonctions lexicales et nos commentaires constituent notre seul ajout, lequel est déjà susceptible de trahir suffisamment la pensée des auteurs.
 Si se rencontre souvent en combinaison d’autres fonctions lexicales comme dans S1Perf(s’évader) = un évadé).
 Les indices des actants ne sont pas permutables ; les régimes du mot clé donne de son côté les possibilités de permutations en langue.
 On pourrait ajouter Smed qui retourne le nom typique pour le circonstant de l’instrument du moyen. Ex : Smed(peindre)=peinture.
 Co-occurrence d’un même sème dans un texte.
 D’une façon générale, les éléments notés « \… » sont des éléments extraits du Dictionnaire Intégral : il s’agit d’ensembles de mots encore appelés concepts.
 Comme son nom l’indique, une liste de verbes comprend plusieurs verbes.
 Co-occurrence d’un même sème dans un texte.
 Notons la synonymie avec FinFunc0(vent I.1)=se calmer qui se lit cesser (Fin)+verbe sémantiquement vide.
 Nous appelons texte autonome un texte qu’il n’est pas possible de désambiguïser du fait d’un contexte insuffisant.
 Wordnet est essentiellement un arbre et le Dictionnaire Intégral est un graphe orienté.
 Les mesures données ici ont été effectuées à partir de requêtes ou de programmes spécifiques appliqués aux données de WordNet 1.5.
 WordNet est abrégé en WN, EuroWordNet en EWN et le Dictionnaire Intégral en DI.
 Remarquons que cette représentation de WordNet correspond à une linéarisation de l’arbre décrit par les numéros (1, 1.1, 1.1.1…) du Dictionnaire Intégral.
 Satellite est une relation Wordnet qui regroupe des mots non reliés au graphe ontologique sauf par des liens de type « similar », « Derived from », i.e., non directement reliés par un lien « Is_a ».
 Dans nombre de réseaux sémantiques, Is_A marque un lien d’hyponymie : alezan Is_A cheval. Dans WordNet Is_A est définitoire : alezan Is_A cheval brun orange. Nous ne prendrons pas l’expression française de Is_A Est_Un qui serait tout autant polysémique.
 Dans le projet européen EuroWordNet, les données françaises ont été modelées avec Lexidiom puis réexportées au format physique du logiciel du projet. Ce format, proche de celui de WordNet, est celui utilisé par le logiciel spécialisé PERISCOPE.
 Les deux premiers de l’ontologie de EuroWordNet.
 Nous ne traiterons pas ici des termes polysémiques.
 Les génériques métonymiques sont une variété de générique ontologique qui connaissent des traitements thématiques particuliers.
 Canidé est une autre sorte particulière de générique ontologique : le générique taxonomique. Ces génériques fixent les nomenclatures zoologiques, botaniques et minérales du Dictionnaire Intégral.
 Co-occurrence d’un même sème dans un texte.
 Si toutes les marques données ici sont considérées comme restrictives, il existe des emplois tellement courants qu’on ne peut qu’admettre que leur apparition puisse se faire en dehors de tout contexte marqué. Dans ce cas, la marque pourra être totalement absente (si, par exemple, elle n’explique rien d’autre que l’origine aujourd’hui oubliée de la formation du mot-sens), laissée comme telle si de toute façon le mot marqué n’a qu’un seul sens, ou enfin être surchargé d’une marque « courant » pour inhiber les effets de la précédente restriction.
 Les exemples fournis ici sont tous extraits de Bibliotexte((MEMODATA).
 Aucun lien ne doit être effectué avec l’animal. Cela posé, si le renard est un des archétypes animaux de la ruse malicieuse (clause de vérité), et que nous estimons que cette information doit être prise en compte par le Dictionnaire Intégral, une racine SYMBOLE est dévolue à cet usage. Cette racine permet de modéliser la relation symbolique (non ontologique) (renard/animal-->symbole (ruse)). Ce simple lien permet de passer grâce à l’isotopie ruse malicieuse de l’animal à la personne.
 Dans le projet européen EuroWordNet, les données françaises ont été modelées avec Lexidiom puis réexportées au format physique du logiciel du projet. Ce format, proche de celui de WordNet, est celui utilisé par le logiciel spécialisé PERISCOPE.
 Ce qui est utile dans le cas du dictionnaire à l’envers par exemple
 D’une ontologie non linguistique.
 "L’arbre de droite" désigne l’opposition intra-urbain/extra urbain.
 C’est nous qui soulignons.
 si l’on peut faire l’hypothèse que les phénomènes observés sont représentatifs de l’ensemble des phénomènes observables de même nature.
 Mindnet construit automatiquement un réseau sémantique depuis un balayage des définitions d’un dictionnaire.
 Nous effectuerons une proposition sur leur insertion dans l’architecture sémantique actuelle en conclusion de la thèse.
 GENELEX par exemple recommandait quelques dizaines d’entités pour des règles fonctionnelles moins nombreuses.
 La taille du dictionnaire et la diversité des données objets font s’écrouler les SGBDOO : des tests répétés, avec 256 Mo de RAM, aboutissent à un chargement limité à seulement 25% du dictionnaire. Mais ce chapitre ne décrit que le modèle de données, qui est relationnel. Et non l’exploitation de ce données qui se fait à travers un code objet.
 Les propriétés de graphe du mot-sens ne sont pas traitées dans cette section.
 Les termes de nœud gauche et de nœud droit seront vus dans le chapitre qui traite de la distance sémantique.
 La relation a pour père s’obtient depuis le fils. Il est toujours possible d’obtenir la relation a pour fils depuis un père.
 Ou Application Programming Interface.
 Cette façon de procéder n’est pas conforme à notre manière de voir la cinématique correcte de l’application puisqu’il y a une possibilité de retour arrière. C’est pourquoi, nous ne présentons pas l’expert de découpage qui sera supprimé quand le matériel informatique supportera (en temps de calcul) que le découpage en phrase s’effectue au niveau de l’analyseur syntaxique.
 Signifie : le joueur qui est situé à l’Est de la table de jeu enchérit à tort.
 Les termes spécifiques et génériques sont préférés aux termes plus populaires d’hyponymes et d’hyperonymes. Dans notre terminologie, spécifique et générique constituent un regroupement d’une dizaine de relations particulières comme Générique de fonction grammaticale (Ex : préposition de lieu) qui ne sont pas toutes des relations hyponyme / hyperonyme.
 Dans la littérature anglaise, query expanding.
 Voir la cinématique du modèle sens(texte dans Mel’cuk (1992) par exemple.
 Aucune structure apriorique.
 Fellbaum (1998) cite 3 ou 4 fois cet article. Par la suite Resnik a travaillé par apprentissage depuis des corpus limités à un domaine et sémantiquement annotés.
 Par expérience, nous avons repéré que le travail dans les séquences Is_A de noms (prises isolément) est particulièrement hasardeux et nous ne conseillons pas trop cette voie, sauf dans des cas très particuliers qu’il faut bien sûr pouvoir gérer et repérer. Dans le Sémiographe, les « matchs » sur les concepts \classe est interdit en général, ou doit être justifié par d’autres éléments du contexte comme une énumération, un lien générique/spécifique ou autre. Cette note est conforme à un théorème formulé par Platon dans le sophiste : « des noms tout seuls énoncés bout à bout ne font donc jamais un discours, pas plus que des verbes énoncés sans l’accompagnement d’un nom. »
 Guide canadien de l’impôt sur le revenu.
 La similarité est donnée par les classements de WordNet.
 Nous avons dit que la position de être - non -être à la racine de l’ontologie est fortuite. Cela n’est pas entièrement vrai : être - non -être est à la racine de l’ontologie pour nous éviter toute tentation d’une mesure de hauteur conceptuelle.
 Un exemple aussi élémentaire que celui-là pose déjà le problème des règles de composition des traits et plus généralement celui de la compositionnalité. En terme de compositionnalité, on pourrait inventer d’autres traits comme \rectangle qui ne contient rien ou rectangle qui contient un trait oblique.
 Les relations pointillées seront considérées plus loin.
 On arrive pour les deux différences à un même nœud \racine du seul fait de la simplicité de l’exemple.
 Pour une introduction sur les graphes, nous renvoyons à Droeskeke (1987).
 Dans la pratique, si un même nœud a plusieurs fois un même antécédent selon deux chemins différents et avec deux coûts différents, l’antécédent n’est noté qu’une seule fois, avec le coût le plus faible.
 C : complémentaire
 Si l’on ne considère pas le trait \personne dont l’influence est semblable pour vendeur et de fleuriste.
 En réalité, nous faisons deux agrégations de c et h. La première, que nous n’avons pas décrite ici, contient tous les nœuds et segments d’un mot-position. Nous l’appelons Uh ou Uc, selon les cas. Ces deux unions sont une propriété d’un mot-position. Pour la phrase sémantique, nous définissons plutôt UUh et UUc, qui contiennent l’ensemble des nœuds et segments que l’on trouve dans les mots-positions de la phrase.
 Pour évaluer la désambiguïsation sémantique, nous ne ferons pas ici de références au système de numérotation du Grand Robert car le Grand Robert n’est pas « connu » du Sémiographe.
 Nous avons choisi de traiter d’abord l’exemple information sur le sens d’un énoncé car ce texte est constitué de termes plutôt polysémiques qu’homonymiques : une grande partie de cette thèse a traité d’informations lexico-syntaxiques contenues dans le Dictionnaire Intégral et non encore pris en charge par le Sémiographe. Opérant sur cet exemple une analyse détaillée pour expliquer le fonctionnement général, nous espérons pouvoir aussi montrer que notre diagnostic en terme de descriptions nouvelles sera validé (en particulier pour le couplage syntaxe / sémantique). Les autres exemples, sensiblement plus simples (comme : elle porte un renard), pourront rassurer quant à la performance globale. Notons encore que le résultat obtenu sur les polysèmes d’information sur le sens d’un énoncé est co-dépendant du contexte fourni qui reste assez court : le contexte de notre thèse n’est pas donné au moment de l’analyse : nous verrons cela en abordant la fonction de suivi thématique.
 Le Dictionnaire Intégral connaît une clé longue pour les mots-sens. Cette clé est composée de la concaténation de trois informations : la langue (alphanumérique), un site de travail (alphanumérique) et un numéro. La clé courte qui ne comporte qu’un numéro est utilisée par le Sémiographe pour représenter d’une façon économique les données en mémoire vive.
 Il n’est pas toujours possible, du fait des unions de h et de c, d’obtenir des résultats symétriques.
 Les thèmes actanciels marqués ne sont pas encore gérés par le Sémiographe même si le Dictionnaire Intégral en comporte plusieurs aujourd’hui.
 A propos de renard-trou, nous avions mentionné l’existence de traits non obligatoires. Pour renard-trou, il s’agissait des traits \barrage, \digue ou \étang (un seul de ces trois traits devant être présent dans l’énoncé mais aucunement les trois ensembles).
 Ils sont figurés, métonymiques ou liés à un domaine.
 Ce qui pose problème ici c’est le niveau élevé de l’isotopie manger par rapport à renard. A ce niveau, on peut trouver un grand nombre d’isotopies pour d’autres sens de renard et d’autres sens de manger parmi lesquels il n’est pas toujours facile de choisir. Par contre, entre renard-animal et renard-personne, pour un même niveau de score, il est aussi toujours possible de choisir : renard-animal n’a pas besoin de contexte, renard-personne a besoin d’un contexte.
 Environ deux cent thèmes actanciels de proposition courante.
 Il est normal que la somme des pourcentages soit supérieure à 100 puisqu’il arrive souvent que plusieurs approches puissent solutionner un même cas.
 clitiques.
 Selon la terminologie d’Appelt car nous n’utilisons jamais ce mot de compréhension.
 raccord entre production et club de golfs dans production d’un club de golf.
 L’API a pris en entrée des mots-sens supposés sélectionnés comme important dans un texte.
 Dans le 3611, comme avocat donne la rubrique avocat du barreau et que acheter un avocat donne livre de droit alors manger un avocat donne la rubrique défense du consommateur.
 Nous avons préféré utiliser ici la proximité sémantique. Dans cet exemple, aucune information extérieure au Dictionnaire Intégral n’est utilisée.
 Nous utilisons ici la proximité sémantique.
 Selon que l’on décrit la langue ou des éléments du monde.
 Thème : isotope sans grammème.
 Selon le de degré de différenciation sémantique retenu.
 Emploi potentiel, virtuel et accessoire.
 Le temps de dépouillement des données nous a fait limité le nombre d’exemples de mots. Mais le système peut fonctionner sur les dizaines de milliers de mots décrits dans le Dictionnaire Intégral.
 En recherchant de la bibliographie sur la WSD (désambiguïsation des mots-sens) nous n’avons trouvé aucune équipe qui travaillerait uniquement sur des données de larges couvertures conçues par elle-même.
 Genelex a coûté 340 MF à la collectivité. On sait que CYC a reçu plusieurs millions de dollars de soutien. Les aides à WordNet furent également très importantes.
 Balisage de la Rhetorical Structure Theory (RST) par exemple. Voir : http://www.sil.org/linguistics/RST/index.htm.
 Texte extrait de Bibliotext, le corpus littéraire constitué par MEMODATA.



 PAGE 6



 PAGE 191

 PAGE 192

 PAGE 7




n,m



posséder

B

A

 INCORPORER Word.Picture.8 

INCORPORER MS_ClipArt_Gallery

LEXIDIOM

INCORPORER MS_ClipArt_Gallery

Données Texte(Sens Données Sens(Texte

Dictionnaire intégral

Signification ( paraphrase ( actions

Ci,1 … Ci,j … Ci,n


i

Nous trouvons différents types de relations.

Les marques d’ensembles des concepts.
[\N] sont des classes de noms.
[T Act|Réf] sont thèmes actanciels et référentiels.

Dans les identifiants F signifie français, M : concept ou métalangage

L’indication C au début de l’article reproduit ci-contre signifie qu’il fait partie des 340 lemmes qui représentent 70% des occurrences de mot du français.

Gen

Syn

Rel

Spec

VT

VT

Rel

VT

VT

M E T A L A N G U E



VT

VT

Spec

Gen

Syn

Ellip

Ellip



L A N G U E

A pour Père
TypeRel

Noeud


Site
type
Libellé
CatégorieFonction
CatégorieGram
...

1.n

1.n

P1

paramètres de découpage de l’expert découpeur (non décrit ici)

Paramètres morpho-phonétiques de l’expert forme (décrit ici)



P2

A u t r e c i n é m a t i q u e

Règles et profondeur de l’analyse de l’expert syntaxique (décrit ici)

P3

Opérations sémantiques de l’expert sémio (décrit chap. 7)

P4

des "poids" fournissent un indicateur sur la validité de chaque groupe.
Plus le "poids" est faible, plus le groupe est sûr.

Règles et profondeur de l’analyse de l’expert syntaxique (décrit chap. 5)

P3

Opérations sémantiques de l’expert sémio (décrit ici)

P4

Qté=bcp

Minimum atteint pour cette BL.

récolte

G est la marque du descripteur (le générique) retenu pour cet exemple.

Des filtres syntaxiques sont utilisés pour ne retenir que les « bons » dérivés.

texte ( sens

Avec la mer du nord comme unique terrain vague et des vagues de dunes pour arrêter les vagues et de vagues rochers que les marées dépassent et qui ont à jamais le cœur àmarée basse



Avec la mer du nord comme unique terrain vague et des vagues de dunes pour arrêter les vagues et de vagues rochers que les marées dépassent et qui ont à jamais le cœur àmarée basse

LE SEMIOGRAPHE

style

qualités du style

mine



bcp

contenir

or

Qté=bcp

développer

récolte



sol


Deux chemins

Valeur=bcp

qui vaut

prix



vêtement