1.1 Une sémantique linguistique universaliste a priori ... - Memodata
L'ordre d'envoi des messages est précisé par un n° placé en tête de message.
..... Remarque: les multiplicités fonctionnent exactement à l'inverse des
cardinalités du modèle Merise. ..... Examen du cahier des charges provenant du
client. ... Vous avez eu une place différente dans chaque vol mais, grâce à votre
incroyable ...
part of the document
ICE, Ens Montrouge
Certaines rencontres donnent lénergie, psychologique ou financière, pour continuer un projet.
A ce titre, nous remercions M. Michel Régnier qui, dans le cadre de son activité au Centre National de la Fonction Publique Territoriale, nous a fait travailler en formation tant que nous en avons eu besoin,
M. Michel Héon, ancien DDRT, qui nous a fait confiance, et a contribué à nous fournir les premiers financements du Ministère de la Recherche (1991),
MM. Bernard Victorri et Patrice Enjalbert qui ont été les premiers chercheurs à trouver un intérêt à nos travaux.
Sans ces personnalités, notre projet aurait avorté il y a bien longtemps.
Et nous pensons aussi, sans les citer, à nombre de caractères qui nous ont soutenus et orientés par la suite. Les enseignants-chercheurs du Greyc se retrouveront ici, jusquà Pierre Nugues qui nous a autorisé à soutenir une thèse de doctorat en prenant le risque de sa direction.
Mais dautres rencontres font quun projet passe de létat de rêve à celui de début de réalisation.
Cest à M. Patrick de Torcy, informaticien talentueux, homme de constance et de confiance, ami de quinze ans que je dédie en premier lieu cette thèse.
Cétait il y a 6 et 7 ans : nos deux premières propositions darticles ont été acceptées dans des conférences importantes.
Depuis plus rien. Cest que par la suite, nos articles reprenaient, en le disant, mais sans pouvoir le détailler à nouveau, tout ce que nous avions déjà écrit et qui avait intéressé. Les nouveaux textes proposés ont paru sans substance à quiconque les découvrait sans nous connaître bien. Voilà, pour faire court, nous disions : cest un réseau sémantique de 200.000 mots, et le lecteur avisé pensait : cest WordNet en français. Nous disions : cest de la sémantique componentielle hors domaine, et le lecteur suffisamment expert ne pouvait que penser : cest une maquette sans prototype.
Mais le temps est encore passé et il nous offre aujourdhui de mieux préciser notre cadre de travail, nos objectifs et nos moyens. Cest tout juste ce que nous souhaitons faire ici.
Table des matières
TM \o "2-4" \t "Titre 1;1;grossepartie;1;ss-pointdetm;5" 1. Introduction RENVOIPAGE _Toc504533282 \h 11
1.1 Une sémantique linguistique universaliste a priori pour des opérations sens(texte et texte(sens RENVOIPAGE _Toc504533283 \h 11
1.1.1 Une sémantique linguistique RENVOIPAGE _Toc504533284 \h 11
1.1.2 Les opérations sémantiques texte(sens et sens(texte RENVOIPAGE _Toc504533285 \h 13
1.1.3 Une sémantique universaliste a priori RENVOIPAGE _Toc504533286 \h 14
1.1.4 Quelques problèmes posés par luniversalisme et lapriorisme RENVOIPAGE _Toc504533287 \h 18
1.2 Les opérations linguistiques traitées dans la thèse RENVOIPAGE _Toc504533288 \h 19
1.2.1 Les opérations non sémantiques RENVOIPAGE _Toc504533289 \h 19
1.2.1.2 Les opérations morphologiques RENVOIPAGE _Toc504533290 \h 19
1.2.1.3 Les opérations syntaxiques RENVOIPAGE _Toc504533291 \h 19
1.2.1.4 Les opérations lexicales dune langue vers une même langue RENVOIPAGE _Toc504533292 \h 20
1.2.1.5 Les opérations lexicales dune langue vers une autre langue RENVOIPAGE _Toc504533293 \h 20
1.2.2 Lopération texte(sens de désambiguïsation lexicale RENVOIPAGE _Toc504533294 \h 20
1.2.3 Les opérations texte-->sens-->texte RENVOIPAGE _Toc504533295 \h 23
1.2.3.1 La gestion de lopération de réduction et le dictionnaire à lenvers. RENVOIPAGE _Toc504533296 \h 23
1.2.3.2 Le résumé automatique de textes au plan lexical RENVOIPAGE _Toc504533297 \h 24
1.2.3.3 La sélection des mots pouvant rentrer dans les paraphrases dénoncés courts pour lexpansion de requêtes RENVOIPAGE _Toc504533298 \h 24
1.2.3.4 La sélection de contextes (co-texte) pour le filtrage dinformations RENVOIPAGE _Toc504533299 \h 25
1.2.3.5 Lextraction dinformations structurée RENVOIPAGE _Toc504533300 \h 25
1.2.3.6 La signature sémantique dun texte RENVOIPAGE _Toc504533301 \h 26
1.2.3.7 La classification automatique, le routage, laccès aux nomenclatures RENVOIPAGE _Toc504533302 \h 26
1.3 Travaux similaires aux travaux présentés RENVOIPAGE _Toc504533303 \h 26
1.4 Historique de nos travaux et plan de la thèse RENVOIPAGE _Toc504533304 \h 27
Partie I : Le Dictionnaire Intégral RENVOIPAGE _Toc504533305 \h 31
2. Les descriptions universalistes du Dictionnaire Intégral RENVOIPAGE _Toc504533306 \h 33
2.1 Les sources retenues pour élaborer le modèle de données du Dictionnaire Intégral RENVOIPAGE _Toc504533307 \h 33
2.1.1 Le LADL RENVOIPAGE _Toc504533308 \h 34
2.1.2 GENELEX RENVOIPAGE _Toc504533309 \h 35
2.1.3 Le DEC RENVOIPAGE _Toc504533310 \h 36
2.1.4 Les travaux de MEMODATA RENVOIPAGE _Toc504533311 \h 36
2.1.5 WordNet et EuroWordNet RENVOIPAGE _Toc504533312 \h 36
2.2 Les règles des descriptions universalistes RENVOIPAGE _Toc504533313 \h 37
2.2.1 Les signes linguistiques RENVOIPAGE _Toc504533314 \h 38
2.2.1.1 La graphie RENVOIPAGE _Toc504533315 \h 38
2.2.1.2 Les signes de ponctuation RENVOIPAGE _Toc504533316 \h 38
2.2.1.3 Règles concernant les unités morphologiques (UMorph) RENVOIPAGE _Toc504533317 \h 38
2.2.1.4 Conclusion sur les unités morphologiques RENVOIPAGE _Toc504533318 \h 45
2.2.2 Les propriétés syntaxiques des USèm : USynt RENVOIPAGE _Toc504533319 \h 45
2.2.2.1 Les propriétés grammaticales des USèm RENVOIPAGE _Toc504533320 \h 45
2.2.2.2 Règles concernant les propriétés syntaxiques des USèm RENVOIPAGE _Toc504533321 \h 45
2.2.3 Lunité sémantique (USèm) RENVOIPAGE _Toc504533322 \h 48
2.2.3.1 Les USèm selon le modèle sens(texte RENVOIPAGE _Toc504533323 \h 48
A ] Les fonctions lexicales de dérivation sémantique. RENVOIPAGE _Toc504533324 \h 48
A1 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases conservant la structure sémantico-discursive. RENVOIPAGE _Toc504533325 \h 49
A2 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases modifiant la structure sémantico-discursive. RENVOIPAGE _Toc504533326 \h 50
B] Les fonctions lexicales verbales. RENVOIPAGE _Toc504533327 \h 53
B1] Les fonctions lexicales verbales sans apport sémantique. RENVOIPAGE _Toc504533328 \h 53
B2] Les fonctions lexicales verbales avec apport sémantique. RENVOIPAGE _Toc504533329 \h 55
C] La synonymie RENVOIPAGE _Toc504533330 \h 56
C1] La synonymie sans permutation dactants RENVOIPAGE _Toc504533331 \h 57
C2] La synonymie avec permutation dactants RENVOIPAGE _Toc504533332 \h 58
D] Relations de collocations et termes privilégiés RENVOIPAGE _Toc504533333 \h 58
D1] Les collocations sémantiquement vides RENVOIPAGE _Toc504533334 \h 58
D2] Les collocations avec apports sémantiques RENVOIPAGE _Toc504533335 \h 59
E] Fonctions lexicales à valeur sémantique spécifique RENVOIPAGE _Toc504533336 \h 62
F] Préposition régissant le mot clé RENVOIPAGE _Toc504533337 \h 63
G] Formes exclamatives RENVOIPAGE _Toc504533338 \h 64
H] Les fonctions lexicales non ou rarement autonomes RENVOIPAGE _Toc504533339 \h 64
I] Fonctions diverses RENVOIPAGE _Toc504533340 \h 66
J] Conclusions sur les rapports DEC / Dictionnaire Intégral RENVOIPAGE _Toc504533341 \h 66
2.2.3.2 Autres informations concernant USèm RENVOIPAGE _Toc504533342 \h 66
2.2.4 Conclusion sur les règles de description contextuelles. RENVOIPAGE _Toc504533343 \h 68
2.3 Comparaison quantitative de WordNet puis de EuroWordNet et du Dictionnaire Intégral RENVOIPAGE _Toc504533344 \h 68
2.3.1 WordNet et le Dictionnaire Intégral RENVOIPAGE _Toc504533345 \h 68
2.3.1.1 Le dénombrement des nuds RENVOIPAGE _Toc504533346 \h 69
2.3.2 Dénombrement des sens par catégories syntaxiques RENVOIPAGE _Toc504533347 \h 71
2.3.3 Dénombrement des relations de WordNet RENVOIPAGE _Toc504533348 \h 71
2.3.3.1 Topologie générale RENVOIPAGE _Toc504533349 \h 73
2.3.4 EuroWordnet et le Dictionnaire Intégral. RENVOIPAGE _Toc504533350 \h 74
3. Les descriptions aprioriques du Dictionnaire Intégral RENVOIPAGE _Toc504533351 \h 77
3.1 Principes minimaux de construction du Dictionnaire Intégral RENVOIPAGE _Toc504533352 \h 77
3.1.1 Les principes minimaux de modélisation des mots-sens RENVOIPAGE _Toc504533353 \h 77
3.1.1.1 Exposé général : lexemple de renard RENVOIPAGE _Toc504533354 \h 77
3.1.1.2 Cinq autres exemples RENVOIPAGE _Toc504533355 \h 83
3.1.1.3 Peut-on sélectionner a priori certains traits sémantiques ? RENVOIPAGE _Toc504533356 \h 90
3.1.2 Les principes minimaux de création des concepts. RENVOIPAGE _Toc504533357 \h 92
3.2 Lineffable dans le langage du Dictionnaire Intégral RENVOIPAGE _Toc504533358 \h 96
3.2.1 Les propositions courantes RENVOIPAGE _Toc504533359 \h 96
3.2.2 La non-prise en compte de la localisation dans le temps et lespace RENVOIPAGE _Toc504533360 \h 97
3.2.3 La non-prise en compte de la négation (en général) RENVOIPAGE _Toc504533361 \h 97
3.2.4 Limpossibilité de déclarer certains traits de sens RENVOIPAGE _Toc504533362 \h 97
3.2.5 La non-prise en compte de la rhétorique et de la thématique RENVOIPAGE _Toc504533363 \h 97
3.2.6 Conclusion sur le point RENVOIPAGE _Toc504533364 \h 98
3.3 Implémentation informatique des données du Dictionnaire Intégral RENVOIPAGE _Toc504533365 \h 98
3.3.1 Principes de représentation RENVOIPAGE _Toc504533366 \h 99
3.3.2 Modèle entité-relation des données. RENVOIPAGE _Toc504533367 \h 103
Partie 2 : Le Sémiographe RENVOIPAGE _Toc504533368 \h 105
4. Larchitecture des composants et les traitements phonétiques, morphologiques syntaxiques et lexicaux du sémiographe RENVOIPAGE _Toc504533369 \h 107
4.1 Une architecture particulière de composants linguistiques qui utilise la plupart des experts RENVOIPAGE _Toc504533370 \h 108
4.2 Les experts morpho-phonétiques RENVOIPAGE _Toc504533371 \h 109
4.2.1 Le phonétiseur du Sémiographe RENVOIPAGE _Toc504533372 \h 109
4.2.2 Les experts morphologiques du Sémiographe RENVOIPAGE _Toc504533373 \h 110
4.2.2.1 Les experts de lemmatisation RENVOIPAGE _Toc504533374 \h 110
4.2.2.2 Les outils de flexion RENVOIPAGE _Toc504533375 \h 113
4.3 Lanalyseur syntaxique du Sémiographe RENVOIPAGE _Toc504533376 \h 113
4.4 Les experts lexicaux du Sémiographe RENVOIPAGE _Toc504533377 \h 116
4.4.1 Les experts lexicaux RENVOIPAGE _Toc504533378 \h 117
4.4.1.1 Synonyme et antonyme du mot-sens clé RENVOIPAGE _Toc504533379 \h 117
4.4.1.2 Spécifique du mot-sens clé RENVOIPAGE _Toc504533380 \h 118
4.4.1.3 Générique du mot-sens clé RENVOIPAGE _Toc504533381 \h 119
4.4.1.4 Les lieux inclus RENVOIPAGE _Toc504533382 \h 120
4.4.1.5 Les lieux « incluant » RENVOIPAGE _Toc504533383 \h 121
4.4.1.6 Les dérivés RENVOIPAGE _Toc504533384 \h 122
4.4.1.7 Les équivalents de traduction RENVOIPAGE _Toc504533385 \h 122
4.4.2 Lenchaînement des experts lexicaux et leurs usages RENVOIPAGE _Toc504533386 \h 123
4.4.2.1 Lenchaînement des fonctions lexicales RENVOIPAGE _Toc504533387 \h 123
4.4.2.2 Autres extractions : le filtrage paradigmatique et lexpansion de requêtes
RENVOIPAGE _Toc504533388 \h 125
5. Quelques opérations texte(sens du Dictionnaire Intégral RENVOIPAGE _Toc504533389 \h 127
5.1 La désambiguïsation des mots-sens dans la littérature récente RENVOIPAGE _Toc504533390 \h 127
5.1.1 Les systèmes fonctionnant à laide de corpus annotés RENVOIPAGE _Toc504533391 \h 128
5.1.2 Les systèmes fonctionnant depuis des corpus non annotés RENVOIPAGE _Toc504533392 \h 129
5.1.3 Les systèmes fonctionnant sans corpus RENVOIPAGE _Toc504533393 \h 131
5.1.4 Conclusion RENVOIPAGE _Toc504533394 \h 131
5.2 Les opérations de distance sémantique du Sémiographe RENVOIPAGE _Toc504533395 \h 132
5.2.1 Principe général RENVOIPAGE _Toc504533396 \h 133
5.2.1.1 Exposé du problème RENVOIPAGE _Toc504533397 \h 133
5.2.1.2 Lalgorithme de calcul des PPPCS et des PPPCNS RENVOIPAGE _Toc504533398 \h 136
5.2.1.3 La justification du mode de calcul par quelques exemples RENVOIPAGE _Toc504533399 \h 138
5.2.1.4 Les cas supplémentaires traités dans lalgorithme RENVOIPAGE _Toc504533400 \h 140
5.2.1.5 Les paramètres dactivation et de proximité sémantique RENVOIPAGE _Toc504533401 \h 141
5.2.2 Résultats concrets de désambiguïsation sémantique RENVOIPAGE _Toc504533402 \h 142
5.2.2.1 Étude détaillée de « Information sur le sens dun énoncé » RENVOIPAGE _Toc504533403 \h 142
A] La vision macroscopique de lactivation RENVOIPAGE _Toc504533404 \h 142
B] La vision très analytique de la proximité sémantique RENVOIPAGE _Toc504533405 \h 147
C°] Synthèse concernant les critères de choix entre les fonctions dactivation et de proximité sémantique. RENVOIPAGE _Toc504533406 \h 153
5.2.2.2 Résultats sur les autres exemples (fonction dactivation seule utilisée) RENVOIPAGE _Toc504533407 \h 154
5.2.3 Commentaires des résultats RENVOIPAGE _Toc504533408 \h 155
5.2.3.1 Commentaire statistique RENVOIPAGE _Toc504533409 \h 155
5.2.3.2 Commentaire critique : le bon sens RENVOIPAGE _Toc504533410 \h 156
6. Les opérations applicatives texte(sens(texte du Dictionnaire Intégral RENVOIPAGE _Toc504533411 \h 159
6.1 La réduction lexicale et le dictionnaire à lenvers RENVOIPAGE _Toc504533412 \h 160
6.1.1 Problème posé RENVOIPAGE _Toc504533413 \h 160
6.1.2 Architecture RENVOIPAGE _Toc504533414 \h 161
6.1.3 Quelques résultats actuels et commentaires RENVOIPAGE _Toc504533415 \h 162
6.2 Le résumé de textes RENVOIPAGE _Toc504533416 \h 165
6.3 La sélection des mots pouvant rentrer dans les paraphrases dénoncés courts pour lexpansion de requêtes RENVOIPAGE _Toc504533417 \h 166
6.4 La sélection de contextes pour le filtrage dinformations RENVOIPAGE _Toc504533418 \h 167
6.5 Lextraction dinformations structurées RENVOIPAGE _Toc504533419 \h 168
6.6 La signature sémantique dun texte RENVOIPAGE _Toc504533420 \h 173
6.7 Laccès aux nomenclatures et le routage de documents RENVOIPAGE _Toc504533421 \h 174
6.7.1 Laccès à un élément de nomenclature RENVOIPAGE _Toc504533422 \h 174
6.7.2 Le routage RENVOIPAGE _Toc504533423 \h 175
6.7.2.1 La classification automatique de documents RENVOIPAGE _Toc504533424 \h 175
6.7.2.2 Le routage de courriers RENVOIPAGE _Toc504533425 \h 177
6.8 La comparaison de deux textes RENVOIPAGE _Toc504533426 \h 179
7. Conclusion RENVOIPAGE _Toc504533427 \h 181
8. ANNEXES RENVOIPAGE _Toc504533428 \h 197
8.1 Probabilité de résolution aléatoire de lexemple 2 RENVOIPAGE _Toc504533429 \h 197
8.2 Extraits syntaxiques RENVOIPAGE _Toc504533430 \h 201
8.3 Corrélats de billard trouvés dans la partie de billard (Alphonse Daudet, les contes du lundi) RENVOIPAGE _Toc504533431 \h 206
9. Bibliographie RENVOIPAGE _Toc504533432 \h 209
Introduction
Une sémantique linguistique universaliste a priori pour des opérations sens(texte et texte(sens
Une sémantique linguistique
La définition du mot sémantique est souvent linguistique. Daprès le dictionnaire Le Petit Robert (1991), cest une « théorie visant à rendre compte des phénomènes signifiants dans le langage ». On rencontre aussi des acceptions plus larges. Dans la version non abrégée de ce dictionnaire (Le Robert 1983), cest le « nom de diverses disciplines à caractère plus philosophique que linguistique ». Cette dernière acception ouvre sur des définitions très larges. Chez Alfred Korzybski (1933) le mot sémantique engendre le terme sémantique générale qui recouvre une « étude sociale, psychologique et logique du signe ». Le romancier A.E. Van Vogt, membre de lInstitut de Sémantique Générale, précise cette définition (1970) : « La sémantique générale traite du sens des significations. De ce fait, elle transcende et surpasse la linguistique ».
La sémantique générale vise à décrire des systèmes doués de facultés cognitives. Elle étudie lécart entre la signification des textes et leur appropriation cognitive. Des exemples de tels systèmes comprendraient létude du fonctionnement dune machine capable de jouer à un jeu consécutivement à la lecture de ses règles ou les conditions de linvention de lordinateur HAL du film 2001, lOdyssée de lespace.
Les règles dun jeu sont écrites en une langue donnée. HAL parle une langue. Quel rapport existe-t-il entre les textes dune langue et lapplication dune règle de jeu ou les facultés de HAL ? Ce rapport est lobjet de la sémantique générale qui étudie le
Sens(des(significations(c-à-dReprésentation (mentale, psychologique), compréhensionqui est propre auxinterprétations linguistiques : sens littéraux en contexte, sens linguistiques.
Nous voyons que la sémantique générale admet comme point de départ un sens linguistique résolu. Si le projet de la sémantique générale est séduisant, il faut noter que le présupposé de résolution est audacieux : du fait de lambiguïté apparente du langage naturel quand il est considéré indépendamment de mécanismes de désambiguïsation supposés et non apparents, le sens linguistique ne nous est pas encore donné. Cest pourquoi notre thèse développe des mécanismes de désambiguïsation qui participent à la restitution automatique du sens linguistique.
Lambiguïté recouvre des aspects lexicaux et syntaxiques. Lambiguïté lexicale tient en la polysémie et en lhomonymie de la plupart des mots de la langue. La polysémie est, en linguistique synchronique, le caractère d'un signe qui à catégorie grammaticale constante possède plusieurs signifiés à noyau commun. Le mot abattre est polysémique quand, à partir du noyau faire tomber, il devient détruire (une chose érigée) ou couper (un arbre dressé). Lhomonymie est le caractère dun signe qui a plusieurs signifiés entièrement disjoints. Dans la phrase laide-comptable a sorti un bilan complet alors même que le brouillard na pas été validé, les mots bilan et brouillard ont des significations lexicales particulières que nous chercherons à restituer automatiquement. Lambiguïté syntaxique tient en la difficulté de rattacher dune manière unique les groupes dune proposition et à associer des fonctions syntaxiques à ces rattachements. La résolution de lambiguïté syntaxique a pour objet la détermination de léquivalence de deux propositions paraphrastiques dun même sens linguistique. La restitution de la signification syntaxique conduit à produire des sens linguistiques voisins pour les énoncés lembouteillage des liquides est effectué automatiquement par des machines spécifiques et des machines spécialisées mettent en bouteille automatiquement les liquides.
Ces tâches que nous regroupons sous le nom de restitution automatique de la signification définissent lobjet de notre sémantique linguistique qui se donne deux hypothèses fondatrices :
premièrement, il nest pas possible de restituer automatiquement des significations non bruitées, cest-à-dire uniquement et exactement les bonnes significations, dans tous les cas de figure sans disposer dun module traitant du sens des significations (compréhension générale). Sans ce module, la restitution ne peut produire quun sur-ensemble des significations acceptables, toute compréhension égale par ailleurs.
deuxièmement, il existe des mécanismes linguistiques capables de limiter le nombre de significations linguistiques possibles. Nous décrirons les mécanismes linguistiques que nous utilisons actuellement.
Les opérations sémantiques texte(sens et sens(texte
La restitution automatique des significations de diverses composantes dun énoncé linguistique met en uvre deux types dopérations linguistiques :
Une opération qui part du texte et construit des significations à partir des composantes linguistiques : syntagme, proposition et texte. Quelque que soit la composante linguistique étudiée, nous appelons lopération qui part du texte pour construire des significations, lopération texte(sens.
Une opération qui part dun sens linguistique et aboutit à différentes formulations linguistiques de cette signification. Nous nommons sens(texte cette opération.
La dualité des opérations texte(sens et sens(texte pourrait laisser croire en une complète indépendance des deux opérations. Une grande interdépendance des deux opérations doit au contraire être admise.
A lévidence, sens(texte dépend de texte(sens puisque lentité sens na pas dexistence extérieure à notre propre subjectivité et que lentité texte existe en nombre inépuisable. Montrer que texte(sens dépend de sens(texte nécessite une réflexion plus détaillée. Lopération texte(sens peut aboutir pour la phrase à lélaboration dune structure sémantique (Ssém chez MelCuk) qui serait un réseau dont « les nuds sont étiquetés par des sémantèmes de la langue et dont les arcs représentent des relations prédicatsarguments » (MelCuk 1999). Si lon souhaite lentité sens unique pour lensemble des paraphrases dune phrase, lopération texte(sens met en uvre :
des opérations texte(sens qui effectuent :
au plan syntaxique,
une différenciation des énoncés des machines spécifiques embouteillent automatiquement les liquides et des liquides embouteillent automatiquement les machines spécifiques puisque « lordre des mots » de texte « est important » (Journet 1999)
deux représentations profondes de il a parlé de voyage avec Emma puisque « lordre des regroupements des mots est important » (Journet 1999)
au plan lexical, une restitution des significations lexicales
des opérations sens(texte qui effectuent :
au plan syntaxique,
un rapprochement de les chiens craignent (avoir peur ) les hommes et lhomme effraie (faire peur) aux chiens en prenant en compte la direction de la prédication (Journet 1999)
une même représentation de lembouteillage seffectue par des machines spécifiques et des machines spécifiques embouteillent
au plan lexical, une même représentation par réduction lexicale de monnaie du Japon en yen.
Dune façon générale, sens(texte doit être utilisé pour dédoublonner des propositions du point de vue de leur représentation syntaxique profonde.
Parmi les opérations décrites ici dans leur interdépendance, notre thèse étudiera particulièrement lopération sens(texte de réduction lexicale et texte(sens de restitution des significations lexicales.
Une sémantique universaliste a priori
Sur un plan très général, nous insisterons sur une relative indépendance du linguistique par rapport aux mécanismes de compréhension mis en jeu dans ce que Hiz (1964) a nommé une sémantique forte ou par rapport à ce que nous avons décrit de la sémantique générale. Cette affirmation dindépendance du linguistique se traduit par deux caractères parfois contestés de nos orientations sémantiques.
Le premier de ces caractères est luniversalisme. Par universalisme, nous entendons fondamentalement que :
les unités lexicales disposent de significations indépendamment de tous leurs contextes ; ces significations hors contexte sont données par le code de chaque langue. Ce point renvoie à lactivité sémasiologique proprement dite qui, partant du signe linguistique renvoie dautres unités linguistiques qui lui correspondent.
les significations ne sont pas des suites de signes linguistiques. Ce point renvoie à une sémasiologie comportant une dimension terminologique. Cette sémasiologie associe aux unités linguistiques des champs conceptuels.
pour chaque signification, lensemble des formulations est donné. Ce point renvoie à lactivité onomasiologique qui part des concepts et des champs conceptuels et retourne lensemble des formulations linguistiques qui lui correspondent.
la signification dune unité lexicale utilisée dans un contexte présente toujours un rapport avec le sens des significations qui est élaboré « par un sujet donné dans un contexte dénonciation donné » (Sabah 1997, pp. 91-133)
il existe un nombre fini dunités lexicales et de significations à connaître pour pouvoir accéder par lanalyse des textes (comme un dictionnaire) à dautres unités lexicales et dautres significations.
Le deuxième de ces caractères est lapriorisme. Par apriorisme, nous entendons fondamentalement que :
les contextes dapparition des significations lexicales peuvent être décrits indépendamment de tout domaine des connaissances, de toute pragmatique et de toute application particulière
les contextes des significations lexicales disposent de valeurs sémantiques particulières que nous nommerons concepts
les concepts des contextes constituent soit des connaissances linguistiques, soit des connaissances du monde.
Par exemple, lapriorisme permet de déclarer, sans justification, lactivité (concept) de \pêche. Dans \pêche, les mots pêcheur, filet et prise sont semblables entre eux (bien que sur le plan des significations universalistes, ils soient très différents). Pour dautres concepts, comme \personne, \pêcheur, \filet et \prise sont totalement différents. Lapriorisme permet dune part, de déclarer \pêche ou \personne sans préjuger de leur utilité pour traiter dun texte réel, dautre part, dadmettre quil ny a pas dunité à attendre des descriptions aprioriques puisque lunité nexiste qua posteriori, comme interprétation de lexpérience contenue dans un texte réel.
Luniversalisme et lapriorisme caractérisent les grandes bases de connaissances et fait leur force : luniversalisme fournit les hypothèses par les différentes significations connues, lapriorisme procure des clés de résolution au moyen des associations proposées par les concepts. Cependant, des auteurs qui sintéressent à lopération texte(sens rejettent hors du champ de la sémantique linguistique les qualificatifs universaliste et a priori. Par exemple, Rastier (1987, p.33) note :
Formulons à présent une définition du sème ... que nous empruntons à Pottier : « le sème est le trait distinctif sémantique dun sémème, relativement à un petit ensemble de termes réellement disponibles et vraisemblablement utilisables chez le locuteur dans une circonstance donnée de communication » (1980a, p. 169) . Elle ne peut que chagriner les tenants dune sémantique universaliste a priori.
Pourtant il semble bien que cette association de luniversalisme et de lapriorisme soit nécessaire si lon veut un jour pouvoir calculer le sens de la phrase « toute simple » (Sabah 1997) je reviendrai. Pour cette phrase, Robert Martin (1983) cité par Sabah (1997) évalue pragmatiquement le sens de promesse à la fin dune visite médicale, celui de compliment de la part dun client, davertissement de la part dun agent sadressant à un contrevenant mal garé, de consolation de la part dun soldat qui part au front. Pour cette phrase, étudions ici les hypothèses duniversalisme et dapriorisme.
Cette étude doit-elle nous conduire à réfuter lintérêt dune base universaliste ? Supposons dabord que lon accepte la réfutation de luniversalisme. Dans ce cas, je reviendrai est absent du dictionnaire. De même, une expression synonymique comme je repasserai est également exclue. Fondamentalement, je reviendrai et je repasserai ont une signification commune que lon peut formuler comme suit : \ce que lon dit en prenant congé dune personne en voulant lui exprimer que lon pense la revoir bientôt. On peut énumérer une liste dexpressions françaises susceptibles de prendre cette valeur. Ces expressions sont par exemple à bientôt, à demain, à tout à lheure, à plus tard, à plus, à +, à la prochaine fois, à la prochaine
Or nombre de ces expressions sont des entrées ou des sous-entrées de dictionnaires de français contemporain. Selon quels critères à bientôt, à plus ou à demain seraient-ils des entrées du dictionnaire de langue et je repasserai ou je reviendrai nen seraient-ils pas ? Parmi les critères, le critère le plus courant est celui de la calculabilité de la signification : une expression appartient au dictionnaire si sa signification ne peut pas être déduite de lanalyse des significations de ces constituants. On peut débattre de lapplication de ce critère à chacun des vocables que nous venons de citer. Du fait que lon pourrait fournir une explication en terme de constituants de la signification de chacun de ces vocables, il est possible de défendre le retrait de chacune de ces expressions du dictionnaire. Pour conserver son rôle daccès à la langue, en retour de cette suppression, le dictionnaire devrait alors fournir les clés dinterprétation des expressions soustraites. Cela est certainement possible au prix dune refonte complète des dictionnaires et surtout dun abaissement important de leur accessibilité et de leur lisibilité. Mais le rôle du dictionnaire ne se limite pas à lexplication de la signification (opération texte(sens). Le dictionnaire doit aussi renseigner sur lusage (opération sens(texte). Si lon peut imaginer que lexplication des parties puisse rendre compte de la valeur dune expression rencontrée (opération texte(sens), on ne peut concevoir que dun énoncé des parties puisse naître seulement les expressions usuelles dune langue à un moment donné (opération sens(texte). Ainsi, reporter lusage dans un répertoire (dictionnaire) cest nécessairement consacrer lentrée dans le dictionnaire de vocables dont on peut concevoir que leur signification globale se déduit de la signification de leurs constituants. De là vient que à bientôt, à demain, à tout à lheure, à plus tard, à plus... appartiennent nécessairement à la nomenclature du dictionnaire. Dans cette mesure, il devient impossible de réfuter lintérêt et même la nécessité dune base universaliste. Pour notre exemple je reviendrai, comme il est aussi dusage demployer cette expression pour \ce que lon dit en prenant congé dune personne en voulant lui exprimer que lon pense la revoir bientôt, il devient naturel que lexpression je reviendrai (ou une quelconque représentation qui aboutirait à je reviendrai) appartienne également à la nomenclature. Dans le dictionnaire universaliste, comme pour chaque signification lensemble des formulations est donnée, le concept \ce que lon dit en prenant congé dune personne en voulant lui exprimer que lon pense la revoir bientôt comprend nécessairement lensemble des expressions que nous venons de recenser à moins daccepter de ne pas refléter lusage.
Considérons maintenant lapriorisme. Cette étude doit-elle nous conduire à réfuter lintérêt dune base apriorique ? Nous admettons désormais que les expressions je reviendrai ou à bientôt appartiennent au dictionnaire universaliste. Ces expressions ont en commun le concept \ce que lon dit en prenant congé dune personne en voulant lui exprimer que lon pense la revoir bientôt. Lapriorisme propose que lusage dun mot est conditionné par des contextes dapparition qui peuvent être donnés indépendamment de tout domaine de connaissances et de toute situation pragmatique identifiée fournie par une application. Ainsi, lon se demande dans quel cas on utilise lune des expressions qui appartiennent à notre concept. Pour la partie \ce que lon dit en prenant congé dune personne, le contexte de prendre congé est donné. Il reste à justifier les conditions demploi de \...en voulant lui exprimer que lon pense la revoir bientôt. Il sagit dune promesse plus ou moins marquée dune nouvelle rencontre future. Plus généralement, il sagit dune promesse dune réalisation future dun événement. Il nous semble que dune façon définitoire toute promesse dune réalisation future dun événement porte une menace ou une espérance, une valeur positive ou négative, par exemple quelque chose qui pourra faire office de consolation ou de compliment pour limmédiat, davertissement cest-à-dire dencouragement à cesser ou dencouragement à continuer pour le futur. Cest là précisément le résultat de lanalyse de Martin. Ainsi, plutôt que de contribuer à réfuter lapriorisme, cette analyse aboutit à une affirmation de la nécessité des descriptions aprioriques des contextes dapparition des expressions linguistiques. En conclusion, nous suggérons que le sens pragmatique dun énoncé est pleinement donné par ses significations lexicales si les descriptions aprioriques, qui permettent de sélectionner en contexte certains concepts plutôt que dautres, sont complètes.
Arrivé à ce point, nous pouvons nous demander si notre sémantique universaliste et apriorique appartient davantage à la sémantique générale et est donc en-dehors du champ linguistique ou si, au contraire, elle appartient au champ linguistique. Rappelons que notre projet consiste essentiellement à déterminer la signification des mots en contexte. Comme Wilks (1999), nous nous posons la question « Est-ce que la désambiguïsation des mots-sens est juste une tâche supplémentaire du traitement automatique des langues ? ». Pour notre exemple, cette question devient : « Est-ce que la désambiguïsation de je reviendrai est juste une tâche particulière du traitement automatique des langues ? ». Luniversalisme à travers la nécessité de répertorier lusage a consacré (directement ou par modèles) je reviendrai comme mot. Lapriorisme par induction des significations a conduit à déclarer les potentialités de promesse ou de menace sans nous imposer lénumération de lensemble des situations pragmatiques possibles. Finalement nous répondons positivement à la question « Est-ce que la désambiguïsation de je reviendrai est juste une tâche particulière du traitement automatique des langues ? ». Et avec Wilks nous soutenons que la désambiguïsation des mots-sens est pour lessentiel juste une tâche supplémentaire du traitement automatique des langues. Comme la description des mots-sens appartient à la sémantique linguistique, nous concluons que notre sémantique universaliste et apriorique appartient au champ linguistique et non à la sémantique générale.
Quelques problèmes posés par luniversalisme et lapriorisme
Les trois principales objections posées à luniversalisme et à lapriorisme sont les suivantes :
il est permis de douter quun système artificiel doté hors domaine dun grand nombre de descriptions universalistes puisse retrouver grâce à des descriptions données a priori les bons éléments de significations lexicales.
il est possible de croire quun nombre important des descriptions contextuelles embrouille davantage le système quil ne laide à résoudre les ambiguïtés.
en supposant que ni luniversalisme ni lapriorisme ne sont des pièges pour un système automatique, il reste que nombre de personnes doutent que lon puisse construire, automatiquement ou manuellement, de grandes bases de connaissances.
Les deux premières objections constituent le cur des critiques formulées contre les grandes bases de connaissances : un système automatique ne peut pas réaliser lidéal universel de la déclaration de toutes les significations possibles dune part, sélectionner les sèmes pertinents dautre part, sans disposer de mécanismes de compréhension profonde. Pour ces deux objections, en reprenant la tournure de phrase de Todorov (cité dans Rastier 1987, p. 30), nous formulons : nous ne disposons pas de critères formels pour délimiter les sèmes automatiquement. La sémantique componentielle a choisi de croire quun jour on arriverait à trouver ce critère et pour linstant agit comme si cela était fait. Du fait même quil est malaisé de délimiter les sèmes automatiquement, il est urgent de noter, référencer, mémoriser et mettre en système les sèmes que lon a cru découvrir par létude.
La troisième objection est clairement formulée par Victorri (1998) :
Les projets grandioses de constitution de vastes bases encyclopédiques, comme le projet CYC, ont semble-t-il fait long feu. La plupart des chercheurs en Intelligence Artificielle reconnaissent aujourd'hui quil n'est pas réaliste d'envisager, dans un avenir prévisible en tout cas, des systèmes généralistes capables de modéliser lensemble des connaissances de base que les humains utilisent dans leurs conversations quotidiennes.
Il faut toutefois noter que le texte de Victorri cite la constitution de bases encyclopédiques et donc concerne davantage la sémantique générale que la sémantique au plan linguistique. Il nen reste pas moins vrai que lopinion trouve suspecte les grandes bases de connaissances linguisticosémantiques et que cette opinion contribue à ralentir les développements de ces bases. Malgré lopinion répandue, nous décrirons ici une grande base de connaissances linguisticosémantiques et ses principales compétences actuelles en terme de traitement automatique.
Les opérations linguistiques traitées dans la thèse
La thèse décrit :
des opérations non sémantiques préalables aux opérations sémantiques
des opérations sens(texte
des opérations texte(sens(texte.
Les opérations non sémantiques
Les opérations non sémantiques concernent les niveaux phonétiques, morphologiques, syntaxiques et lexicales fondées sur le Dictionnaire Intégral.
Les opérations phonétiques
La phonétique permet au Sémiographe de redresser certaines fautes dorthographe.
Ex : ortaugrafe --> orthographe
Deux opérations sont décrites :
la première opération associe à une chaîne de caractères sa phonétique la plus courante en français
la deuxième opération associe à une chaîne de caractères des phonétiques moins probables mais possibles.
Les opérations morphologiques
Les opérations de lemmatisation et de flexion sont abordées pour les mots simples et les mots composés. Larchitecture est capable de gérer plusieurs langues. Cinq langues (le français, langlais, litalien, lespagnol et lallemand) peuvent être testées.
Exemples
Flexion : cheval --> cheval, chevaux
Lemmatisation : chevaux --> cheval
Lemmatisation : donna largement libre cours à --> donner libre cours à + largement
Flexion : man --> man, men
Lemmatisation : men --> man
Les opérations syntaxiques
Les résultats dune analyse syntaxique de surface comprenant les rattachements de groupe dans le cadre de phrases simples ou complexes sont donnés. En cas de succès, lanalyseur syntaxique effectue cette opération jusquà lobtention dun arbre syntaxique complet pour une phrase. En cas déchec, lanalyseur syntaxique effectue des résolutions partielles de la phrase dans laquelle certains groupes ne sont pas raccordés entre eux. Ce mode permet de traiter de phrases incorrectes (sans toutefois les corriger) ou des phrases dont la complexité dépasse les 1500 règles de lanalyseur actuel.
Les opérations lexicales dune langue vers une même langue
Le dictionnaire est capable de retourner pour un mot-sens particulier, ou même pour un mot, de nombreux autres mots par lexploration des fonctions lexicales (FL) directes ou indirectes attachées au mot. Citons ici quelques exemples :
des synonymes : automobile, voiture
des hyperonymes et des hyponymes
hyperonyme (fleuriste)={vendeur, commerçant, personne,
}
hyponyme (fleuriste)={bouquetier}
des lieux inclus et des lieux incluants
Lieux inclus (Calvados)={Caen(ville), Bayeux(ville), ... Orne (rivière), ...Bessin (pays)...}
Lieux incluants (Calvados)={Basse-Normandie(région), France(Etat),
, Europe(Continent), ...Terre(planète), Système Solaire(système planétaire)...}
des dérivés
Rel(Caen)={caennais}
Action(améliorer)={amélioration}
Caractère(rouge)= {rougeur}
Agentif(photocopier)= {photocopieur}
Dans de nombreux cas, les FL participent aussi bien aux opérations texte(sens et texte(sens(texte ; cependant leur rôle dans lopération texte(sens de restitution des significations lexicales sera souvent limité puisque les co-textes dapparition du mot concerné seront rarement les mots obtenus par les fonctions lexicales de ce mot.
Les opérations lexicales dune langue vers une autre langue
En matière de traduction les objectifs essentiels du système sont déviter les contresens importants : cest lopération texte(sens. Le choix dune traduction pour une acception (lopération sens(texte) ne sera pas spécifiquement traité dans cette thèse. Notre propos consistera donc principalement à contribuer à abaisser le nombre derreurs des systèmes actuels de traduction automatique qui aujourdhui proposent les traductions suivantes du mot brouillard :
Laccident est survenu par temps de brouillard ( the accident occured by fog
Le solde du brouillard est incorrect ( the balance of the fog is incorrect
Lopération texte(sens de désambiguïsation lexicale
Cette opération a pour objet la restitution automatique des identifiants de signification fournis par le Dictionnaire Intégral. Ce dictionnaire est un référentiel sémantique qui couvre lensemble de la langue française : cest sa dimension universaliste. Le Dictionnaire Intégral comprend dans son organisation des mécanismes intégrés de désambiguïsation hors domaine : cest sa dimension apriorique. Lorganisation apriorique du Dictionnaire Intégral permet dévaluer en contexte les mot-sens. Il est intéressant dévaluer la difficulté de la tâche.
Supposons dabord que notre référentiel sémantique soit le dictionnaire Le Robert et que les mots-sens soient identifiés par la numérotation de ce dictionnaire. Pour lénoncé information sur le sens dun énoncé, nous fournissons la liste des significations des mots lexicaux de ces énoncés tels que les propose Le Robert. Ensuite nous calculons la probabilité dune détermination aléatoire des bons sens lexicaux. Lannexe 1 effectue la même présentation pour Laviateur, abattu en plein vol, réussit à rejoindre ses lignes en manuvrant son parachute.
Désambiguïsation lexico-sémantique de « information sur le sens dun énoncé »
Dans le Robert, nous lisons :
information
-I. Dr. et cour. « Ensemble des actes qui tendent à établir la preuve dune infraction, et à en découvrir les auteurs » (Capitant).
-II. (1495). Didact. et vx. Action de donner une forme (- Informer, I.).
-III.
- 1. (V. 1360). Renseignement* (sur qqn, qqch.).
- 2. (1867). Action de sinformer, de prendre des renseignements.
- 3. (1902). Renseignement ou événement quon porte à la connaissance dune personne, dun public.
- 4. (Déb. XXe). Ensemble des informations, et, par ext., action dinformer le public, lopinion.
-IV. (V. 1950; angl. information). Sc. Élément ou système pouvant être transmis par un signal ou une combinaison de signaux (- Message) appartenant à une structure commune (- Code); ce qui est transmis (objet de connaissance, de mémoire).
Notons Sp, le nombre de sens principaux. Sp= 4.
Notons Ss, le nombre de sous-sens. Ss= 8.
Nous souhaitons voir sélectionné le sens principal 3. Notons Spr, le nombre de sens principaux que nous avons retenu. Spr = 1.
Notons Ssr le nombre de sous-sens que nous retenons. Ssr = 3 (par exemple).
sens
-I.
- 1. Faculté déprouver les impressions que font les objets matériels (- Sensation); chaque système récepteur unitaire dune modalité spécifique de sensations, correspondant, en gros, à un organe déterminé.
- 2. (Au pluriel). LES SENS : source de plaisirs.
- 3. LE SENS DE..., LE SENS (et adj.) : « faculté de connaître dune manière immédiate et intuitive (comme celle que paraissent manifester les sensations proprement dites) », Lalande.
-II. Vx. Faculté de bien juger.
- 1. - Discernement, entendement, jugement, raison. Un grand sens (- Haut, cit. 45; héros, cit. 10).
- 2. (1167). BON SENS. [a] Philos. (chez Descartes). Vx. Raison*.
[b] Mod., cour. Capacité de bien juger, sans parti pris, sans passion, en présence de problèmes, de questions qui ne peuvent être résolus par un raisonnement rigoureux, scientifique.
- 3. SENS COMMUN (lat. sensus communis) : manière de juger, dagir commune à tous les hommes (qui équivaut au bon sens). - Égarement, cit. 5; projet, cit. 3.
- 4. (Dans à mon, à son sens..., dans le sens, en un sens, etc.). Manière de comprendre, de juger (dune personne). - Avis, gré, opinion, point (de vue), sentiment.
-III. (De II., 4.).
- 1. Cour. Idée ou ensemble intelligible didées que représente un signe* ou un ensemble de signes.
- 2. Ce quun signe (notamment un signe du langage) signifie.
- 3. Idée intelligible à laquelle un objet de pensée peut être rapporté et qui sert à expliquer, à justifier son existence.
Nous avons retenu le sens III.2
Sp = 3
Ss = 10
Spr = 1
Ssr = 1
énoncé
- 1. Cour. Action dénoncer; énonciation, déclaration.
- 2. Formule, ensemble de formules exprimant qqch.
- 3. Ling. Résultat de lénonciation (opposé à énonciation).
Le sens 3 semble correspondre.
Sp = 3
Ss = 3
Spr = 1
Ssr = 1
Pour cet exemple information sur le sens dun énoncé qui est composé de trois mots lexicaux, la probabilité de restituer aléatoirement les bonnes significations est (dans le contexte du référentiel sémantique du Grand Robert) :
pour les sens principaux : 1/36
pour les sous-sens : 1/80.
Désambiguïsation lexico-sémantique de « Laviateur, abattu en plein vol, réussit à rejoindre ses lignes en manuvrant son parachute »
Lannexe 1 détaille cet exemple. Elle ne traite que les mots au caractère homonymique suffisamment marqué : abattre - vol - réussir - rejoindre ligne. Pour ces mots, la probabilité de restitution aléatoire des bonnes significations est :
pour les sens principaux : 1/900
pour les sous-sens : 1/30982.
Les probabilités que nous venons de calculer montrent la difficulté quil y a à désambiguïser automatiquement les mots des textes. En terme doccurrence, il faut considérer quun mot lexical a en moyenne 2,5 sens principaux et 8 sous-sens du fait que les mots les plus employés de la langue sont aussi les plus polysémiques. Nous laissons au lecteur le soin destimer les probabilités de restitution aléatoire de la bonne signification des énoncés suivants qui seront également traités dans cette thèse.
Autres exemples
Nous traiterons dune manière détaillée dans cette thèse, en plus des exemples précédents, les exemples suivants :
Lavocat mange un avocat.
Et sur le mot RENARD :
Le renard est un mangeur de poules
Le renard propage la rage
Les renards mettent en danger la solidité du barrage
Elle porte un manteau de renard
Méfies-toi. Cest un renard. Il joue la comédie.
Le renard de mer est un poisson
Les opérations texte-->sens-->texte
Nous présenterons huit opérations texte(sens(texte complètes :
la réduction lexicale en contexte (monnaie de Hiro-Hito --> yen) ou dans le cadre du dictionnaire à lenvers (monnaie japonaise --> yen)
le résumé de texte au plan lexical
La sélection des mots pouvant rentrer dans les paraphrases dénoncés courts pour lexpansion de requêtes
La sélection de contextes (co-texte) pour le filtrage dinformations
Lextraction dinformations factuelles
la signature sémantique dun texte
la classification automatique, le routage, laccès aux nomenclatures
La gestion de lopération de réduction et le dictionnaire à lenvers.
Une utilisation importante de lorganisation du dictionnaire en terme dhyperonyme et dhyponyme est fournie par lopération de réduction : quand, dans un article déconomie, un journaliste écrit la monnaie dHiro-Hito, comment est-il possible de déterminer la valeur yen alors que ce dernier est peut-être totalement absent du co-texte dapparition de lexpression à réduire (ici : monnaie de...). Dans ce sens, lopération de réduction participe à la réalisation dune opération texte(sens en effectuant, avec succès, cette réduction qui consiste finalement en une opération complète texte(sens(texte(sens.
Une autre utilisation de cette opération réside dans le projet de dictionnaire à lenvers, ou, comment répondre à une question dun utilisateur formulée comme suit : quels sont les mots, sil y en a, qui me permettent dexprimer tel sens ou tel nuance... ? La thèse étudiera dune manière détaillée la résolution des réductions suivantes :
monnaie du Japon
monnaie du pays du Soleil Levant
vendeur de fleurs
vendeurs de magnolias
vendeurs de bleuets
vendeur de bouquets de fleurs
personne qui vend des fleurs
personne qui vend des magnolias
personne qui vend des roses
personne qui fait le commerce de magnolias
personne qui cultive des fleurs et les vend
personne qui vend qqch
aventurier qui parcourt les mers en vue de piller les navires de commerce
crier pour le dindon
cri de la poule.
La probabilité de succès aléatoire de lopération de réduction dépend du nombre de spécifiques du terme générique de la question. Pour monnaie, il y a environ 250 spécifiques dans le Dictionnaire Intégral. Nous trouvons environ 11 000 désignations de personne dans ce même dictionnaire.
Le résumé automatique de textes au plan lexical
Le résumé automatique de textes au plan lexical est une application qui sélectionne dans le dictionnaire quelques mots susceptibles de refléter au mieux les thèmes abordés par le texte étudié. Dans un processus documentaire complet, ces mots-sens extraits peuvent aider à déterminer automatiquement des mots clés.
Prenons un premier exemple. Soit le texte : Laccident a eu lieu par temps de brouillard. Les deux voitures qui se sont percutées sur les deux voies de la nationale ont provoqué un carambolage denviron cinquante véhicules. Il faudrait produire, par exemple, accident dautomobile /carambolage /voiture automobile.
Un deuxième exemple nous est fourni par La partie de billard (voir, annexe 3, une reproduction complète de cette nouvelle de A. Daudet). Le mot billard en tant que jeu doit fortement ressortir de ce texte.
La sélection des mots pouvant rentrer dans les paraphrases dénoncés courts pour lexpansion de requêtes
Cette fonction effectue une opération texte(sens(texte complète destinée à faciliter lexpansion de requêtes. Au départ une question est posée au système. Par exemple :
aboutissement des négociations au Kosovo.
Des paramètres de la fonction permettent délargir cette requête, pour une signification donnée, selon une sélection de fonctions lexicales reflétant des paraphrases particulières. Pour notre exemple, les expansions de aboutissement en aboutir et de Kosovo en kosovar sont obtenus selon ces paramètres.
La sélection de contextes (co-texte) pour le filtrage dinformations
Actuellement, linterrogation par un unique mot clé des moteurs de recherche a une probabilité dêtre très bruitée. Supposons que nous recherchions des sites de lInternet qui sintéressent au jeu de billard dans son ensemble. Dans ce cas, une interrogation par le seul mot clé billard pourra produire deux types de bruits :
dune part, des sites spécialisés dans un aspect du contexte de billard apparaîtront demblée : il sagira par exemple des sites spécialisés dans la commercialisation de billards.
dautre part, billard pris isolément étant polysémique, quelques sites traiteront de tables dopération.
Une solution à ce problème peut venir de la production automatique de contexte, cest-à-dire dun ensemble de mots qui apparaissent souvent avec le mot billard dans lacception choisie. Il sagit, par exemple, de mots qui englobent le champ lexical de billard comme jeu ou jouer, ou de mots qui peuvent participer à ce champ lexical dune façon définitoire comme bleu ou queue, accessoire comme table, bille, collocative comme académie.
Une interrogation dun moteur statistique faite dune question comme (billard) ET (jouer ou jeu ou bleu ou queue ou ...) a beaucoup de chances de ramener des résultats plus pertinents quune interrogation où le mot billard est pris isolément.
Lextraction dinformations structurée
Lexpression technique extraction dinformations recouvre un ensemble de techniques applicatives assez large. Le résumé lexical de textes appartient, par exemple, à ce domaine ; dans cette approche, lextraction dinformation est faite pour lessentiel dopérations texte(sens. À linverse, quand lextraction dinformations concerne des applications de type de celles des conférences MUC où lon doit remplir automatiquement des fiches avec des renseignements extraits depuis des textes, les technologies employées sont généralement de type sens(texte : ce que lon cherche (le sens) est donné au départ et lon construit des filtres syntaxico-lexicaux depuis le résultat attendu. Cette organisation du traitement est typique du système FASTUS (Appelt 1993).
En détaillant larchitecture courante des systèmes dextraction dinformation, nous présenterons dans la thèse comment nos outils peuvent grandement faciliter lélaboration de logiciels dédiés à cette tâche.
La signature sémantique dun texte
Lexpansion de requêtes et la sélection de contextes que nous avons présentées précédemment font lhypothèse dun moteur de recherche qui indexe les mots des textes dans des listes inverses avec peu denrichissement. Cette approche pourra paraître insuffisante pour trois raisons :
le signe linguistique indexé ne rend pas compte de sa signification en contexte. Par exemple, carambolage a au moins deux acceptions courantes (accident de la route ou choc des billes de billard).
cette indexation ne rend pas davantage compte de limportance thématique de lélément indexé dans le contexte.
Soit le texte : après avoir joué au billard, nous sommes allés au restaurant. Ce restaurant appelé
. Si le repas est maintenant décrit sur quelques pages, limportance de loccurrence devient très faible.
Enfin, cette indexation sans filtrage aboutit à des index considérables qui sont tout sauf une mémoire (dans lacception faculté de conserver et de rappeler des états de conscience passés
).
Nous montrerons comment le Dictionnaire Intégral avec le Sémiographe peut fournir des signatures sémantiques.
La classification automatique, le routage, laccès aux nomenclatures
Nous traiterons dans ce chapitre les différentes stratégies possibles pour :
accéder à une nomenclature
Sur les pages jaunes, il sagit par exemple, dobtenir la rubrique légumes : détail à partir de la question : acheter un avocat.
effectuer du routage de documents selon des profils dutilisateur ou classer des documents selon un plan de classement.
Dans le routage de document selon un profil, lutilisateur dispose de moyens lui permettant de déclarer ses centres dintérêts. Les documents soumis au système sont alors comparés au(x) profil(s) soumis et obtiennent un résultat dévaluation par comparaison.
Dans le classement de documents dans un plan de classement, il sagit de comparer les documents soumis au système aux éléments de ce plan de classement puis de proposer, selon les contraintes du plan de classement, un ou plusieurs éléments de nomenclature.
Travaux similaires aux travaux présentés
Une partie importante de la thèse aborde la question de la constitution dune grande base de données sémantiques. Dans ce domaine, les travaux sont assez nombreux. Nous présenterons les principaux travaux :
WordNet (Miller 1998) qui est un réseau sémantique pour la langue anglaise. Ce réseau comporte fort peu de types de relations sémantiques, relativement peu de descriptions contextuelles et aucune structure componentielle
Comme WordNet est une réalisation de grande ampleur, nous lutiliserons comme base de comparaison pour conclure la présentation du Dictionnaire Intégral.
EuroWordNet (Vossen 1999) qui est une adaptation de WordNet à plusieurs langues européennes. EuroWordNet comporte seulement une vingtaine de milliers dacceptions pour chacune de ces langues. Nous avons contribué à sa version française.
CYC (Lenat 1999) qui est un réseau de concepts plus orienté vers une sémantique générale (description du monde) que vers une sémantique linguistique (description de la langue). CYC comporte de nombreuses déclarations de connaissances encyclopédiques.
Le DEC (MelCuk 1992) qui est dabord un système formel de description sémantique. En effet, le Dictionnaire Explicatif et Combinatoire dispose dun formalisme solide et dune grande richesse du modèle adapté à la résolution dopérations de génération sens(texte (paraphrases) mais comporte actuellement seulement quelques centaines dacceptions décrites pour le français.
Une deuxième partie importante de la thèse abordera la question du calcul sémantique. Là aussi, les travaux sont nombreux. Nous citerons quelques travaux importants comme ceux de Resnik (1995), Xaobin (1998), Agirre (1996), Wilks (1998). Dune façon générale, ces chercheurs proposent des algorithmes de désambiguïsation des mots-sens qui utilisent des bases de données sémantiques dont ils ne sont pas les auteurs et qui, généralement, ne sont pas conçues pour effectuer cette tâche. Par ailleurs, la plupart des opérations sémantiques texte(sens(texte que nous présentons ne semblent pas donner lieu actuellement à des publications, sauf ponctuellement, à laide dimportants corpus, dans le cadre récent du textmining. Nous ne présenterons pas ici ces travaux importants du fait que les algorithmes de text-mining sont généralement spécialisés dans une opération particulière donnant lieu à dimportantes validations manuelles dépendantes du domaine applicatif.
Historique de nos travaux et plan de la thèse
Le contexte de nos travaux est celui dune entreprise qui occupe depuis 10 ans la majeure partie de son temps à faire de la recherche dune façon isolée, et lautre partie à financer cette recherche. Il y a maintenant 8 ans M. Héon, ancien DRRT, et Messieurs Enjalbert et Victorri ont été parmi les premiers à ne pas décourager nos efforts. Lobjet initial de la société était centré sur la constitution dun dictionnaire sémantique de la langue française, qui devait, au moyen de linformatique, recenser tous les liens analogiques quun être humain peut établir entre deux concepts. Un travail titanesque un peu insensé comme le sont certainement tous les travaux innovants en matière de dictionnaires. Décrétant ce projet de nouveau dictionnaire, et nous y tenant, nous rencontrâmes des difficultés que nous ne soupçonnions pas de prime abord. Cest confronté à ces difficultés que nous avons ouvert des livres, participé à des séminaires, publié à un moment des articles, réalisé des maquettes. La fréquentation des auteurs nous a inclinés progressivement à élargir considérablement le champ de notre travail : lobjectif initial unique de constitution dun dictionnaire sémantique hors domaine fut complété dès 1991 dun objectif de calculs sémantiques hors domaine. Seulement ces calculs restaient inutiles sans attacher une attention minimale aux propriétés du signe linguistique : comment faire du calcul sémantique si lon ne sait pas corriger automatiquement chevaus, lemmatiser chevaux et exploiter les constructions syntaxiques dun mot comme abattre ? Abordant la phonétique, la morphologie et la syntaxe une question importante sest rapidement posée : les descriptions phonétiques, morphologiques et syntaxiques sont-elles indépendantes des unités sémantiques ou non ? Cette question est assez importante pour ne pas être éludée sous prétexte dun exposé sur la calculabilité sémantique.
Ainsi, la thèse aborde un domaine très vaste qui reflète létendue de notre travail :
La partie I de la thèse concerne la constitution dun dictionnaire sur les plans phonétiques, morphologiques, syntaxiques et sémantiques. Laccent y est mis sur les aspects sémantiques.
La partie II de la thèse traitera des calculs en rapport avec ces questions. Là encore, les traitements non sémantiques seront davantage décrits en terme de principes généraux et de résultats que dune façon détaillée. A linverse, les calculs sémantiques seront partiellement donnés.
Le graphique suivant présente les trois entités étudiées :
Le Dictionnaire Intégral( qui est un graphe orienté de mots et de concepts.
Lexidiom( qui est loutil de gestion du Dictionnaire Intégral (ajout, suppression, modification, visualisation des éléments du graphe).
Le Sémiographe( qui est un logiciel qui transforme la données déposées dans le graphe en un ensemble de traitements capables de restituer de la signification.
Architecture logicielle
Partie I : Le Dictionnaire Intégral
Cette partie décrit le Dictionnaire Intégral (Dutoit 1990, 1992 et 2000), dont :
la couverture (186.000 mots-sens) est semblable à celle de WordNet,
la structure componentielle (décomposition sémantique) reste souple pour permettre, par exemple, deffectuer différentes opérations texte(sens,
lorganisation en concepts dotés de traitements permet de déclarer quelques connaissances encyclopédiques comme quest ce que font les animaux, quest ce que subissent les événements...
les relations syntaxico-sémantiques (comme négociation : action de négocier) suffisament riches permettent de prévoir de nombreuses opérations de génération sens(texte.
Nous présentons le Dictionnaire Intégral à laide de trois chapitres :
le chapitre 2 présente les informations phonétiques, morphologiques, syntaxiques et sens(texte du Dictionnaire Intégral sous un titre unique : les descriptions universalistes du Dictionnaire Intégral (ou non contextuelles).
le chapitre 3 présente les informations componentielles et encyclopédiques du Dictionnaire Intégral. Ces informations ont une utilisation texte(sens. Le titre de ce chapitre est Les descriptions aprioriques du Dictionnaire Intégral (ou contextuelles au plan sémantique).
le chapitre 4 schématise le format des données du Dictionnaire Intégral
Les descriptions universalistes du Dictionnaire Intégral
Le Dictionnaire Intégral stocke et restitue les éléments non contextuels de la description des mots. Ces éléments de description sont lexico-phonétiques, morphologiques, dérivationnels, lexico-syntaxiques et sémasiologiques. Les descriptions regroupées dans ce chapitre ont une inspiration universaliste.
Historiquement, nous nous sommes inspirés de plusieurs travaux pour élaborer les modèles sous-jacents à ces différentes descriptions. Les modèles du Dictionnaire Intégral reprennent souvent les conclusions de ces travaux. Il y a aussi de nombreuses occasions où notre réflexion nous a conduit à rejeter ces modèles. Pour faire le point sur ces questions et pour présenter lorganisation des données non contextuelles du Dictionnaire Intégral, nous donnons au lecteur les règles de conception des modèles courants puis, pour chaque règle, nous indiquons sa formulation dans le Dictionnaire Intégral. Cette présentation est effectuée en deux parties : la première partie présente les sources retenues pour élaborer le modèle de données du Dictionnaire Intégral, la deuxième partie présente chacune des règles rencontrées.
Le Dictionnaire Intégral nest pas seulement un modèle de données. Il est aussi largement instancié. Pour présenter sur un plan quantitatif cette instanciation, nous effectuons dans une troisième partie une comparaison quantitative entre WordNet et le Dictionnaire Intégral. Dans cette partie, nous montrerons que les deux dictionnaires présentent de nombreuses similarités en volume que la différence dorganisation voile assez peu.
Les sources retenues pour élaborer le modèle de données du Dictionnaire Intégral
Le modèle du Dictionnaire Intégral repose sur un nombre important de règles. Ces règles sont principalement issues des spécifications et des travaux de recherche élaborées par :
le projet Eureka « GENELEX » [G]
le Dictionnaire Exploratoire et Combinatoire du Français contemporain ou DEC (Melcuk 1992) [D]
certaines spécifications émanant essentiellement du Laboratoire Automatique des Langues de lUniversité Paris 7 [L]
la norme ISO 1087 concernant les recommandations en matière terminologique [I].
des spécifications particulières au Dictionnaire Intégral [Di]
WordNet [W]
Dans notre présentation, une règle ou spécification de modèle peut se terminer par des lettres majuscules encadrées par des crochets []. Une marque comme [GL] signifie que la spécification ou lélément à représenter est référencé dans GENELEX et le LADL.
Lexamen de nos principales sources de référence montre que celles-ci sont issues de trois sources universitaires avec le DEC, le LADL et lUniversité Princeton, un grand projet européen avec GENELEX, une norme ISO et nos propres besoins. Cette variété des sources aboutit au modèle actuel du Dictionnaire Intégral et explique pour partie son contenu ramifié. Présentons maintenant sommairement les objectifs et réalisations des organisations mentionnées (la norme ISO pourra être consultée facilement par le lecteur).
Le LADL
Le LADL ou Laboratoire Automatique des Langues de lUniversité Paris 7 a principalement pour objectif de « décrire la langue pour lordinateur » (Silberztein 1990). Sur le plan conceptuel, le LADL insiste sur laspect compositionnel et combinatoire dune langue pour lordinateur. Courtois (1990) écrit :
Lordinateur est une machine formelle, cest-à-dire que son fonctionnement est combinatoirement déterminé. Décrire la langue pour lordinateur revient à en construire une description formelle.
Admettant avec le LADL que la langue peut supporter une certaine analyse compositionnelle selon un objectif précis, nous avons retenu quatre sources détaillées de spécification en provenance de ce laboratoire :
Courtois (1990, p. 11) décrit :
Le DELAS, un dictionnaire de près de 80 000 entrées de mots simples
Le DELAF qui est obtenu par génération à partir du premier et comporte les formes fléchies
Le DELAR qui est un dictionnaire de radicaux de la langue.
En introduction à la description de ces dictionnaire, Courtois rappelle que le mot simple ne constitue pas une évidence :
La présentation dun système de mots simples suppose dabord la définition du concept de mot simple.
Laporte (1990) décrit le DELAP :
Le DELAP est un dictionnaire phonémique du français, représentation systématique de la prononciation de 620.000 formes et de certaines de leurs variantes phonétiques.
Silberztein (1990, p71) décrit le DELAC et le DELACF :
Le dictionnaire de mots composés (DELAC) décrit la morphologie et la flexion des mots composés. (...) Nous décrivons par la suite le DELACF des formes fléchies composées engendrées automatiquement à partir du DELAC. »
GENELEX
GENELEX est lacronyme dun projet européen dont le nom complet est : GENEric LEXicon. Les principaux membres du consortium GENELEX ont été les sociétés GSI-ERLI, IBM France et Sema Group. Hachette fut membre de ce consortium au début. Lenvironnement scientifique de GENELEX est largement influencé par des laboratoires français proches des conceptions du LADL.
Voyons maintenant les principaux objectifs de GENELEX. La fiche de présentation du projet (GENELEX 1994-2) note :
Le résultat attendu dans le développement de GENELEX est la généralité de son format, qui aura les propriétés suivantes :
Couverture Maximale : (...) le nombre maximal dinformation linguistique non-redondante
Portabilité Maximale : pour être capable de supporter différents types dinformations, le modèle GENELEX doit être un modèle sémantique de linformation et pas seulement un modèle physique des données (...)
Discrimination Minimale : le projet na pas pour but de diviser mais au contraire dunifier » (points de vue et théories)
Nous voyons que GENELEX est essentiellement un projet normatif qui cherche à atteindre un certain consensus de la description lexicale. Contrairement aux travaux du LADL présentés dans le paragraphe précédent, GENELEX dépasse sensiblement dans ses objectifs les résultats du LADL. GENELEX est censé fournir des spécifications exhaustives pour lensemble des descriptions phonétiques, morphologiques, syntaxiques, sémantiques en environnement mono et multilingue. La référence à GENELEX pour lélaboration et la présentation du Dictionnaire Intégral est incontournable.
Le DEC
Le DEC est une réalisation concrète de la théorie sens ( texte. Pour cette théorie, la première tâche du modèle linguistique est de décrire le mécanisme traduisant le sens en texte. Ainsi, la théorie sinscrit dans une approche onomasiologique qui se demande comment, dans une langue donnée, on exprime un sens. Dans ces conditions, la première fonction du modèle sens ( texte est la génération dénoncés semblables à un énoncé source appelé « inscription de sens ». Dans ce modèle, le calcul de la paraphrase est essentiel puisque le but de la théorie est finalement de produire toutes les expressions dun même sens en langue.
Les travaux de MEMODATA
MEMODATA est née dun projet sur la langue française conçu par lauteur et Patrick de Torcy dès 1988. Cette année-là, nous avions écrit en Prolog un outil de gestion de graphe orienté pour établir et mémoriser des relations entre les mots et entre des mots et un système de concepts (structure).
Les travaux de MEMODATA ont pour objet depuis lorigine détablir toutes les associations possibles entre les mots. Des organisations lexico-syntaxique et componentielle du lexique ont résulté de la présence simultanée de ces deux perspectives dans notre projet. Une version du travail réalisé en 1992 (version 1.1 du Dictionnaire Intégral) est disponible au public sur le site http://www.memodata.com. Cette version correspond à une édition connue sous le nom de Dicologique.
WordNet et EuroWordNet
WordNet est un projet sur la langue anglaise qui a été conçu par Georges A. Miller. Miller (1998, p. xvii) résume lorigine de ce projet de la manière suivante :
with some modest help from the Sloan Foundation, the Spencer Foundation and the IBM Tomas J. Watson Research Center, I was able to keep the ideas alive, and in 1984 I even managed to build a small semantic net of 45 nouns on an IBM PC.
Wordnet est volontairement limité à la description des relations paradigmatiques entre les lexies. Linterface de WordNet est disponible sur le site http://www.cogsci.princeton.edu.
WordNet fournit des descriptions détaillées et précises des mots. Leur structuration sur un axe ontologique a un fondement psychologique. Il résulte de cette approche quil arrive parfois que lon rencontre plus de 20 sens pour un verbe (par exemple give a 27 sens).
Dans WordNet, les différentes catégories syntaxiques sont étudiées séparément pour des raisons méthodologiques et techniques. Toutes les catégories syntaxiques ne sont toutefois pas étudiées : on ne trouvera pas dans WordNet, par exemple, les prépositions, les conjonctions et les pronoms. Les catégories étudiées séparément sont celles des noms, des verbes, des adjectifs et des adverbes mais les auteurs considèrent que les relations entre les catégories devront être étudiées et détaillées.
Wordnet structure chaque catégorie syntaxique dans un axe paradigmatique conçu selon une conception qui mêle psychologie et linguistique. Lunité minimale de cet axe est appelée « synset ». Un synset est un ensemble qui contient tous les sens des mots qui expriment la même notion. La version 1.5 de WordNet comprend 90462 synsets. Dans cette version, 75812 synsets comportent un label (c.-à-d. une définition ou un exemple), et 14650 synsets nen ont pas. WordNet considère la polysémie comme un phénomène discret : si un mot a plusieurs sens, ses identifiants de sens apparaissent dans différents synsets. WordNet structure les synsets entre eux principalement par une relation dhyponymie. Ces relations sont généralement monohiérarchiques, cest-à-dire quun synset a au maximum un père. On trouve aussi quelques autres relations comme lantonymie et les relations partie-tout (méronymie et holonymie).
Le projet EuroWordNet est une extension de WordNet basée sur les mêmes idées mais développée pour plusieurs langues européennes, dont le français. Nous avons participé avec lUniversité dAvignon, le Rank Xerox Research Center de Grenoble et la société Bertin SA à ce projet en fournissant des données lexicales depuis notre propre réseau sémantique multilingue. Notons enfin que EuroWordNet est un projet co-financé par la communauté européenne (LE2-4003 et LE4-8328).
Les règles des descriptions universalistes
La présentation des règles ou spécifications de modèle du dictionnaire suit lordre habituel. Elle part du signe linguistique selon les aspects phonétiques et morphologiques, aborde lunité syntaxique (signe linguistique avec ses informations syntaxiques : Usynt) et enfin traite de lunité sémantique (signe linguistique avec ses informations sémantiques : USèm) dans son axe sémasiologique.
Les différentes règles ou spécifications issues des sources décrites dans la section 2.1 sont présentées selon un ordre régulier. Cette forme expose dabord la règle (en gras), fournit un ou plusieurs exemples et indique la représentation dans le Dictionnaire Intégral. Chaque règle présentée est dotée dun numéro précédé de la lettre R (pour règle).
Les signes linguistiques
La graphie
Pour permettre la saisie des données multilingues, il faut employer la norme ISO8879 [G].
jusquà ce siècle ( jusquà ce siècle.
Le Dictionnaire Intégral nintègre pas cette norme. Son architecture est fondée sur un SGBDR grand public qui reconnaissent des normes plus anciennes (ASCII ou ANSI). Depuis la norme ISO8879, une nouvelle norme est apparue : UNICODE. Ce code sera finalement retenu dans le futur.
Les signes de ponctuation
Les signes de ponctuation en tant quéléments de la syntaxe, donc de la langue, appartiennent au dictionnaire. [G]
« , », « . », « ( », «
»
Cette règle est adoptée par le Dictionnaire Intégral.
Comme les unités lexicales, Les signes de ponctuation peuvent avoir plusieurs usages (significations) qui dépendent de la langue. [G]
« . » peut être une fin de phrase, une marque de fin dabrévation et une partie dune expression composée comme « . . . »
« " » peut être début dun groupe entre guillemets et fin de ce groupe.
Le Dictionnaire Intégral fournit une propriété langue et une propriété code grammatical à chaque signe de ponctuation. Le Dictionnaire Intégral admet en outre que :
Deux ponctuations peuvent avoir des emplois synonymes dans une langue donnée [DI]
« " » en début de groupe est synonyme de « « »
Le Dictionnaire Intégral rend compte de cette règle à laide dune relation nommée synonyme syntaxique.
Règles concernant les unités morphologiques (UMorph)
Nous résumons les règles concernant A) les unités morphologiques simplesB) les unités morphologiques complexes.
A ] Les unités morphologiques simples
Les unités morphologiques simples et composées doivent pouvoir être décrites selon leur forme canonique [G, L]
aimer : apprécier positivement
Avec leur contrainte morphologique dapparition en contexte [G, L]
aimer : vouloir (dune façon polie) si « aimer » est au conditionnel.
Le Dictionnaire Intégral admet ces deux règles.
Les unités non autonomes quant à leur réalisation et leur interprétation nont pas à être présentes dans le Dictionnaire Intégral [G].
lélément non autonome « aujourd »
Le Dictionnaire Intégral admet cette règle.
Par exception à la règle précédente, il faut prévoir des cas où une unité morphologique non autonome puisse être représentée. [G]
hippophagique ne se trouverait, daprès le Robert, que dans lexpression boucherie hippophagique.
Cette situation survient surtout quand lunité se fléchit dans un mot composé. Elle peut alors être présente dans le dictionnaire sans aucune autre indication sémantique si lunité isolée na pas signification ou demploi propre.
Une unité morphologique peut exister indépendamment de ses catégories grammaticales [G, L]
Une unité morphologique peut exister indépendamment de ses comportements syntaxiques [G, L]
Une unité morphologique peut exister indépendamment de ses significations (hors polysémie) [G, L]
GENELEX est un modèle par couches (morphologique, syntaxique et sémantique) dont la première couche est le comportement flexionnel de lunité morphologique. Le modèle par couches est certainement lié à une vision cartésienne de la résolution des problèmes : il convient de diviser les problèmes en sousproblèmes pour pouvoir les résoudre. Cette approche est au premier abord aussi conforme à lobjectif de non redondance de linformation linguistique.
Cependant, ce choix a un inconvénient important : il exige la mise en place et la gestion de tables de relations entre les niveaux de la représentation morphologique et les autres niveaux. En pratique, cela aboutit à une structure de base de données assez compliquée. Une dizaine de tables sont nécessaires pour décrire le seul niveau morphologique. Leur gestion informatique a un coût élevé. Bien plus encore, le coût redondant de la description et de la maintenance des données lexicales devient très élevé du fait du coût spécifique de chaque mise en relation entre couches.
Nous croyons voir ici le résultat dommageable dune idée dune genèse naturelle de la description de lunité lexicale qui a certainement influencé les concepteurs de Génelex. Concrètement, il nest pas sûr que des membres de GENELEX aient retenu ces règles pour leurs propres réalisations.
Pour sa part, le Dictionnaire Intégral ne reprend aucune des règles R9, R10 et R11. Le Dictionnaire Intégral ne connaît quune unité linguistique : lunité sémantique. Comme certaines études se fondent sur un diktat de la textualité, le Dictionnaire Intégral se fonde sur un diktat de lentrée sémantique. On pourrait dire dune façon plus jolie quil se fonde sur une Gestalt lexico-sémantique, mais cela laisserait entendre que cette situation a un fondement théorique implicite : il nen est peut-être rien. Un hasard des circonstances a pu aboutir à cette situation : en 1994, nous commencions à peine nos travaux en morphologie, et nous uvrions déjà depuis cinq ans à la description du niveau sémantique. Pour revenir à labandon des règles R9, R10 et R11, notons que le fait de déclarer lunité morphologique comme une propriété non autonome de lunité sémantique ne crée aucune gêne en dehors évidemment dune certaine redondance de linformation (mais non dun coût élevé de sa description).
Certaines unités morphologiques nont aucune signification notable. [G].
Arrive-t-il ou narrive-t-il pas? Lon dit quil ne viendra pas.
Le Dictionnaire Intégral permet de représenter ces particules qui aboutissent à une racine déléments asémantiques.
Pour un même sens, un mot peut avoir plusieurs comportements morphologiques [G].
Le verbe asseoir.
Dans le Dictionnaire Intégral ce point dépend des modèles morphologiques disponibles pour une langue donnée. Pour lexemple de asseoir, nous disposons dune description morphologique capable de générer et de lemmatiser je massieds et je massois.
Il ny a quune entrée morphologique pour les noms dont les variations sémantiques en genre naboutissent quà une distinction « homme/femme » [G].
Ex : infirmier --> infirmière
Nous avons suivi cette spécification qui présente continuellement les inconvénients suivants :
la résolution en dictionnaire à lenvers de femme produisant des soins nécessite des traitements particuliers.
Idem pour le calcul des isotopies :
La femme est lavenir de lhomme. Les assemblées auront dorénavant une député(e) pour un député.
Avec une telle spécification, ces textes posent dès le niveau morphologique des problèmes spécifiques (à ce cas et au français). Il reste que les avantages de la règle semblent compenser ses inconvénients.
Une variation en genre qui provoquerait une modification de sens suppose la création de deux entrées morphologiques [G].
impératrice comme femme de lempereur.
Le Dictionnaire Intégral adopte cette règle en créant deux entrées morpho-sémantiques.
Une variation en nombre qui provoquerait une modification de sens suppose la création de deux entrées morpho-sémantiques [G].
lunette (télescope) et lunettes (ellipse de paire de lunettes), information et informations (jécoute les informations).
Le Dictionnaire Intégral adopte cette règle en exigeant deux entrées morphosémantiques.
Les variantes graphiques sont représentées au sein dune même unité morphologique [G].
Ex : clé/clef, abattis/abatis.
Le Dictionnaire nadopte pas cette règle pour les raisons suivantes :
les variantes graphiques nont pas forcément les mêmes modèles de flexion entre elles.
Par exemple : abrogatoire/abrogatif, antimite/antimites..
Ce point complique sensiblement le modèle de données de GENELEX.
on ne peut pas tirer dinformations sémantiques de la notion de variante graphique. Une relation variante graphique ne nous indique pas si les termes sont sémantiquement identiques pour chacun de leur sens, et peuvent être substitués lun par lautre hors contexte ou si une variante graphique présente un sens que lautre ne possède pas.
Les relations de dérivation sont décrites dès le niveau morphologique (i.e : sans contrainte sémantique) [D, G, L].
Ex : S(acheter)=achat, V(promesse)=promettre, A(scolaire)=école, Adv(honnête)=honnêtement
Le Dictionnaire Intégral nadopte pas cette règle. Prenons un exemple pour justifier ce point : le champ morphologique dérivationnel du verbe pêcher. Le Robert propose pour pêcher les dérivés morphologiques :
pêche, pêcherie, pêchette, pêcheur, repêcher.
Observons maintenant la composition sémantique de ce champ dérivationnel :
1 pêche : action ou manière de pêcher, résultat de cette action 2 pêcherie : lieu aménagé pour la pêche 3 pêchette : petit filet de pêche (à lécrevisse) 4 pêcheur : personne qui pêche 5 repêcher : a) pêcher à nouveau b) retirer de leau ce qui y est tombé ou c) recevoir à une épreuve qqn qui nen a pas complètement le niveau.
Nous notons que :
Certains dérivés ont des fonctions bien précises, simples à codifier, et surtout ne modifient pas le champ lexical, la signification globale du verbe pêcher : capturer ou chercher à capturer un poisson. Ici 1, 4 et 5.a appartiennent à cette catégorie de dérivation quil faut sélectionner.
Certains dérivés ont des spécificités importantes et difficilement codifiables : cest le cas pour les termes 2 et 3. pêcherie nest pas totalement acceptable car il ne lui est pas possible de représenter tous les lieux où lon pêche, mais seulement des lieux aménagés. De la même façon, pêchette nest pas acceptable : cest un filet (voilà quelque chose de spécifique), de plus ce filet ne permet pas de pratiquer toutes les pêches (mais seulement la pêche au filet de lécrevisse!)
Certains dérivés nont absolument rien à voir (sauf peut-être pour des jeux de mots) avec le terme dont ils sont issus. Cest le cas de 5.b et de 5.c.
Les valeurs prises par le complément dobjet sont par exemple capture ou prise. Ces valeurs ne sont pas des dérivées morphologiques du verbe pêcher.
Dune façon générale, nous notons que :
Les relations S, V, A et Adv sont insuffisantes en terme de précision. Par exemple, Achat doit être précisé en tant quaction, état ou résultat ; Adv ne signifie pas toujours dune façon ; A nest pas toujours relatif à (et que signifie relatif à)...
Ces relations, une fois précisées, ne seraient en aucun cas valables pour lensemble des sens du mot origine ou de sa dérivation. Par exemple : abyssal en tant que relatif à, qui se situe dans
les abysses est tout à fait différent de abyssal signifiant dune grande profondeur, même si, bien sûr, la polysémie sexplique bien ici avec un grand nombre de traits de sens semblables. La dérivation est une propriété dun mot-sens
Certaines valeurs qui participent à la transformation syntaxique dune phrase ne sont pas données par la dérivation morphologique : cela a été le cas de prise pour le verbe pêcher. La dérivation dans le Dictionnaire Intégral comme dans la théorie sens(texte et son Dictionnaire Explicatif et Combinatoire est de nature sémantique.
La décomposition par affixe, racine et désinence de la forme canonique est fournie dès le niveau morphologique [G, L].
racheter = r+achet+er
Le Dictionnaire Intégral nadopte pas cette règle pour les raisons suivantes :
il est des cas où cette décomposition diffère selon les significations.
pêcher nom et pêcher verbe
pour le vocabulaire courant, il est très fréquent que la décomposition ne permette pas dinférer les sens possibles, et rien que les sens possibles et présents dans lusage, de lunité lexicale.
En définitive, cette règle complique inutilement le modèle morphologique : nous considérons que la décomposition par affixe est une propriété de lunité sémantique et non une propriété de lunité morphologique. Ce rejet de principe de lautonomie du morphème doit souffrir néanmoins quelques exceptions. Ainsi certaines constructions libres sont très productives et facilement identifiables.
Cest le cas par exemple des terminaisons ien et anti ajoutées aux noms propres :
balladurien ( balladur + ien ( relatif à, qui appartient à + Balladur
ou ( qui est partisan de + Balladur
antiballadurien ( anti + balladur + ien ( qui est contre + Balladur
Ce travail est envisagé dans le cadre du modèle de traitement du Sémiographe. Le Dictionnaire Intégral a dans ce cas pour rôle denregistrer le sens des affixes et désinences actuellement productives en français et leur signification contextuelle potentielle (dans le cas de ien il faudra créer deux entrées sémantiques).
La forme phonétique est une propriété de lunité morphologique [G, L].
Le Dictionnaire Intégral nadopte pas cette règle pour la raison suivante : lexemple ils couvent et un couvent montre que la forme phonétique est une propriété dune unité supérieure à lentrée morphologique. Pour le français, cette propriété est valide pour lunité morphologique + la catégorie grammaticale, mais cela nest pas nécessairement vrai pour toutes les langues.
Dans ces conditions, le Dictionnaire Intégral pourrait formellement prévoir une description phonétique au niveau du mot-sens. Nous navons pas retenu cette possibilité parce que nos travaux concernent le traitement de lécrit, éventuellement de loral retranscrit, et non de loral. De ce fait, le besoin de précision dans la description du lien signifiant-signification est faible et un lien direct avec lUSèm serait peu utilisé. Ainsi, exceptionnellement, nous avons mis en uvre une stratégie particulière focalisée sur lobjectif de la correction orthographique automatisée. Sachant que pour restituer les significations dun texte écrit, le Dictionnaire Intégral doit être robuste aux fautes dorthographe, notamment aux fautes dorigine phonétiques, un phonétiseur-correcteur (doté dune clé pour le français égal à la concaténation de la forme et de sa catégorie grammaticale) a été spécialement développé. Ces travaux ont été inspirés de ceux de Catach (1984) et de Perenou.
La fréquence dapparition est une propriété de lunité morphologique [DI].
Le Dictionnaire Intégral adopte cette règle.
B ] Les unités morphologiques composées (ou complexes)
Ces unités sont composées de plusieurs mots comme dans pomme de terre, afin de...
Elles peuvent être totalement figées. Cest le cas de pomme de terre. Alors leur présence dans le dictionnaire est peu discutée. Elles peuvent être faiblement figées (faire sauter la banque, faire péter la banque ; prendre son bain, prendre sa douche) ou bien voir leur sens sexpliquer par les mots qui les composent (franc suisse). Dans ce dernier cas, leur introduction dans le dictionnaire est débattue selon des critères syntaxiques, sémantiques et encyclopédiques, cest-à-dire selon des critères non morphologiques. De notre côté, nous considérons en dernier ressort que seule la compétence prévue du modèle sémantique ou de lapplication peuvent justifier des entrées dans la nomenclature des unités morphologiques composées. Ainsi, le modèle morphologique na pas à faire peser de contraintes sur ce qui définit ou sur ce qui ne définit pas une unité morphologique dont le choix est de la responsabilité du lexicographe pour le dictionnaire ou dun informaticien linguiste pour une application informatique particulière.
Indépendamment de ces remarques, lunité morphologique complexe (UMC) présente des questions morphologiques intéressantes sur le plan de leurs contraintes dapparition en contexte. Par exemple, certaines UMC sont nécessairement contiguës (pomme de terre), dautres sont sécables (aller le dimanche à la pêche). Le dictionnaire se doit de décrire ces différences.
Une UMC est décrite quant à son modèle flexionnel.
prendre son bain ( je prends mon bain, tu prends ton bain
Le Dictionnaire Intégral adopte cette règle. Cette information est gérée au niveau de la propriété morphologique de lunité sémantique.
Une UMC est décrite selon sa sécabilité.
Jean prend souvent son bain le dimanche mais rien que des douches en semaine.
Le Dictionnaire Intégral adopte cette règle. Cette information est gérée au niveau de la propriété morphologique de lunité sémantique. Limplémentation actuelle de la donnée reste très faible.
Certaines UMC existent en nombre indéfini et doivent malgré tout être prises en compte par le modèle. [DI]
Une adresse postale (Memodata, 17 rue Dumont dUrville, 14000 Caen), une molécule chimique (H20), une formule (e = mc²), une date (30 novembre 2000), une adresse électronique (toto@memodata.com) et de dizaines dautres expressions sont dans ce cas. Ces éléments nappartiennent pas au dictionnaire de base mais à un module additionnel appelé reconnaisseur T2 qui exécute des expressions régulières durant la phase danalyse morphologique.
Conclusion sur les unités morphologiques
Le Dictionnaire Intégral ne reconnaît pas lautonomie de la morphologie. Dans le Dictionnaire Intégral, la morphologie est une propriété de lunité sémantique, cette dernière étant représentative de lusage, et lusage ne respectant aucune loi générale.
Avant de brosser à gros traits les caractères et représentation de lunité syntaxique (USynt), notons le point suivant : GENELEX et le LADL étudient une unité syntaxique autonome. Les propriétés décrites ici sont principalement la grammaire et les éléments de construction. Suite à ce qui a été dit sur lunité morphologique, le lecteur devinera par avance notre position : USynt na pas dautonomie dans le Dictionnaire Intégral. La question récurrente que nous nous posons alors sur ces propriétés est toujours formulée comme suit : en partant dun sens, pour ce sens, quelles sont les formes, les catégories grammaticales, les constructions que lusage retient ou dont lusage semble acceptable.
Nous parlerons dès lors des propriétés morphologiques et syntaxiques des USèm. Dans le même temps, nous abandonnerons progressivement les références à GENELEX et au LADL : ni lun ni lautre ne jouissent dun référentiel sémantique avancé. Notre référence principale sera maintenant le DEC car ce dernier pose les questions comme nous les posons. Par exemple, pour un sens donné, quelles sont les constructions syntaxiques possibles ?
Les propriétés syntaxiques des USèm : USynt
Les propriétés grammaticales des USèm
Une USynt possède une catégorie grammaticale [G, L, D]
Le Dictionnaire Intégral reconnaît environ 500 catégories grammaticales pour le français. Le format des catégories peut être donné selon le standard MULTEXT qui décrit les catégories sous la forme dattributs (Véronis 1995).
Règles concernant les propriétés syntaxiques des USèm
Les verbes, les noms, les adjectifs et les adverbes disposent, pour un sens donné, dun et un seul régime syntaxique (formes de lutilisation de lUsèm et nature des compléments). [D]
Ce régime syntaxique a une arité maximale fixe pour ce sens. [D]
Pour chaque indice de larité, les possibilités sémantiques sont homogènes. [D]
Associé au schéma du régime, des commentaires indiquent les combinaisons impossibles. [D]
Ces quatre règles sont suffisamment complexes pour quun exposé détaillé leurs soit consacré. Reproduisons ici, en choisissant un nom pour prendre un exemple suffisamment simple, un extrait du DEC (Melcuk 1992).
Eclipse, nom, fém.
Définition
SO(X séclipse 1.1 derrière Y) ou S0(Y éclipse 1.1 X) [On a observé léclipse du soleil]
...
Eclipse de X par Y = S0(X séclipse 1.1 derrière Y) ou S0(Y éclipse 1.1 X)
Régime1=X2=Yde N
Aposs
APar N
Contraintes, commentaires et exemples
1) C1.3 : A=A0(N)
2) C2 sans C1.1 : impossible
C1 : une éclipse de lune (de soleil), une éclipse de ce satellite, son éclipse, une éclipse lunaire (solaire)
C1+C2 : léclipse du soleil par la lune
Impossible : *une éclipse lunaire par le soleil(2)Le régime de éclipse dans le DEC
Le premier sens (1.) de éclipse est défini par une fonction lexicale : éclipse est le dérivé syntaxique S0 du verbe séclipser (sens 1.1) et du verbe éclipser (sens 1.1).
Détaillons maintenant les régimes de éclipse et leur contrainte associée. Éclipse connaît au plus deux actants : C1 et C2. Les formes élémentaires de C1 et C2 sont données par le tableau du régime du nom. Les combinaisons possibles de ces formes sont données par les contraintes.
Détaillons dabord la forme de ces actants. Les formes élémentaires du premier actant C1 sont au nombre de trois :
« de N » avec par exemple du soleil
un adjectif possessif représentant « de N » comme son
« A », un adjectif particulier représentant « de N » comme solaire.
Lactant C2 ne connaît quune unique forme : « par N » avec par exemple par la lune.
Les contraintes associées au tableau des régimes permettent de générer exhaustivement les combinaisons possibles (paraphrases) de ces actants.
la première ligne est une contrainte. Cette contrainte fixe la valeur de ladjectif (actant C13 se lit actant C1 et 3° variante pour cet actant). Cette valeur est donnée par A0(x). A0(x) est une fonction lexicale qui retourne un adjectif capable de se substituer au mot clé x. Lindice 0 renvoie au mot clé lui-même. Dans notre exemple, comme x est un groupe nominal, A0(x) est un dérivé adjectival du groupe nominal x si ce dérivé existe pour x.
la deuxième ligne est également une contrainte. Cette contrainte indique que lactant C2 nest possible quavec C11. Le syntagme une éclipse des satellites de Jupiter par cette planète est possible. Le syntagme une éclipse solaire par la lune est jugé incorrect.
la troisième ligne fournit davantage des exemples doccurrence du régime C1 + (.
la quatrième fournit un exemple doccurrence de C1 + C2.
la dernière ligne retourne davantage une connaissance encyclopédique que linguistique : dans un ouvrage de fiction, une éclipse lunaire par le soleil pourra toujours se rencontrer.
Le modèle formel proposé de description des régimes nous pose deux questions :
Soient le tableau de régime pris en bloc et les deux contraintes. Supposons que le DEC soit construit pour tous les mots du français. Combien de fois ce tableau se retrouvera-t-il à lidentique? Si ce nombre est important, une autre représentation de linformation ne serait-elle pas souhaitable?
Supposons à nouveau que le DEC soit construit pour tous les mots du français. Dans ce cas, sachant que éclipse est le résultat sur C1 de laction A effectuée par C2, en C1 les cas de N et Aposs ne se retrouvent-ils pas toujours ensemble ? Si cela est vrai, le DEC comporte des doublons dans sa représentation et le régime de éclipse peut être simplifié (sachant éclipser Vt, et Vt construction absolue impossible).
Si les deux questions rencontrent des réponses favorables, alors un meilleur choix consiste à représenter les régimes de éclipse par :
- X + de GN + (par GN), [sachant par ailleurs, eclipse=res(éclipser Vt strict)].
Cest lorientation que nous avons prise pour le moment. Le Dictionnaire Intégral comporte pour le français environ 1500 modèles de construction prédéfinis pour les verbes et quelques modèles de noms, dadjectifs et dadverbes. Les règles R30 à R33 sont donc largement adoptées par le dictionnaire.
En conclusion de ce point, nous notons que nous ne réfutons aucune proposition du DEC en matière de construction, mais que la forme de la réalisation pourra être fort différente dans le Dictionnaire Intégral.
Cette thèse abordant peu la syntaxe et les informations sémantiques qui en sont issues, nous ne nous attarderons pas davantage sur ce point. Nous reviendrons toutefois sur la syntaxe en tant que donnée fournie en entrée du calcul sémantique et en tant que membre du couplage syntaxesémantique sur lequel nous travaillons actuellement.
Lunité sémantique (USèm)
Le calcul des paraphrases est intéressant en cela quil peut fournir le degré de similarité de deux énoncés. Les paraphrases sont lobjet même du modèle sens(texte. Leur calcul sappuie sur des relations formelles entre deux unités sémantiques. Ces relations sont appelées Fonction Lexicale (FL). Bien que la déclaration des fonctions lexicales ne constitue pas lobjet principal de notre dictionnaire qui sintéresse davantage aux opérations texte(sens, il reste que le Dictionnaire Intégral a pour ambition dintégrer chacune de ces fonctions. Dans cette section, nous présentons dabord les propriétés sémantiques des USèm en terme de fonction lexicale puis une deuxième section présentera les autres propriétés non contextuelles des USèm.
Les USèm selon le modèle sens(texte
Nous étudions les cinquante et une fonctions lexicales simples du DEC. Nous donnons la manière dont elles sont traitées dans le Dictionnaire Intégral. En cas de différence de traitement, nous expliquons les raisons de ces différences. Pour effectuer cette présentation, nous avons regroupé les fonctions lexicales de la façon suivante :
Les fonctions lexicales de dérivation sémantique
Les fonctions lexicales verbales
La synonymie
Relations de collocations et termes privilégiés
Fonctions lexicales à valeur sémantique spécifique
Préposition régissant le mot clé
Formes exclamatives
Les fonctions lexicales non ou rarement autonomes
Fonctions diverses
Conclusion pour lensemble de cette présentation.
A ] Les fonctions lexicales de dérivation sémantique.
Ces fonctions lexicales sont au cur des mécanismes de paraphrase du DEC. Elles font directement référence à la notion de régime de construction : ces fonctions renseignent soit sur certaines valeurs prises par un actant i soit sur les dérivations sémantiques de largument de la fonction lui-même (noté actant 0).
La notion de dérivation sémantique est plus large que la notion courante de dérivation morphologique : dans la dérivation sémantique, la racine de largument peut être changée.
Considérons S1(acheter sens X) qui est la valeur prise par tout de sujet de acheter sens X. S1(acheter sens X)=acheteur.
Dans ce cas, il y a identité entre dérivation morphologique et dérivation sémantique.
Considérons S2(acheter sens X) qui est la valeur prise par tout complément dobjet de acheter sens X.
S2(acheter sens X)={achat, marchandise, service}.
Dans ce cas, la dérivation morphologique est incapable de retourner les différentes dérivations sémantiques.
Considérons S3(acheter sens X) qui est la valeur prise par tout complément dagent de acheter sens X.
S3(acheter sens X)={vendeur}.
En général, le complément dagent S3, nest pas un dérivé morphologique du mot clé.
Le dictionnaire enregistre les dérivations sémantiques valables pour un mot-sens donné plutôt que les dérivations morphologiques valables pour une racine donnée.
Le dictionnaire adopte précisément cette règle.
Il convient de voir maintenant les différents cas de dérivation sémantique et la manière dont elles sont prises en charge par le Dictionnaire Intégral. Le DEC envisage deux cas essentiels de dérivation sémantique. Une première série considère des dérivations qui aboutissent à des paraphrases qui ne changent pas la structure sémantico-communicative de lénoncé. Cest le cas par exemple de forêt gabonaise avec forêt du Gabon. Dautres aboutissent pour une même énonciation de rapports entre des objets (paraphrases) à une modification de la structure sémantico-communicative. Cest le cas par exemple avec Jacques en colère est dangereux et la colère de Jacques fait que Jacques devient dangereux.
A1 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases conservant la structure sémantico-discursive.
Le dictionnaire fournit les données de la transformation entre une proposition conjuguée et sa nominalisation.
La fonction lexicale associée du DEC est S0. Cette fonction retourne un nom pour un verbe-sens donné en argument.
S0(acheter X) = achat (Y), S0(éclipser X) = éclipse 1, S0(séclipser X) = éclipse 1.
Cela permet la transformation :
Pierre achète un uf ( lachat de Pierre est un uf.
Le Dictionnaire Intégral adopte une règle légèrement plus détaillée que le DEC sur ce point : il propose une différence entre action, fait ou résultat.
Action(bleuir X, Verbe transitif) = bleuissement.
Fait(bleuir, Verbe intransitif) = bleuissement.
Résultat(bleuir, Verbe) = bleuissement.
Ces distinctions peuvent parfois être déduites du type de verbe et aboutissent souvent à un même nom. Ce nest pas toujours le cas :
ActionRésultat(tortiller, Verbe transitif) = {tortillement, tortillage}
Résultat(tortiller, Verbe transitif) = tortillon
FaitRésultat(tortiller, Verbe pron) = {tortillement, tortillage}
Dans cet exemple, la fonction Résultat retourne une valeur qui ne peut être ni une action ni un fait.
Le dictionnaire fournit les données de la transformation entre une nominalisation et une proposition conjuguée.
La fonction lexicale associée du DEC est V0. Cette fonction retourne un verbe pour un nom-sens donné en argument.
V0(promesse X) = promettre (Y), V0(achat X) = acheter (Y).
Le Dictionnaire Intégral adopte cette règle en donnant laccès aux fonctions réciproques des trois fonctions précédentes.
Le dictionnaire fournit les données de la transformation entre un emploi nominal et son adjectivation.
La fonction lexicale associée du DEC est A0. Cette fonction retourne un adjectif pour un nom-sens donné en argument.
A0(école X) = scolaire (Y)
Ex : cahier décole ( cahier scolaire, région Île de France ( région francilienne
Pour une même raison que dans le cas précédent, le Dictionnaire Intégral adopte une règle légèrement plus détaillée que le DEC : le dictionnaire connaît une différence entre relatif à, qui appartient à, qui est propre à, qui a lieu à, qui contient de.
Le dictionnaire fournit les données de la transformation entre construction dadjectifs et construction dadverbes.
La fonction lexicale associée du DEC est ADV0. Cette fonction retourne un adverbe pour un adjectif-sens donné en argument.
ADV0(honnête X) = honnêtement (Y)
Le Dictionnaire Intégral adopte cette règle sous la forme DuneFaçon(A)=ADV.
DuneFaçon(judicieux X) = judicieusement (Y)
A2 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases modifiant la structure sémantico-discursive.
Dans ces paraphrases, les objets qui composent la situation et leur relation entre eux sont présentés selon une organisation discursive nouvelle. Il y a modification de lorganisation discursive quand au sein dun syntagme ou dune proposition la tête du syntagme ou de la proposition sont changés (sans modification des rapports entre les objets présentés).
Le sanglier en rut est dangereux ( le rut rend le sanglier dangereux.
Le dictionnaire fournit la forme adjectivale du mot clé qui permet à un actant i du mot clé de prendre la position de tête du groupe nominal dont le mot clé était la tête.
Le DEC prévoit trois fonctions lexicales différentes : Ai, Ablei, Quali.
Les modificateurs typiques pour le ie actant du mot clé : Ai
A1(mépris 1)=plein, rempli [de mépris 1]
A2(mépris 1)= couvert [de mépris 1]
Soit le mépris de Jacques pour Pierre. A1(mépris) permet :
Jacques rempli de mépris pour Pierre
Et A2(mépris) permet :
Pierre couvert de mépris par Pierre, Pierre couvert du mépris de Jacques.
Le Dictionnaire Intégral reproduit mal cette règle. Mais il nous semble que souvent les phénomènes concernés peuvent être décrits en terme de règle de transformation syntaxique qui sappuieraient sur des informations non spécifiques à ces cas. Par exemple, pour éclipse, le DEC note :
A1(éclipse) = en [~], avec C2=vide.
Léclipse du soleil ( le soleil en éclipse.
Posons GN1=éclipse et GN2=soleil. Considérant que éclipse = S0(séclipser), il serait intéressant de vérifier si une transformation de GN1 de GN2 en GN2 en GN1 nest pas vraie pour tout GN1 = S0(V ayant pour COD le sujet) et tel que GN1 est un état de GN2.
Revenons à lexemple mépris. Mépris est un dérivé dun verbe qui précise un état du sujet relativement à quelque chose dextérieur au sujet. Une telle définition est aussi valable pour des verbes comme haïr, aimer, adorer, idolâtrer
Nous observons que leurs substantifs haine, amour, adoration,
supportent les mêmes transformations que celles proposées pour mépris. Aussi, il nous semble que ces transformations sont plutôt des propriétés de champs syntaxico-sémantiques particuliers.
Adjectif, tel quil peut, tel quon peut le ... : Able1
Able1(peur) = peureux permet la transformation de la peur de Jacques en Jacques, peureux
Able2(peur) = effrayant permet la transformation de la peur de Jacques pour les araignées en les araignées effrayantes pour Jacques.
Pour ces deux Able, et ces deux exemples nous avons retenu :
Relation N-->N : qui contient de (pour peureux ( peur)
Relation Adj-->N : qui cause de (pour effrayant ( peur)
Relation Adj-->V : qui V (pour effrayant ( effrayer)
Ces relations permettent dapprocher les résultats obtenus par le DEC.
Adjectif, tel quil entraîne Ablei avec une haute probabilité : Quali
Qual1(tromper) = malhonnête, un avocat malhonnête qui trompait...
Qual2(tromper) = naïf, un avocat qui trompait un client naïf...
Le Dictionnaire Intégral trouvera le plus souvent un lien entre les mots mis en relation par cette fonction lexicale. Pour les exemples cités, des co-activations se retrouvent aisément entre tromper et malhonnête dune part et entre tromper et naïf dautre part. Mais ce lien nest pas encore associé au régime du mot clé et donc ne peut pas être utilisé pour effectuer les opérations de paraphrase prévues ici par le DEC.
Le dictionnaire fournit la forme adverbiale du mot clé qui permet à un actant i du mot clé de prendre la position de tête de la proposition dont le mot clé était la tête.
Adverbe, adverbe typique du ie actant : Advi
Adv1(joie) = avec [joie]
La nouvelle a causé une grande joie à Marie ( Marie a pris la nouvelle avec joie.
De même, ces fonctions semblent très dépendantes de la nature syntaxico-sémantique de certains noms comme joie, chagrin, tristesse
Quelques cas isolés sont enregistrés dans le Dictionnaire Intégral.
Le dictionnaire fournit les noms typiques des i actants du mot clé.
Noms typiques pour le ie actant du mot clé : Si.
S1(crime) = criminel
S2(crime) = victime [du crime]
S1(acheter) = acheteur
S2(acheter) = marchandise
S3(acheter) = vendeur
S4(acheter) = prix
Pierre a pour profession dacheter du bois exotique ( Pierre est acheteur de bois exotique.
Le Dictionnaire Intégral prévoit :
acheteur ( personne qui V(acheter)
marchandise ( ce qui est V(acheter)
vendeur ( personne qui V(vendre)
Le DEC fournit les noms typiques des circonstants du mot clé
Ces fonctions sont essentiellement Sinstr, Sloc, Smod, Sres ().
Nom typique pour le circonstant de linstrument : Sinstr
Sinstr(peindre)=pinceau, brosse, Sinstr(raboter)=rabot
Nom typique pour le circonstant de linstrument du lieu : Sloc
Sloc(lutter)=arène [de la lutte], Sloc(bataille)=champ [de bataille]
Nom typique pour le circonstant de linstrument du mode : Smod
Smod(écriture)=écriture, Smod(marcher)=démarche
Nom typique pour le circonstant de linstrument du résultat : Sres
Sres(copier)=copie
Nous ne retenons pas ces propositions pour le Dictionnaire Intégral sous la forme proposée qui nous paraît souvent soit en redondance dune autre fonction soit dinterprétation ambiguë. Le Dictionnaire Intégral utilise néanmoins certaines de ces relations.
Sinstr est reproduit par une relation qui indique que le générique du verbe clé associé spécifié par une relation instrumentale à un instrument retourne ce verbe clé : GenV+CCmoyen
GenV+CCmoyen (raboter)=rabot ; par ex. {user, lisser
} au moyen dun rabot = raboter
Sloc, Smod et Sres sont généralement reproduits par lorganisation générale du Dictionnaire Intégral qui permet à partir dun terme générique comme lieu associé à un spécifieur comme lutter dobtenir les spécifiques pertinents :
Spec(lieu / lutte) = arène ; Spec(manière / marcher) = démarche ; Spec (résultat / copier) = copie
Quand, premièrement, le verbe na quune valeur possible en terme de lieu, manière ou de résultat, et que, deuxièmement, le verbe est défini par ce complément (cest le cas avec raboter), les relations GenV+CClieu et GenV+CCmanière peuvent être utilisées pour modéliser le sens du verbe.
B] Les fonctions lexicales verbales.
Le dictionnaire retourne le verbe support de lactant i du mot clé.
Le DEC prévoit des fonctions lexicales qui retournent des verbes neutres sur le plan sémantique. Il sagit des fonctions lexicales Operi, Funci et Laborij. Dautres fonctions retournent des verbes avec un apport sémantique. Ces fonctions sont : Reali, Facti et Labrealij.
B1] Les fonctions lexicales verbales sans apport sémantique.
Verbe sémantiquement vide qui prend comme sujet le pronom impersonnel il ou lun des actants du mot clé et le mot clé comme son complément dobjet principal : Operi
Oper0(vent) = faire [du vent]
Oper1(conseil) = donner ; Oper3(conseil) = recevoir
Oper1(examen) = faire passer ; Oper2(examen) = subir avec examen par qqn (actant 1) de qqn (actant 2) en qqch (actant 3).
Oper1(attention) = faire ; Oper2(attention) = attirer avec attention à qqch (actant 1) et attention de qqn (actant 2)
Le Dictionnaire Intégral connaît et reconnaît faire du vent et faire attention comme locution verbale. Pour ces locutions, comme membre dune expression, faire est bien un verbe vide. Mais les autres exemples posent problème. Considérons par exemple Oper1(conseil) = donner. Dans cet exemple, le premier actant de conseil est conseilleur. Un conseilleur donne : il ne nous semble pas que donner soit vide. De plus, prodiguer serait aussi un bel exemple de collocation de conseil dans un français soutenu.
Verbe sémantiquement vide qui prend le mot clé comme son sujet grammatical et un de ses actants (sil y en a) comme son complément dobjet principal : Funci.
Func0(pluie ) = tomber
Func1(examen) = être effectué ; Func2(examen) = être passé avec examen par qqn (actant 1) de qqch (actant 2) en qqch (actant 3).
Func2(liste) = contenir, comprendre, avec actant 1 = Adjectif et actant2 = de GN : la liste rouge des abonnés ( la liste rouge comprend des abonnés
Si Funci représente une locution figée, le Dictionnaire Intégral fournit Funci. Dune façon générale, le terme de mot vide nous pose problème. Il faut se demander en quoi contenir dans la liste contient des adresses est un mot vide. Est-ce parce que dune part, lon peut construire une phrase assez voisine comme une liste dadresses où de serait considéré comme un mot vide et que, dautre part, une relation de contenant à contenu existe déjà dans le mot liste ?
Prenons aussi lexemple de Func0(pluie ) = tomber. Melcuk (1992, p. 120) note pour cet exemple quen russe la pluie ne tombe pas mais va ou marche. Nous admettons parfaitement cette remarque pour ce quelle a de savoureux dans la comparaison du russe et du français. De plus, la remarque montre clairement que lexpression des actions particulières à la pluie ne sont éventuellement ni triviales ni prédictibles dans une langue donnée. Mais cela ninduit pas la notion de verbe vide (dans lopération texte(sens). Au contraire, considérant que la pluie agit sur un plan ontologique, lexemple montre que pour traduire cette action en langue, un dictionnaire ontologique ne peut pas manquer de traiter ce fait de langue si particulier. Dans une liste reportant les verbes daction de la pluie, le français pourra placer tomber et le russe aller ou marcher. De plus, le français pourra toujours reprendre le tomber ordinaire (Jean tombe) du français, car assurément la pluie ne monte pas, elle descend, et évidemment va.
verbe sémantiquement vide qui prend le nom de lactant i comme son sujet grammatical, le nom de lactant j comme son complément dobjet principal et le mot clé comme son deuxième complément dobjet : Laborij
Labor12(horreur) = avoir en [horreur], avec actant 1 = de GN et actant 2 = pour qqch : lhorreur de Marie pour les araignées ( Marie a en horreur les araignées.
Le dictionnaire reconnaît lexpression avoir en horreur. Le dictionnaire prévoit denregistrer un lien entre horreur et avoir en horreur sous la forme dune nominalisation particulière.
B2] Les fonctions lexicales verbales avec apport sémantique.
Verbe ayant le sens réaliser qui prend le mot clé C0 comme son complément dobjet principal et le nom du ie actant de C0 comme son sujet grammatical : Reali
Real2(examen) = réussir avec examen par qqn (actant 1) de qqch (actant 2) en qqch (actant 3).
Real1(piège) = tendre ; Real2(piège) = tomber avec de qqn (actant 1) à qqn (actant 2).
Real1(problème)=résoudre avec de qqn (actant 1) en qqch (actant 2)
Par inférence, les isotopies du Dictionnaire Intégral permettent de déterminer des liens (sans les justifier) entre le mot clé et le verbe pointé. Cependant le dictionnaire ne permet dobtenir ces verbes et donc ne permet denvisager ces transformations.
Verbe ayant le sens réaliser qui prend les deux actants de la situation comme son sujet grammatical et son complément dobjet principal, et le mot clé C0 comme son deuxième complément dobjet : Labrealij
Labreal12(ordre)=contraindre [par un ordre] avec de qqn (actant 1) à qqn (actant 2) : Lordre du maton aux prisonniers ( le maton contraint les prisonniers par un ordre.
Même remarques concernant le Dictionnaire Intégral.
Verbe ayant le sens se réaliser qui prend le mot clé C0 comme son sujet grammatical principal et le nom du ie actant de C0 (si C0 a un actant) comme son complément dobjet principal : Facti
Fact0(soupçon) = se confirmer
AntiFact1(mémoire) = trahir, Fact2(mémoire) = garder, retenir avec mémoire de qqn (actant 1) en qqch (actant 2)
Même remarques concernant le Dictionnaire Intégral.
Concluons sur lensemble des fonctions lexicales verbales. A lissue de cette présentation, nous pouvons observer quelques conséquences sur lanalyse dune même entrée lexicale de deux conceptions et de deux objectifs initiaux différents. Comme nous lavons dit lors de la présentation du DEC, la théorie sens(texte a pour objet de générer toutes les expressions possibles dun sens. Dans cette théorie, le sens est donné au départ. Poser contextuellement la vacuité de tomber et de contenir dans certains régimes de pluie et de liste (Func0(pluie ) = tomber et Func2(liste) = contenir), cest rendre possible certaines générations de paraphrases contenant pluie et liste où lon voit que le mot clé est si vide quil finit par disparaître :
Pendant que la pluie tombe, révise tes leçons ( Pendant la pluie, révise tes leçons.
Donne-moi la liste qui contient les adresses ( Donne-moi la liste dadresses.
De notre côté, la perspective première est : texte(sens. Dans cette mesure, lattitude de base consiste à se méfier du mot vide, et même, souvent à essayer de détecter le vide pour le remplir de quelque chose qui pourra compléter la restitution de la signification :
Pendant la pluie : pluie est une chose qui tombe même si le texte ne le précise pas : Pendant que la pluie tombe
Donne-moi la liste dadresses( de : qui contient
En texte(sens, le but est davantage de faire réapparaître les mots vides que de les faire disparaître.
Plus largement encore, nous pouvons voir dans certains mots vides par rapport à un mot clé donné du DEC des traces possibles de quelque chose qui rend compte dune situation tellement évidente pour nous que léconomie de son énonciation est systématiquement permise. Or lévidence ou bon sens est certainement ce qui se prête le moins à la description.
Nous pouvons résumer le point en écrivant :
en effectuant lopération sens(texte, la génération de paraphrases na pas à justifier en sens (mais seulement en langue) les équivalences quelle établit entre les énoncés.
en effectuant lopération texte(sens, la restitution de signification na pas à justifier en langue (mais seulement en signification) les représentations quelle effectue de chaque énoncé.
de ces deux justifications symétriques naît le fait quun mot vide en langue soit plein en signification (contenir pour le de de liste) et le fait quun mot plein en langue puisse paraître vide en signification (voiture ou automobile dans voiture automobile).
Sur le plan méthodologique, le caractère micro-systémique (MelCuk 1992, p. 120) du DEC nous pose problème. En effet, les fonctions lexicales du DEC renvoient relativement peu de mots. Par exemple, alors que le DEC ne propose quun mot pour Real1(piège) (tendre), le Dictionnaire Intégral donne :
tendre ( \disposer des éléments en les combinant (Liste de V)
tendre ( \piège (termes liés).
Cette représentation permet par inférence détablir un lien entre tendre et la plupart des collocations typiques ou non typiques prévues par le Grand Robert : piège, collet, embûche, embuscade, souricière, appât...), sans avoir préalablement rédigé les articles collet, embûche, embuscade, souricière, appât. Cet avantage du Dictionnaire Intégral sur le DEC est dû à son organisation non micro-systémique. Mais les représentations du DEC présentent lavantage fonctionnel de permettre didentifier des paraphrases.
C] La synonymie
Nous avons regroupé dans cette section deux cas de synonymie. Le premier cas est le cas courant où lapplication de la fonction lexicale nimplique aucun déplacement des actants. Nous regroupons les fonctions Syn et Anti dans cette catégorie. Le deuxième cas envisage la synonymie avec permutation des actants. Il sagit de la fonction Conv.
Le dictionnaire retourne les synonymes du mot clé.
C1] La synonymie sans permutation dactants
Les synonymes et quasi-synonymes : Syn, Syn(, Syn(, Syn( (vide = exact, ( plus large, ( plus étroit, ( intersection de sens).
Syn(espoir)=espérance, Syn(espérance)=espoir
Deux termes reliés par la fonction lexicale Syn sont déclarés comme étant sémantiquement assez proches pour être substituables en contexte.
Nous acceptons cette règle mais nous la considérons comme insuffisante pour effectuer une opération texte(sens pour les raisons suivantes :
le critère de substituabilité ninduit aucunement que les termes en relation aient les mêmes corrélats. Comme lécrit Rastier (1995),
espérance, par exemple, convient mieux à des contextes religieux
Dans ces conditions, les mécanismes dactivation de réseau sémantique ne doivent pas être les mêmes dans lopération texte(sens.
la marque « exact » nest pas suffisante. Pour le traitement de la langue, et pour faciliter la lecture du dictionnaire, il convient de différencier la synonymie exacte bijective quels que soient les sens (i.e. identité) et la synonymie exacte bijective pour certains sens.
la marque « ( » nest pas suffisante non plus : il ny a pas égalité entre A et SYN((A) mais seulement entre A et SYN((A) + (. La valeur de ( doit être formellement indiquée pour stipuler les conditions de la substitution.
réciproquement, la marque « ( » nest pas suffisante puisquil faudrait pouvoir stipuler la valeur des traits sémantiques soustraits.
enfin la marque « ( » nest pas suffisante puisquil faudrait pouvoir stipuler la valeur des traits sémantiques ajoutés et soustraits.
Nous verrons que pour prendre en compte ces remarques, le Dictionnaire Intégral utilise un réseau de concepts et considère différemment les relations mot-sens vers mots-sens et les relations mots vers concepts.
Les antonymes et quasi-antonymes: ANTI, ANTI(, ANTI(, ANTI( (vide = exact, ( plus large, ( plus étroit, ( intersection de sens)
Précisons avant den débattre la notion dantonymie retenue dans le DEC. Dans de nombreux dictionnaires, le relation dantonymie est fondée sur des critères psycholinguistiques. Par exemple, Miller (1998, p. 40) propose en illustrant WordNet : ANTI(homme) = femme et ANTI(femme) = homme. Il est clair que ces antonymies ne participent pas à une opération sens(texte. Or, le DEC ne reconnaît la relation dantonymie que si elle participe au processus de paraphrase :
Anti(échouer)=réussir, Anti(faux)=vrai, Anti(avoir raison)=avoir tort
cette démonstration est incorrecte ( cette démonstration nest pas correcte.
Nous avons adopté la même règle pour le Dictionnaire Intégral.
C2] La synonymie avec permutation dactants
Conversif, lexème qui dénote une relation converse de la relation exprimée par le mot clé de la fonction lexicale ; les indices montrent lordre des actants syntaxiques associés au conversif relativement à lordre de base du mot clé qui est toujours « 123 » : Convijkl
Conv21(être derrière) = être devant, Conv3214((Vendre 1.1)=acheter 1
Le Dictionnaire Intégral encode cette information.
D] Relations de collocations et termes privilégiés
Nous avons regroupé ici des fonctions lexicales qui rendent souvent compte dune cooccurrence au sein du syntagme.. La présentation distingue les collocations sémantiquement vides selon le DEC des autres collocations. Le dictionnaire retourne les collocations typiques du mot clé.
D1] Les collocations sémantiquement vides
Les fonctions qui retournent des collocations vides sont : Epit et Gener.
Adjectif standard sémantiquement vides : Epit
Epit(océan 1.1)=immense
Lexemple fourni par le DEC entraîne que océan a pour synonyme immense océan puisque immense a une signification nulle dans cette collocation.
Avant de donner le mode dapplication de cette règle, considérons les deux énoncés suivants et posons-nous la question de leur équivalence dans une logique sens(texte :
1Ulysse traversa limmense océan pour rejoindre PénélopeUlysse traversa locéan pour rejoindre Pénélope2Un immense océan de misèreun océan de misèreUlysse est un héros dont les exploits tiennent en partie dans ses longs voyages sur locéan. Sil est exact quau sens propre, et sur un plan ontologique, océan comporte un trait sémantique immense, vaste, cette isotopie dans lexemple 1 nous semble donner une situation nouvelle qui contribue à construire le caractère héroïque du personnage de lIliade. Pour cet emploi de océan, immense ne semble aucunement vide.
Pour le deuxième exemple, nous trouvons un emploi métaphorique de immense : grande étendue de. Dans cet exemple, immense ne nous semble pas plus vide (et même dans lopération sens(texte) que dans lexemple précédent puisquil faudra plutôt éviter de confondre
un océan de misère quéclaire un immense océan de foi
avec
un immense océan de misère quéclaire un océan de foi.
Finalement, pour ces deux emplois docéan, le Dictionnaire Intégral cherchera une représentation dabord ontologique, et considérera seulement quil existe des cooccurrences remarquables (en langue) entre océan et immense. En résumé de ce point, nous notons que le Dictionnaire Intégral nadopte pas la règle : une compréhension profonde est nécessaire pour rendre compte des contextes où immense serait seulement pléonastique. Cette compréhension nest pas fournie par une fonction lexicale isolée.
Mot générique dont la combinaison avec un dérivé syntaxique du mot clé est synonyme du mot clé : Gener.
Gener (colère) = sentiment [de colère], Gener (république) = état républicain
Dans loptique sens(texte, les énoncés
Depuis son service, Jacques éprouve un sentiment de colère chaque fois quil entend le bruit des bottes
et
Depuis son service, Jacques éprouve de la colère chaque fois quil entend le bruit des bottes
sont équivalents.
Le Dictionnaire Intégral nadopte pas cette règle. Par ce fait, sentiment est considéré comme un terme générique de colère sans aucune particularité remarquable. Cela nempêche pas le système de pouvoir générer colère depuis sentiment de colère comme il génère république depuis état républicain et donc de pouvoir effectuer une partie de lopération Gener. Il reste alors à vérifier si une opération de réduction nest pas possible depuis toute situation Générique+Spécifique(Générique). Si une réduction dartisan de potier en potier ou de poisson de gardon en gardon ne sont pas valables, cest que les énoncés à réduire ne sont pas valables : ils nobéissent pas à des constructions possibles du terme générique.
D2] Les collocations avec apports sémantiques
Les fonctions qui retournent des collocations avec apports sémantiques sont Magn, Posi., Bon, Germ, Centr, Culm, Figur, Degrad, Nocer, Involv, Obstr, Excess, Manif, ver, Result.
Mots exprimant à un degré élevé / à un degré faible: Magn, AntiMagn
Magn(mémoire) = prodigieuse, déléphant
AntiMagn(vent) = doux, faible, léger
Les formulations adjectives de beaucoup pour un degré et de peu pour un degré avec des adjectifs sont traitées à laide de la relation ou des ensembles adjectifs description de dans un rapport généralement accessoire (sauf si le terme ne peut marquer les traits beaucoup ou peu que pour un seul mot clé ou concept clé).
Expression employée comme expression standard de lévaluation positive du ie actant du mot clé : Posi.
Pos2(opinion) = favorable, AntiPos2(opinion) = défavorable
Pos2(critique) = favorable, élogieuse
Idem.
Mots employés comme une louange standard codifiée par la langue : Bon
Bon(compliment) = recherché, bien tourné
AntiBon (compliment) = maladroit
Bon(refuser) = poliment
AntiBon(refuser) = sèchement, V ( Concept_Ontologique(V) --> V ( Contexte1(V){accessoire ou nécessaire} .... --> V ( Contextei(V){accessoire ou nécessaire} .... --> V ( Contexten(V){accessoire ou nécessaire}.
Pour notre exemple IncepPredMinus(vent) = mollir, se calmer, nous aurons :
mollir : a pour catégorie VI, et construction V, domaine : marine
--> mollir ( devenir de moindre importance (Liste de Verbes) --> mollir ( verbes du vent {nécessaire}
et
--> se calmer ( devenir de moindre importance (Liste de Verbes) --> se calmer ( verbes du vent {accessoire}
Mais le modèle de notre dictionnaire nest pas toujours suffisant. Cest le cas avec S1Perf(sévader) = un évadé que nous ne pouvons reproduire pour le moment avec la précision du DEC.
I] Fonctions diverses
Termes dont lemploi co-occurrent est fréquent, et marque un contraste : Contr.
Contr (terre)=ciel
Par construction, les contrastes partagent de nombreux traits sémantiques. Ainsi le Dictionnaire Intégral reflète de nombreux contrastes sans toutefois les situer au niveau du terme (comme cest le cas pour le DEC) mais au niveau du concept.
J] Conclusions sur les rapports DEC / Dictionnaire Intégral
La théorie sens(texte propose un système cohérent de description des unités lexicales. Néanmoins labsence de toute référence aux classes lexicales dans le DEC permet de penser quune instanciation à grande échelle du modèle serait peu économique et difficile à réaliser. De son côté, la conception du Dictionnaire Intégral utilise le plus largement possible ces classes. Comme ces classes doivent exister préalablement à la définition des équivalents de fonction lexicale du DEC, le Dictionnaire Intégral présente ponctuellement un retard dans le formalisme des fonctions lexicales. Mais quand les classes préexistent, cest le cas par exemple pour lensemble des fonctions à valeur sémantique particulière, le travail dans le Dictionnaire Intégral est plus systématique.
Autres informations concernant USèm
La plupart des règles de description des USèm données ici sont formulées par le modèle GENELEX. Certaines de celles-ci se retrouvent dans dautres disciplines comme la norme ISO1087 sur la terminologie.
Les sens par défaut = signification que doit prendre une unité morphologique polysémique quand les calculs contextuels ne fournissent aucun résultat [G]
Cette situation se rencontre très souvent quand on effectue des calculs sur des textes non autonomes comme le renard est beau. La règle veut que pour ce contexte de renard une valeur sémantique par défaut soit donnée. Dans la règle, un marqueur Default est obligatoire pour toutes les unités polysémiques ou homonymiques.
En 1992, nous avons dabord retenu cette spécification et essayé de lappliquer au découpage en mots-sens de notre dictionnaire. Cependant, après près dune année deffort, il est apparu que quelles que soient les consignes ou conseils donnés (du type : si le renard est le titre dun « que sais-je? », de quel renard sagit-il vraisemblablement?), nous narrivions que rarement à nous mettre daccord sur la valeur de default. Finalement, cette règle est aujourdhui complètement abandonnée.
Pour chaque sens, quand il existe, il convient de fournir les niveaux de langue (nous prenons ce terme dans une acception un peu large) :
Figuré, par métaphore, Péjoratif, Vieux, familier, argotique, argot, argot scolaire terme publié au Journal Officiel., marque déposée français du Canada, français dAfrique anglicisme, rare, courant...
Nous avons repris intégralement cette règle. Chaque mot-sens peut avoir 1 à N niveaux de langue.
Pour chaque sens identifié, il convient de fournir les domaines demploi
Par domaine demploi, nous considérons communément des secteurs de lactivité humaine : aviation, astronomie, armement, ...didactique (pour la notion générale)... zoologie.
Cette règle est retenue quand le domaine fait figure de contrainte demploi. Le Dictionnaire Intégral comporte environ 400 marques de domaines, chaque mot pouvant avoir 1 à n domaines.
brouillard : document comptable (domaine : comptabilité/gestion) brouillard : phénomène atmosphérique (domaine : Null)
Pour chaque sens, il convient de fournir une définition
Dans le Dictionnaire Intégral, ce travail est fait au moyen de la décomposition sémantique. Cette décomposition permet généralement de retrouver le libellé de la définition du dictionnaire de langue.
Pour chaque sens, il convient de fournir un ou plusieurs exemples demploi.
Cela nest fait que dune façon exceptionnelle, pour des mots qui présentent des difficultés réelles.
Conclusion sur les règles de description contextuelles.
Nous avons montré que le Dictionnaire Intégral adopte la plupart des règles courantes de la description universaliste des unités linguistiques. Les formes dapplication de ces règles sont souvent très différentes de celles habituellement pratiquées. Comme le Dictionnaire Intégral repose sur une structure sémantique importante et préalable à toutes les descriptions, chaque règle est généralement considérée selon son impact sur la structure. Ainsi, en morphologie, nous avons considéré quil nest pas souhaitable de considérer comme autonome lunité morphologique par rapport à lunité sémantique. Concernant la dérivation morphologique, nous avons refusé son étude spécifique, considérant à linstar de la théorie sens(texte que la dérivation réellement utile est de type sémantique et sinscrit dans lorganisation sémantique du dictionnaire. Mais le modèle sens(texte étudie les unités lexicales sans simposer une référence à une superstructure sémantique préalable. Cette liberté permet au modèle sens(texte de créer à lenvie un grand nombre de fonctions lexicales. Nous suivons avec difficulté le rythme de cette créativité du fait des contraintes importantes qui résultent de la maintenance dune structure générale dont on veut conserver lorganisation homogène. Il reste que la référence aux progrès analytiques du modèle sens(texte est importante dans la mesure où nous souhaitons rapprocher encore les deux modèles pour disposer à terme des données des opérations texte(sens et sens(texte les plus précises possibles.
Comparaison quantitative de WordNet puis de EuroWordNet et du Dictionnaire Intégral
WordNet et le Dictionnaire Intégral
Dans son article Incomparabilité des dictionnaires, Dubois (1990) note :
Affirmer que les dictionnaires de même dimension sont fondamentalement identiques moyennant quelques différences de détail, est une banalité courante (...) et pourtant cette affirmation est radicalement fausse. Cette erreur relève dune méconnaissance de la lexicographie (...).
Dans le cas du Dictionnaire Intégral et de Wordnet, les bases de la comparaison ne sont bien évidemment pas données sauf, naturellement, en risquant quelques hypothèses fortes.
Les difficultés majeures dune comparaison Dictionnaire Intégral / (Euro)Wordnet tiennent dabord en la différence des langues. Cette difficulté peut être contournée par la finalité de la comparaison : notre comparaison est surtout quantitative. Mais la comparaison quantitative est rendue difficile par des structures de représentation totalement différentes. Nous mettrons en uvre des procédés de projection pour pallier cette difficulté.
Comme la finalité de la comparaison est dexpliciter le contenu du Dictionnaire Intégral à partir du contenu réputé connu et largement décrit (Fellbaum 1998) de WordNet, nous partirons toujours dune mesure (notée M) connue de (Euro)WordNet puis nous chercherons à construire une mesure similaire, pour la même variable, dans le Dictionnaire Intégral.
Le dénombrement des nuds
Le nombre dunités morphologiques : NUm1
On obtient ce nombre par projection des unités sémantique sur les seules chaînes de caractère. Cette mesure retourne donc le nombre de mots de chaque dictionnaire (et non le nombre de mots-sens).
NUm1(WN) = 119.216NUm1(DI) = 146.238
Cet écart important est essentiellement dû au fait que le DI comporte énormément de toponymes par rapport à WN (voir mesure 2).
Nombre dunités hors toponymes et anthroponymes : NUm2
NUm2(WN) ( 105.000*NUm2(DI) = 94.434
Longueur moyenne en caractères des unités morphologiques : LNUm
LNUm(WN) = 11,33LNUm(DI) = 11,48
Ce chiffre voisin de 11 caractères est une propriété de tous les dictionnaires à large couverture quand la mesure se base (comme ici) non sur les mots pris isolément mais sur lensemble des unités morphologiques simples et sur les unités morphologiques composées.
Nombre de mots-sens (avec les noms propres) : NMs1
NMs1(WN) = 168.135NMs1(DI) = 188.442
Nombre de mots-sens (sans les noms propres) : NMs2
NMs2(WN) ( 154.000NMs2(DI) = 132.899
Nombre de mots-sens par unité : Ms/Num
Avec les noms propres :
Ms/Num1(WN) = 1,41Ms/Num1(DI) = 1,28
Sans les noms propres :Ms/Num2(WN) = 1,47Ms/Num2(DI) = 1,41
Nous notons que le nombre de mots-sens par unité morphologique de WordNet est sensiblement voisin de celui du Dictionnaire Intégral une fois que les noms propres sont décomptés. Il reste que WordNet présente un taux moyen dambiguïtés sémantiques basé sur les formes morphologiques du dictionnaire quil faut considérer comme plus élevé. En effet, comme nous lavons dit WordNet enregistre un sens par emploi consacré par lusage : il ny a pas de prise en compte ici dune éventuelle possibilité de factorisation des sens de mots polysémiques. Au contraire, dans le Dictionnaire Intégral, quand cela est possible, nous factorisons les sens dun polysème sous une même entrée avec des valeurs spécifiques pour chaque collocation. Par exemple, en français, abattre sens 1 est considéré comme polysémique. Ce sens comprend un noyau sémantique faire tomber. Quand le complément dobjet du verbe abattre est un avion ou une construction, il y a une destruction. Quand le complément dobjet du verbe abattre est un arbre, on coupe cet arbre. Cela donne dans le dictionnaire intégral la représentation :
abattre :
Sens 1 Abattre, VT, V+comp,V+comp+au moyen de+comp 1. \faire tomber (200 verbes) 1.1 \en détruisant (caractéristique, 10 mots), 1.1.1 \détruire un avion en vol (1 verbe) 1.1.2 \détruire, mettre à bas une construction (6 verbes) 1.2 \couper un arbre (6 verbes) 1.3 \couper une forêt (6 verbes)
Une représentation du verbe français abattre dans le formalisme de WordNet conduirait à la création de quatre sens différents :
Sens 1 Abattre, VT, \faire tomber qqch (synset)
Sens 2 Abattre, VT, \faire tomber un avion en le détruisant (synset)
Sens 3 Abattre, VT, \faire tomber une maison en la détruisant (synset)
Sens 4 Abattre, VT, \faire tomber un arbre en le coupant (synset)
Sur le plan du multilinguisme, lapproche Wordnet présente un avantage : les sens regroupés du Dictionnaire Intégral se prêtent souvent mal à la traduction. Mais au plan monolingue linconvénient est patent : Wordnet a une tendance a créer dune façon bien artificielle des sens (mais rappelons encore que les perspectives de Wordnet ne sont pas linguistiques). En définitive, indépendamment des critères déclatement des sens, nous pouvons penser que la couverture par Wordnet de la langue anglaise est comparable à la couverture par le Dictionnaire Intégral de la langue française.
Dénombrement des sens par catégories syntaxiques
Le tableau suivant résume les résultats de ce dénombrement.
Nombre dunités grammaticales par grandes catégories
WNDIAdjectifs et Satellite2874920302Adverbes62013513Affixe0409Alphabet067Chiffre ex : 2017Conjonction0305Déterminant0168Divers0227Noms10742484073Noms propres selon 10 cat.0 =235,00+140+116+52096+37,00+1820+790+196+17+31 55478Ponctuation019Phrases0546Préposition0635Pronom0311Symbole0166Verbe2576122206Total =SOMME(AUDESSUS) 168135 =SOMME(AUDESSUS) 188442Ce tableau montre que les résultats par grandes catégories sont globalement comparables. On peut noter que la catégorie Adverbe présente quelques insuffisances dans le Dictionnaire Intégral.
Dénombrement des relations de WordNet
Le nombre moyen de mots par synsets selon la relation Is-A : M/Sy
M/Sy(WN) = 1.83
Sur 91591 ensembles (synsets) de Wordnet, 45415 ensembles possèdent seulement un mot Is_A et 88843 ensembles comportent au plus 4 mots.
M/Sy(DI) = 8.65
Sur 21450 ensembles porteurs dune relation Is_A dans le Dictionnaire Intégral, 580 ensembles de ce type ne portent qu1 mot et 12% comportent plus de 20 mots.
La différence des statistiques montre que WordNet et le Dictionnaire Intégral ont des définitions complètement différentes de la relation Is_A. WordNet a pour structure première lensemble des synonymes ou synset. Les synsets de WordNet comportent (dans une relation Is_A) tous les mots qui partagent entièrement un même sens (cest-à-dire expriment complètement une même notion). Dans WordNet Is_A est le nom porté par la relation de synonymie (à une définition).
Le Dictionnaire Intégral a pour structure première le concept qui est une hypothèse de sème. Un concept ne constitue pas, en général, la définition dun mot (sauf dans des cas très particuliers où il existe une lexicalisation précise du sème). Ainsi, les concepts du Dictionnaire Intégral comportent des mots qui partagent partiellement un même sens : dans le Dictionnaire Intégral le nombre doccurrences de la relation Is_A dans un même concept est forcément élevé. Pour le Dictionnaire Intégral, Is_A est une relation dhyponymie.
Maintenant que nous avons fixé que la relation Is_A na pas la même signification dans les deux dictionnaires, est-il possible de comparer ces deux dictionnaires selon le calcul de WordNet qui donne le nombre moyen de relations Is_A par synset cest-à-dire le nombre moyen de mots qui ont exactement la même définition. Dans le Dictionnaire Intégral, la définition dun mot est donnée par lénumération de plusieurs concepts.
Notons Ci,j, le je concept dun mot-sens i. Considérons que ce mot a n concepts pères (1(j(n) immédiats (ou directs).
Le mot-sens i dans le Dictionnaire Intégral
Une définition du Dictionnaire Intégral est donnée par la concaténation de lénumération des concepts qui portent directement ce mot.
Définition (i) = Ci,1+
+Ci,j+
+Ci,n.
Nous avons calculé cette concaténation pour lensemble des mots-sens du Dictionnaire Intégral. En divisant le nombre obtenu de concaténations par le nombre de mots-sens nous obtenons un indicateur qui approche la valeur de WordNet :
Finalement, on obtient :
M/Sy(DI) = 2.13
Sur 88257 regroupements de concepts du Dictionnaire Intégral (quasi-synsets) tels quau moins lun deux soit porteur dune relation Is_A, 70412 regroupements ne portent quun mot et près de 5% comportent plus de 50 mots.
De tout cela on peut conclure, à gros traits, les faits suivants :
70412 regroupements avec un mot donnent au Dictionnaire Intégral un degré de différenciation des mots légèrement supérieur à celui de WordNet.
Mais, le Dictionnaire Intégral est très imprécis pour environ 7% de son vocabulaire : ces zones correspondent finalement à des Is_A non définitoires, à savoir les taxonomies (comme la zoologie) où les descriptions sont rarement données pour le moment.
Les autres relations
Nous avons observé dans le point M24 que la comparaison la plus banale que lon puisse faire, à savoir compter la relation Is_A, pose des problèmes importants quand deux dictionnaires nont pas une conception commune initiale.
Nous nous contenterons de noter ici les autres relations prévues par WordNet et dindiquer si elles possèdent un équivalent objectif dans le Dictionnaire Intégral.
La relation dhyponymie(WN) : 44.000 env.
Le Dictionnaire Intégral reconnaît ces types de relation.
La relation dantonymie :7.201
Wordnet considère antonyme « victoire et défaite », « homme et femme ». Le Dictionnaire Intégral ne reposant pas sur des mécanismes psycho-linguistiques accepte un peu moins dantonymes.
La méronymie(WN) : 366
Partie de(WN) : 5.693
Fait de(WN) : 11.471
Le Dictionnaire Intégral reconnaît ces types de relation.
Also see(WN) : 3.507
Derived from(WN) : 6.428
Idem.
Cause(WN) : 204
Idem.
Topologie générale
Le nombre total de synsets : NSy
NSy(WN) = 91.591
NSy(DI) = 88.257 env. (selon le mode de calcul de la mesure M24)
Le Nombre total de Relations directes : NtotR
NtotR(Wn)= 245.119 (maximum) Certaines relations considérées non symétriques (comme lantonymie) sont données deux fois
NtotR(DI)= 358.499 (exact) Toutes les relations sont symétriques
Les chiffres fournis ici peuvent être multipliés pas deux car nous notons toujours un arc orienté dun « fils » vers lun de ses « pères ». Or la plupart des relations décrites dans le Dictionnaire Intégral ont une signification dans les deux sens.
En nombre de relations, le Dictionnaire Intégral comprend près de 50% de relations en plus de Wordnet (du fait même de sa structure sémantique componentielle).
Profondeur moyenne : Pmoy
Pmoy(Wn)= 8
Pmoy(DI)= 13
Profondeur maximale : Pmax
Pmax(Wn)= 16 (sauf circularité)
Pmax(DI)= 35 (idem)
Nombre moyen de fils directs dun père : NmoyF (hors synset)
NmoyF(Wn)= 7,50
NmoyF(DI)= 6,49
Nombre moyen de pères directs dun fils : NmoyP
NmoyP(Wn)= 1,0
NmoyP(DI)= 2,2
WordNet est un arbre. Le Dictionnaire Intégral est graphe orienté (rappel).
Nombre maximal de pères directs dun fils : NmoyP
NmoyP(Wn)= 2
NmoyP(DI)= 34
Nombre moyens de concepts (directs et indirects) par mot-sens : NbMoyConc
Cette mesure donne le nombre moyen de concepts portant un mot-sens. Cette mesure peut être approchée par la profondeur moyenne PMoy élevée à la puissance nombre de pères moyens dun fils NmoyP :
NbMoyConc(Wn)= 81 = 8
NbMoyConc(DI)= 132,2 = 281
Dans le Dictionnaire Intégral, un mot est présent en moyenne dans 281 concepts.
EuroWordnet et le Dictionnaire Intégral.
Nous avons été partenaire du projet EuroWordNet (LE4-8328).
Pour réaliser la version française de WordNet, nous avons dabord communiqué à lUniversité dAvignon le format des données du Dictionnaire Intégral. En effet, ce format est très souple et nous disposons depuis de nombreuses années dun outil nommé Lexidiom qui est capable de gérer des graphes assez complexes avec une grande efficacité pour la personne qui lutilise.
INCORPORER Word.Picture.8
WordNet 1.5 vu par linterface LEXIDIOMUne comparaison profonde entre la structure de EuroWordnet et celle du Dictionnaire Intégral multilingue napporterait pas un nouvel éclairage à notre présentation du Dictionnaire Intégral. En terme de contenu, EuroWordnet est très proche de WordNet même si quelques nouveaux liens sont apparus, notamment au niveau de la topontologie et dans les descriptions multilingues qui ont fait apparaître les relations se traduit par et ont renforcé lemploi de la relation similar. Ce choix nest pas trop discutable puisque :
en général, on appelle un chat un chat
si daventure, dans une langue donnée, on dit littéralement les restaurants sont-ils fermés? pour jai faim, il sera tout indiqué de placer les restaurants sont-ils fermés? dans la case jai faim de la structure Wordnet de base (pour les synsets très référentiels qui sont nombreux à être dans ce cas dans WordNet).
Ce choix a été particulièrement suivi pour le français qui avait lavantage, dès le départ, de pouvoir bénéficier dune traduction automatique (et à corriger) denviron 20.000 synsets de WordNet. Cette traduction automatisée a été faite par nous à partir dune sélection denviron 40.000 couples de mots sélectionnés automatiquement dans le Dictionnaire Intégral.
Dans EuroWordNet, chaque représentant dune langue a eu à remplir de 20 à 25.000 synsets. En ce sens, le contrat EuroWordNet a été parfaitement rempli par lensemble des partenaires du projet.
Du côté du Dictionnaire Intégral, on trouve environ 40.000 mots-sens pour chacune des langues suivantes : lespagnol, lallemand, litalien et le portugais. Langlais comporte environ 65.000 mots-sens et nous savons déjà que le français renferme actuellement 185.000 mot-sens.
En conclusion de ce point, nous avons montré que WordNet rentre facilement dans le gestionnaire de dictionnaire du Dictionnaire Intégral (Lexidiom) et que la plupart des informations de WordNet sont contenues dans notre dictionnaire.
Les descriptions aprioriques du Dictionnaire Intégral
Les descriptions aprioriques (ou contextuelles) du Dictionnaire Intégral effectuent le rapprochement des mots-sens ayant des traits sémantiques partagés dune façon essentielle ou accessoire.
Nous présentons dans ce chapitre :
Les règles de construction du Dictionnaire Intégral
Ce qui ne peut pas encore être modélisé dans le Dictionnaire Intégral
Limplémentation informatique des données du Dictionnaire Intégral
Principes minimaux de construction du Dictionnaire Intégral
Nous traitons dabord : les principes minimaux de déclaration dun mot-sens, puis nous donnerons quelques idées concernant la création des concepts.
Les principes minimaux de modélisation des mots-sens
Nous traitons de cette question à partir de létude dun exemple précis : celui de la description sémantique dun renard (lanimal). Nous détaillons les différentes questions que lon doit se poser, puis, nous envisagerons quelques autres exemples.
Exposé général : lexemple de renard
La principale règle de conception est la suivante : en pensant au dictionnaire à lenvers, comment un individu assez compétent en français pourrait débuter la définition du motclé ?
Supposons que ce mot nait en français que les quatre significations suivantes (celles-ci sont prises dans le Grand Robert) :
1. Mammifère carnivore (Canidés) de la taille de certains chiens, au corps allongé, aux oreilles droites, à la tête triangulaire assez effilée, à la queue touffue, au pelage fourni.
2. Peau, fourrure du renard, apprêtée.
3. Fig. Personne fine et rusée*, subtile* (laccent étant mis soit sur la subtilité, lastuce, soit sur la malfaisance).
4. Fente, trou par où se perd leau dun canal, dun bassin.
Pour chaque sens de ce mot, nous devrons nous poser les questions :
Le mot-sens proposé par la source, ici le Grand Robert, est-il incontestable ?
Cette question générale se subdivise ainsi :
rend-il compte de la langue française depuis le XVIIIes ?
est-il autonome par rapport aux autres mots-sens fournis par la source ?
est-il autonome en terme dexpression figée ou semi-figée ?
Si (a) semble faux, vérifier avec une autre source puis décider de ne pas créer le mot, Si (b) semble faux, il vaut mieux dabord créer lautre mot-sens, Si (c) semble faux, envisager la conception dune locution ou dune expression semifigée.
Quels sont en langue les génériques pour un sens de renard (sil existe)?
Nous distinguerons ici les génériques ontologiques, linguistiques et fonctionnels. Notre définition du terme Générique ne recouvre ni les travaux du modèle sens(texte ni les relations de WordNet.
A] Les génériques ontologiques
Nous appelons générique1(X) les termes de la langue capables de débuter toutes les plus courtes définitions possibles de X (paraphrases définitionnelles minimales de X). Générique1(X) retourne les génériques immédiats de X. Génériquen(X) retourne tous les génériques de rang n de X.
Un même mot-sens peut avoir plusieurs génériques immédiats : dune part, le nombre de génériques dun mot-sens dépend du découpage en concept du dictionnaire, dautre part ce nombre dépend du nombre de dimensions en langue du mot étudié. Ainsi, un mot comme planche à voile (en tant que lobjet) a (au moins) deux dimensions : lune est lélément déquipement dun sport, lautre le matériau de cet équipement. Pour traiter ces cas, le dictionnaire doit prévoir lexistence de génériques dont la nature formelle est dêtre métonymique.
Ex. pour planche à voile :
équipement principal du surfeur
planche sur laquelle est dressée une voile servant à lactivité sportive nautique de windsurf.
Pour renard [1], nous ne retiendrons dabord quun seul générique immédiat : canidé, tous les Canidés étant des Mammifères carnivores, la proposition du Robert ne donne pas en premier le terme qui permet de fabriquer la plus courte définition possible.
Cela dit, il faut immédiatement vérifier que les génériques supérieurs (par exemple proposés par le Robert) sont connus du Dictionnaire. Ainsi, il faut suivre les deux chaînes de génériques :
mammifère, avec la question : mammifère est-il un générique de plus haut niveau déjà connu (ou non)?
carnivore, avec la question : lensemble de tous les canidés sont-ils carnivores?
La réponse à ces deux questions nous permettra de répondre à la troisième question suivante : mammifère carnivore doit-il devenir un mot de notre dictionnaire? Si le dictionnaire à lenvers est capable depuis \mammifère+\carnivore dextraire canidé, lintérêt de créer ce mot sera limité. Toutefois \mammifère carnivore pourra être créé : 1°) si la collocation en langue est jugée naturelle, 2°) si lapplication dun principe déconomie nous conduit à devoir rassembler en une même classe tous les animaux carnivores plutôt que de marquer individuellement le trait.
Enfin, ayant fait toutes ces opérations de vérification, il nous faut vérifier quun carnivore mange bien de la nourriture carnée dans notre dictionnaire pour avoir une chance de résoudre la question : mammifère mangeur de viande qui...
B] Les génériques linguistiques
Nous ne nous attarderons pas sur ces mots dont le statut nest jamais définitif, un peu comme un mot vide nest vide que dans une manière dobserver particulière. En français, le mot bureau semble un bel exemple de générique linguistique. Cidessus, planche nous semble en être un également. Il sagit de deux cas de métonymies qui nécessiteraient un sérieux investissement pour être traitées sur le plan ontologique. Il faut noter aussi quil y a un risque à vouloir tout faire entrer dans une ontologie a-linguistique : ce risque conduit précisément à tendre vers une ontologie de la langue, laquelle sera très difficile à réutiliser dans une autre langue.
C] Les génériques fonctionnels
De nombreux mots nont pas du tout de génériques ontologiques en langue. Nous avons abordé cette question à propos des 20.000 satellites de Wordnet. Mais ces mots doivent pouvoir être retrouvés par le dictionnaire à lenvers.
Par exemple,
sur doit pouvoir être retourné par préposition de lieu,
buccal doit pouvoir être retourné par relatif à la bouche,
vacuité doit pouvoir être retourné par caractère du vide
De la même façon que le Dictionnaire Intégral présente une racine ontologique pour son organisation ontologique, les fonctions lexicales et les fonctions grammaticales ont leur propre racine dans le dictionnaire. Tous les mots de ces racines ont au moins un ancêtre avec deux pères : lun va vers ces racines, lautre pointe sur le racine ontologique.
Existent-ils dautres traits caractérisant renard-canidé?
Curieusement le Grand Robert na pas donné le trait \sauvage (caractéristique) qui contribuerait à lopposer au chien domestique. Au contraire, le Robert renvoie le lecteur au chien, dune manière fort évasive : de la taille de certains chiens.
Les autres traits proposés ne sont guère plus concluants :
au corps allongé, que faire alors dun gros renard bien gras?
aux oreilles droites, que faire dun renard aux oreilles basses
à la tête triangulaire bien effilée, peut-être?...
à la queue touffue, non, pas à sa sortie dun bain
au pelage fourni, pas davantage.
En bref, de tout cela il ressort que : un renard est un canidé + les traits spécifiques des canidés + les traits caractéristiques nécessaires ou virtuelles des canidés, des mammifères (mode de reproduction), des animaux (manger, dormir, naître, fonctions vitales), il est carnivore, ...
De tout cela doit-on conclure que le renard ne pourrait avoir aucun trait qui le distingue du chien? Non. Avant de prolonger, introduisons la notion de caractère encyclopédique. Lensemble des éléments fournis par le Robert ont une nature encyclopédique (cest normal puisque larticle traite dun animal). Si nous savions coder en langue lensemble des traits proposés par le Robert, tous ces traits seraient retenus pour traiter de renard-canidé. Mais les groupes non lexicalisés comme au corps allongé nous posent problème (quelle est leur importance, quelles sont leurs paraphrases...). Sur laspect physique du renard, le Dictionnaire Intégral reste pour le moment bien en deçà du Robert. Alors, sil faut donner quelques caractères encyclopédiques, lesquels choisir? Ceux qui ont déjà une existence dans le Dictionnaire Intégral parce quils sont lexicalisés. Voici :
\animal sauvage (sauvage, caractéristique encyclopédique)
\gibier (sorte de, encyclopédique)
\agent de la rage (sorte de, encyclopédique)
...
Ces informations nouvelles, toutes sous la forme de classe (cest un hasard), nous fournissent au passage trois génériques immédiats virtuels supplémentaires pour renard-animal. Les génériques encyclopédiques permettent deffectuer des définitions nouvelles de renard en partant dune des métonymies du mot clé à décrire.
Mais nest-il aucune information qui puisse caractériser le renard et le différencier totalement du chien?
Étudions maintenant le monde spécifique du renard. Sil est seulement possible que le renard ait davantage de chances de glapir que le chien, il est une certitude que le renard vit dans une renardière, avec sa renarde et ses renardeaux, plus exactement, et en formulant la proposition dans le bon sens : il est impossible de définir renardière/abri, renarde/femelle, renardeau/petit sans établir de liens nécessaires, non accessoires, ontologiques avec renard. En langue, tout mot-sens défini par un trait sémantique nécessaire (ontologique) t contribue à déterminer dune façon univoque les sens des mots fondateurs du trait t. Dans notre exemple, le mot renardière est défini dune façon nécessaire par le mot renard. Ce lieu nécessaire peut être fort utile pour déterminer en contexte la signification de renard.
Melcuk se demande pourquoi la fonction lexicale Son Son(renard)=glapir devrait être accompagnée de sa forme réciproque Son-1. Il note :
Personne nirait chercher dans un dictionnaire le nom dun animal à partir de son cri.
Nous ne discutons pas ce point. Mais tout le monde utilise couramment Son-1 pour établir le sens dun texte, en effectuant des opérations de paraphrase. Prenons un exemple. Soit la fonction lexicale à valeur sémantique spécifique Monnaie. On écrit à la manière du DEC : Monnaie(Japon)=yen. Soit le titre dun article : le pays du yen. Ce titre ne peut-il pas être paraphrasé par le Japon et le yen? Cette paraphrase ne peut être obtenue que par la fonction réciproque Monnaie1(yen)=Japon.
Notre travail sur renard-canidé est-il achevé?
Il convient dabord de porter un jugement minimal sur ce qui a déjà été fait :
étant donné le contenu du réseau sémantique utilisé à linstant t, a-t-on bien profité de lensemble des possibilités descriptives du réseau (sans ajouter de concepts)?
renard-canidé comporte-t-il des marques qui pourraient limiter son emploi, à savoir :
type de construction en emploi non elliptique
marque de domaine : le mot ne prend-il ce sens que dans le contexte dune langue de spécialité particulière?
marque de figure : le mot ne prend-il ce sens quen consacrant une forme figurée, métaphorique, (...) inscrite dans lusage?
marque de registre de langue, à savoir :
rapport au temps : le mot-sens correspond- il à un emploi de lancienne langue, marque-t-il un effet de style archaïque (ou le contraire)...
rapport à lespace ou à une sous-communauté linguistique : en Belgique, en Français du Québec, en Français dAfrique...
rapport au style : littéraire, tournure soutenue, précieux, rare, vulgaire, populaire, familier...Ces marques permettent dévaluer celui qui sexprime...
le choix du mot-sens dénote-t-il une opinion du sujet sexprimant sur lobjet de son discours : péjoratif, affectueux, ...
Cet ensemble de marques reflète une pratique aujourdhui bien établie de la terminologie et de la lexicologie. Chaque marque est utilisée par le système sémantique automatique (donc universel) pour établir, à leur niveau, des isotopies entre elles, et pour certaines comme les domaines avec le jeu de concepts du graphe conceptuel.
Revenons maintenant à renard-canidé : du point de vue de ce qui a été dit, son sens estil limité à un contexte qui devrait le marquer tout particulièrement ? Non : le Dictionnaire Intégral nenregistrera aucune marque restrictive ici (ni plus quune marque de type : valeur par défaut).
Pour conclure sur renard-canidé, récapitulons les liens dans un schéma.
INCORPORER PowerPoint.Show.8
Le « mot-sens » renard-canidé dans le Dictionnaire IntégralCinq autres exemples
Du schéma ci-dessus et de sa comparaison avec le sens 1 de renard-canidé, il ressort que nous navons pas représenté les mêmes informations que le Grand-Robert. Est-ce à dire que nous rejetons la description (non linguistique à linstar de la nôtre) proposée par ce grand dictionnaire ? Aucunement : la raison est du ressort de nos moyens actuels. Le Dictionnaire Intégral ne peut enregistrer dinformations sémantiques que sil est capable de les générer et de les reconnaître. Or, nous ne sommes pas encore capables de déclarer des compléments déterminatifs introduits par à comme dans aux oreilles droites. Le concepteur du Dictionnaire doit toujours garder à lesprit que certains faits ne peuvent pas encore être décrits. Mais avant daborder cette question dans un deuxième point, analysons plutôt sept nouveaux exemples :
les autres sens de larticle renard
le mot bras dans le sens pièce allongée, horizontale...
un mot transversal gabonais
un verbe : pêcher
un mot abstrait, à la base de lontologie : le non-être
1°) Les autres sens de renard
Sens 2 : Peau, fourrure du renard, apprêtée.
Le mot-sens proposé par la source, ici le Grand Robert, est-il incontestable?
Oui, mais il faudra faire attention.
Elle portait un renard quelle avait acheté à Paris (non attesté). Les corpus confirment toutefois lintuition. Anatole France dans Les Dieux ont soif écrit : « Il revenait heureux de les avoir tous vendus, lorsque, sur la ci-devant place du Carroussel, une fille en pelisse de satin bleu bordée dhermine, qui courait en boitant, se jeta dans ses bras et le tint embrassé à la façon des suppliantes de tous les temps ».
Quels sont en langue les génériques pour le sens renard-fourrure (sils existent)?
Dans le Dictionnaire Intégral, peau a plusieurs sens. Lun deux est un générique de fourrure, dune façon accessoire.
Fourrure sera le seul générique direct de renard-fourrure.
Existent-ils dautres traits caractérisant renard-fourrure?
Un lien caractéristique entre renard-fourrure et \renard thème.
Mais nest-il aucune information qui puisse caractériser renard-fourrure et le différencier totalement des autres fourrures?
Il est déjà différencié par son lien avec \renard thème.
Notre travail sur renard-fourrure est-il achevé?
Non : bien que nous nayons pas noté la locution fourrure de renard car il sagit de quelque chose de non figé qui pourra facilement être analysé par ses constituants, nous ajoutons la marque de construction « ellipse ».
Fournissons les ancêtres de renard-fourrure sur 6 niveaux :
¦ M renard Nom M.S.;ellipse/cat=, Gén(N) de
¦ \fourrure de renard [\N] /cat=, Gén(N) de
¦ ¦ \renard [T Act|Réf] /cat, car
¦ ¦ ¦ \canin [T Act|Réf] /cat,T, ency.
¦ ¦ ¦ ¦ \mammifère terrestre [T Act|Réf] /cat,T, ency.
¦ ¦ ¦ ¦ ¦ \mammifère [T Act|Réf] /cat,T, ency.
¦ ¦ ¦ ¦ ¦ ¦ \représentants du règne animal [TT Suite...] /vers r
¦ ¦ \fourrure de gibier [\N] /cat=, encyclo
¦ ¦ ¦ \fourrure danimaux [\N] /cat=, Spéc(N) d
¦ ¦ ¦ ¦ \fourrure [\N] /cat=, Spéc(N) d
¦ ¦ ¦ ¦ ¦ \fourrure [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \poil [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \peau [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \les vêtements [TT Suite...] /cat,T,SUIT
¦ ¦ ¦ ¦ ¦ \peau (dépouille dun animal) [\N] /cat=, encyclo
¦ ¦ ¦ ¦ ¦ ¦ \cuir et peau danimal [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \mourir [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ \surface plane (horizontale, verticale, oblique) [caract. forme]
¦ ¦ ¦ ¦ ¦ ¦ \limite externe dun corps ou dun lieu [\N] /cat=, Spé
¦ ¦ ¦ ¦ ¦ ¦ \surface plane plus ou moins délimitée [\N] /cat=N, C
¦ ¦ ¦ ¦ ¦ \manteau de fourrure [\N] /cat=, encyclo
¦ ¦ ¦ ¦ ¦ ¦ \manteau [\N] /cat=, Spéc(N) d
¦ ¦ ¦ ¦ ¦ ¦ \vêtement de fourrure [\N] /cat=, Spéc(N) d
¦ ¦ ¦ ¦ \fourrure danimaux [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ \fourrure [T Act|Réf] /cat,T, ency.
¦ ¦ ¦ ¦ ¦ ¦ \poil [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \peau [T Act|Réf] /cat,T,ACTIV
¦ ¦ ¦ ¦ ¦ ¦ \les vêtements [TT Suite...] /cat,T,SUIT
¦ ¦ ¦ ¦ ¦ \activité de lhomme avec lanimal [TT Suite...] /cat
¦ ¦ ¦ ¦ ¦ ¦ \le règne animal [T Act|Réf] /cat,T,ACTIV
Sens 3 : Fig. Personne fine et rusée*, subtile* (laccent étant mis soit sur la subtilité, lastuce, soit sur la malfaisance).
Le mot-sens proposé par la source est-il incontestable?
Oui. On peut trouver énormément doccurrences dans notre corpus Bibliotexte. Par exemple,
Quand elle eut exprimé ses conjonctures à ce renard, il se mit à sourire, et voulut détourner les soupçons de la vieille fille. (Balzac, Le père Goriot).
Quels sont en langue les génériques pour le sens renard-personne (sil existent)?
Personne fine + personne habile + {encyclo : malfaisant, malhonnête).
Existent-ils dautres traits caractérisant renard-personne?
Étant donnés ses nombreux génériques, renard-personne sera certainement le seul de son espèce.
Mais nest-il aucune information qui puisse caractériser renard-personne et le différencier totalement des autres personnes de même sorte ?
Nous répondons non à cette question de contrôle.
Notre travail sur renard-personne est-il achevé?
Non : il faut ajouter la marque figuré malgré le nombre élevé de renard-personne dans les textes. La marque figuré nest pas une marque statistique et ne doit pas être utilisée comme telle. La preuve tient en une phrase : en toute bonne foi, le texte suivant comprend-il la moindre ambiguïté? Le renard mange et boit pour vivre et assurer sa reproduction. Nous ne ferons pas davantage de commentaires sur cette question ici.
Ci-dessous les pères de renard-personne sur seulement deux niveaux :
M 4 renard Nom M.S.;figuré
\personne habile [\N] /cat=, Spéc(N) d
¦ \personne humaine [\N suite...] /VersRacineFL
¦ \habile [caract.] /cat, car
\personne qui trompe [\N] /cat=, Spéc(N) d
¦ \tromper [T Act|Réf] /cat,T,ACTIV
¦ \personne humaine [\N suite...] /VersRacineFL
\personne maligne [\N new_class] /cat=, Spéc(N) d
¦ \malice [T Act|Réf] /cat,T,ACTIV
¦ \personne humaine [\N suite...] /VersRacineFL
\personne hypocrite [\N] /cat=, Spéc(N) d
¦ \hypocrisie [T Act|Réf] /cat,T,ACTIV
¦ \personne qui trompe [\N] /cat=, Spéc(N) d
¦ \personne humaine [\N suite...] /VersRacineFL
\personne utilisant un procédé pour réussir qqch [\N] /ca
¦ \personne humaine [\N suite...] /VersRacineFL
¦ \moyen pour parvenir à un résultat déterminé [T Act|Réf] > 3.
(4) : d((fleuriste, vendre+fleur) ( f(\vendre (thème), \fleur (thème))/2 ( (f(\vendre (thème)) + f(\fleur (thème)))/2 ( (2 + 2)/2 ( 2
En conclusion, par la proximité sémantique, vendeur est une bonne réponse à vendre et fleuriste est une bonne réponse à vendre+fleur. En prolongeant ces raisonnements, il est facile de vérifier que
d((fleuriste, vendeur) > d((vendeur, fleuriste) alors que d((vendeur, fleuriste)= d((fleuriste, vendeur)
Un fleuriste est un vendeur mais un vendeur nest pas un fleuriste : la proximité sémantique observe ce fait qui échappe à lactivation.
Les cas supplémentaires traités dans lalgorithme
Nous avons voulu montrer que plusieurs métriques différentes peuvent être mises en uvre, avec des objectifs spécifiques, pour calculer des indices de similarité sémantique. Mais lutilisation directe des procédés présentés ne suffit pas toujours puisque le Dictionnaire Intégral est un graphe bien plus complexe que celui de notre exemple.
Premièrement, il y a des problèmes liés à la mesure des PPPCNS qui donnent les éléments distinctifs aboutissant à un plus petit père commun non symétrique et connaissant une autre voie qui aboutit encore à un PPPCNS de taille supérieure. Si lon accepte le cumul de ces informations de différence, qui restent des différences vues de plus en plus loin, la composante symétrique de X ( Y peut navoir plus aucun poids. A linverse, il est risqué darrêter trop tôt le calcul des différences. Nous avons mis en uvre pour gérer ce problème un algorithme qui fonctionne dune façon plus itérative que celui que nous avons présenté ici. Il reste que la recherche dune solution simple ou plus simple de mesure de la proximité reste encore un objectif important : lalgorithme retenu pour le moment tombe à loccasion dans des situations où les PPPCS sont rendus opaques pour certaines agrégations de H ou de C.
Deuxièmement, toutes les relations dans le Dictionnaire Intégral ne disent pas la même chose. Certaines relations indiquent une possibilité plutôt quune obligation pour un élément dêtre en une place donnée. Limpact de ces relations est labandon de certains PPPCNS en contexte. Dautres relations indiquent quun trait est définitoire mais quil na aucune raison de se trouver dans un contexte particulier sauf si précisément on recherche un mot depuis lexpression dune définition (dans ce cas il est obligatoire). Pratiquement tous les traits saillants permettant détablir des différences dans des classifications sont comme cela. Encore dautres relations décrivent des changements de point de vue vers le plus large (on parle de fluctuations du yen avant daborder les problèmes du FMI), ou à linverse, vers le plus spécifique (on passe dune présentation des automobiles à une présentation des victimes de lautomobile...). Enfin, certaines relations sont très spécialisées et induisent des traitements très particuliers. Cest le cas par exemple des relations géographiques, des relations du dictionnaire des symboles, des relations de dérivations sémantiques et des relations conditionnées par une contrainte de fonction syntaxique. Toutes ces distinctions sont plutôt marquées dans le Dictionnaire Intégral, mais restent difficiles à utiliser dans un algorithme qui a tout intérêt à rester le plus simple possible.
Les paramètres dactivation et de proximité sémantique
Lalgorithme réel dactivation et de proximité sémantique traite de plusieurs cas particuliers tenant aux types de relation du Dictionnaire Intégral. Un paramètre important est la hauteur des segments selon le type de relation et selon la mesure effectuée (activation ou proximité sémantique).
Dune façon générale, lactivation a pour rôle de précéder, par la rapidité de son calcul, la proximité sémantique qui fournit des informations plus détaillées. Ce rôle fait que lactivation ne doit jamais être silencieuse. Ainsi, les paramètres dactivation retenus actuellement sont tels que les h dun nud comprennent presque tous les nuds antécédents du nud jusquà la racine, et un très faible coût pour les liens qui doivent atteindre les racines. Cest le cas par exemple des liens ontologiques et lexicaux de type spécifique / générique.
De leur côté, les paramètres de distance utilisés pour le calcul de proximité ont tendance à établir que tous les liens, en tant que traits sémantiques, ont des coûts a priori équivalents. Lobservation détaillée des chemins de la proximité sémantique associée à lénoncé permet de décider selon le contexte la valeur réelle de ces liens, en considération, par exemple, de linformation syntaxique extraite de lénoncé.
Résultats concrets de désambiguïsation sémantique
Nous voyons ici tous les exemples prévus en introduction de notre thèse. Pour effectuer cette présentation, et également pour compléter les informations communiquées dans les deux points précédents, nous détaillerons davantage le premier exemple : information sur le sens dun énoncé.
Pour cela, nous essaierons de comprendre pourquoi lactivation donne pour ce texte un résultat meilleur que la proximité sémantique pourtant bien plus fine dans son analyse. Ensuite, nous traiterons tous les autres exemples, au moyen de la fonction dactivation ou de la fonction de proximité sémantique.
Étude détaillée de « Information sur le sens dun énoncé »
Les deux fonctions dactivation et de proximité sémantique peuvent être utilisées dans une comparaison depuis un mot vers le restant dun texte. Afin dobtenir ce résultat, la phrase sémantique calcule dabord des agrégations H=Uhi et C=Uci, où i désigne le nombre de mots de la phrase.
Nous étudions dabord les propositions de désambiguïsation de lactivation, puis nous effectuerons les mêmes calculs avec la proximité sémantique.
A] La vision macroscopique de lactivation
Comme il est souvent le cas en matière de métrique, il est impossible de commenter un résultat sans que les échelles de la métrique utilisée soient données. Pour lactivation nous avons :
score minimal de lactivation : 1200 (meilleur score possible sauf en cas de quasiidentité)
score maximal de lactivation : 2000 (correspond à labsence totale de liens)
Selon que la comparaison est effectuée entre deux mots et plus de deux mots, les scores obtenus peuvent être interprétés différemment :
avec seulement deux mots-position (soit deux vecteurs de mot-sens), il ne faut pas accorder trop de fiabilité aux scores supérieurs à 1300.
avec plus de deux mots, des scores globaux de 1500 peuvent être considérés comme bons sil existe par ailleurs de bons scores individuels mot-position à mot-position (i.e. un écart-type élevé).
quand pour un même mot-position, on trouve des scores validés ( à plus --> à plus tard --> ?
Is Word-Sense disambiguation just one more NLP task ?
sémantique componentielle : sémantique fondée sur les sèmes.
De la société Memodata. Le Dictionnaire Intégral est une marque déposée.
Un signe linguistique défini nest pas exactement un mot-sens : le signe linguistique défini est fourni par lhumain, le mot-sens est déterminé par la machine.
Message Understanding Conference, une compétition dextraction dinformation organisée aux États-Unis à sept reprises de 1989 à nos jours.
WordNet qui a été développé à lUniversité de Princeton nappartient pas aux sources qui ont contribuées historiquement à définir lorganisation informatique de la base de données du Dictionnaire Intégral. Les deux projets ont débuté à des dates semblables (1985 pour WordNet, 1988 pour le Dictionnaire Intégral) a une époque où Internet nétait pas encore répandu.
Les travaux présentés ici ont été en partie financés par le Programme de Recherches Coordonnées « Informatique Linguistique » du ministère de la Recherche et de la Technologie.
GENELEX est un projet EUREKA (Project E! 524). Il a débuté le 01/09/1990. Il sest achevé 12/02/1996. Le financement du projet a été de 35,7 Meuro. Informations juridiques : www3.eureka.be. Il existe de nombreuses références sur Internet.
Access ou Paradox
Le terme de « racine » dans le Dictionnaire Intégral renvoie à son organisation en sous-dictionnaires. La racine la plus importante est la racine ontologique. On voit, avec un tel nom, que cette racine ne permettrait pas dintroduire dans la base une unité vide de sens. Il existe plusieurs autres racines comme la racine des symboles, la racine des syntagmes, la racine des fonctions lexicales
Co-occurrence dun même sème dans un texte.
Base BDLEX de lIRIT de Toulouse.
Reconnaisseur T2 pour reconnaisseur type 2. Les reconnaisseurs type 1 sont spécialisées dans la détection des UMC lexicalisées comme pomme de terre ou prendre pied
Arité : (terme de logique) nombre de termes dune proposition (RIVENC 1989)
Note ajoutée par nous pour faciliter la lecture de cet exemple.
Idem.
Cest le tableau des contraintes qui fixe cette contrainte.
dans (par GN), les parenthèses marquent le caractère optionnel de lélément.
La plupart des fonctions lexicales complexes et la fonction « Sympt » ne seront pas traitées ici parce que leur présentation indépendamment du régime des mots clés et de leur article complet enlèverait une grande partie de leur intérêt quun commentaire de notre part ne saurait rétablir.
Nous reproduisons ici "telles quelles" les définitions et exemples du DEC. Sur ce plan, des paraphrases seraient stériles. Les extraits choisis, la classification des fonctions lexicales et nos commentaires constituent notre seul ajout, lequel est déjà susceptible de trahir suffisamment la pensée des auteurs.
Si se rencontre souvent en combinaison dautres fonctions lexicales comme dans S1Perf(sévader) = un évadé).
Les indices des actants ne sont pas permutables ; les régimes du mot clé donne de son côté les possibilités de permutations en langue.
On pourrait ajouter Smed qui retourne le nom typique pour le circonstant de linstrument du moyen. Ex : Smed(peindre)=peinture.
Co-occurrence dun même sème dans un texte.
Dune façon générale, les éléments notés « \
» sont des éléments extraits du Dictionnaire Intégral : il sagit densembles de mots encore appelés concepts.
Comme son nom lindique, une liste de verbes comprend plusieurs verbes.
Co-occurrence dun même sème dans un texte.
Notons la synonymie avec FinFunc0(vent I.1)=se calmer qui se lit cesser (Fin)+verbe sémantiquement vide.
Nous appelons texte autonome un texte quil nest pas possible de désambiguïser du fait dun contexte insuffisant.
Wordnet est essentiellement un arbre et le Dictionnaire Intégral est un graphe orienté.
Les mesures données ici ont été effectuées à partir de requêtes ou de programmes spécifiques appliqués aux données de WordNet 1.5.
WordNet est abrégé en WN, EuroWordNet en EWN et le Dictionnaire Intégral en DI.
Remarquons que cette représentation de WordNet correspond à une linéarisation de larbre décrit par les numéros (1, 1.1, 1.1.1
) du Dictionnaire Intégral.
Satellite est une relation Wordnet qui regroupe des mots non reliés au graphe ontologique sauf par des liens de type « similar », « Derived from », i.e., non directement reliés par un lien « Is_a ».
Dans nombre de réseaux sémantiques, Is_A marque un lien dhyponymie : alezan Is_A cheval. Dans WordNet Is_A est définitoire : alezan Is_A cheval brun orange. Nous ne prendrons pas lexpression française de Is_A Est_Un qui serait tout autant polysémique.
Dans le projet européen EuroWordNet, les données françaises ont été modelées avec Lexidiom puis réexportées au format physique du logiciel du projet. Ce format, proche de celui de WordNet, est celui utilisé par le logiciel spécialisé PERISCOPE.
Les deux premiers de lontologie de EuroWordNet.
Nous ne traiterons pas ici des termes polysémiques.
Les génériques métonymiques sont une variété de générique ontologique qui connaissent des traitements thématiques particuliers.
Canidé est une autre sorte particulière de générique ontologique : le générique taxonomique. Ces génériques fixent les nomenclatures zoologiques, botaniques et minérales du Dictionnaire Intégral.
Co-occurrence dun même sème dans un texte.
Si toutes les marques données ici sont considérées comme restrictives, il existe des emplois tellement courants quon ne peut quadmettre que leur apparition puisse se faire en dehors de tout contexte marqué. Dans ce cas, la marque pourra être totalement absente (si, par exemple, elle nexplique rien dautre que lorigine aujourdhui oubliée de la formation du mot-sens), laissée comme telle si de toute façon le mot marqué na quun seul sens, ou enfin être surchargé dune marque « courant » pour inhiber les effets de la précédente restriction.
Les exemples fournis ici sont tous extraits de Bibliotexte((MEMODATA).
Aucun lien ne doit être effectué avec lanimal. Cela posé, si le renard est un des archétypes animaux de la ruse malicieuse (clause de vérité), et que nous estimons que cette information doit être prise en compte par le Dictionnaire Intégral, une racine SYMBOLE est dévolue à cet usage. Cette racine permet de modéliser la relation symbolique (non ontologique) (renard/animal-->symbole (ruse)). Ce simple lien permet de passer grâce à lisotopie ruse malicieuse de lanimal à la personne.
Dans le projet européen EuroWordNet, les données françaises ont été modelées avec Lexidiom puis réexportées au format physique du logiciel du projet. Ce format, proche de celui de WordNet, est celui utilisé par le logiciel spécialisé PERISCOPE.
Ce qui est utile dans le cas du dictionnaire à lenvers par exemple
Dune ontologie non linguistique.
"Larbre de droite" désigne lopposition intra-urbain/extra urbain.
Cest nous qui soulignons.
si lon peut faire lhypothèse que les phénomènes observés sont représentatifs de lensemble des phénomènes observables de même nature.
Mindnet construit automatiquement un réseau sémantique depuis un balayage des définitions dun dictionnaire.
Nous effectuerons une proposition sur leur insertion dans larchitecture sémantique actuelle en conclusion de la thèse.
GENELEX par exemple recommandait quelques dizaines dentités pour des règles fonctionnelles moins nombreuses.
La taille du dictionnaire et la diversité des données objets font sécrouler les SGBDOO : des tests répétés, avec 256 Mo de RAM, aboutissent à un chargement limité à seulement 25% du dictionnaire. Mais ce chapitre ne décrit que le modèle de données, qui est relationnel. Et non lexploitation de ce données qui se fait à travers un code objet.
Les propriétés de graphe du mot-sens ne sont pas traitées dans cette section.
Les termes de nud gauche et de nud droit seront vus dans le chapitre qui traite de la distance sémantique.
La relation a pour père sobtient depuis le fils. Il est toujours possible dobtenir la relation a pour fils depuis un père.
Ou Application Programming Interface.
Cette façon de procéder nest pas conforme à notre manière de voir la cinématique correcte de lapplication puisquil y a une possibilité de retour arrière. Cest pourquoi, nous ne présentons pas lexpert de découpage qui sera supprimé quand le matériel informatique supportera (en temps de calcul) que le découpage en phrase seffectue au niveau de lanalyseur syntaxique.
Signifie : le joueur qui est situé à lEst de la table de jeu enchérit à tort.
Les termes spécifiques et génériques sont préférés aux termes plus populaires dhyponymes et dhyperonymes. Dans notre terminologie, spécifique et générique constituent un regroupement dune dizaine de relations particulières comme Générique de fonction grammaticale (Ex : préposition de lieu) qui ne sont pas toutes des relations hyponyme / hyperonyme.
Dans la littérature anglaise, query expanding.
Voir la cinématique du modèle sens(texte dans Melcuk (1992) par exemple.
Aucune structure apriorique.
Fellbaum (1998) cite 3 ou 4 fois cet article. Par la suite Resnik a travaillé par apprentissage depuis des corpus limités à un domaine et sémantiquement annotés.
Par expérience, nous avons repéré que le travail dans les séquences Is_A de noms (prises isolément) est particulièrement hasardeux et nous ne conseillons pas trop cette voie, sauf dans des cas très particuliers quil faut bien sûr pouvoir gérer et repérer. Dans le Sémiographe, les « matchs » sur les concepts \classe est interdit en général, ou doit être justifié par dautres éléments du contexte comme une énumération, un lien générique/spécifique ou autre. Cette note est conforme à un théorème formulé par Platon dans le sophiste : « des noms tout seuls énoncés bout à bout ne font donc jamais un discours, pas plus que des verbes énoncés sans laccompagnement dun nom. »
Guide canadien de limpôt sur le revenu.
La similarité est donnée par les classements de WordNet.
Nous avons dit que la position de être - non -être à la racine de lontologie est fortuite. Cela nest pas entièrement vrai : être - non -être est à la racine de lontologie pour nous éviter toute tentation dune mesure de hauteur conceptuelle.
Un exemple aussi élémentaire que celui-là pose déjà le problème des règles de composition des traits et plus généralement celui de la compositionnalité. En terme de compositionnalité, on pourrait inventer dautres traits comme \rectangle qui ne contient rien ou rectangle qui contient un trait oblique.
Les relations pointillées seront considérées plus loin.
On arrive pour les deux différences à un même nud \racine du seul fait de la simplicité de lexemple.
Pour une introduction sur les graphes, nous renvoyons à Droeskeke (1987).
Dans la pratique, si un même nud a plusieurs fois un même antécédent selon deux chemins différents et avec deux coûts différents, lantécédent nest noté quune seule fois, avec le coût le plus faible.
C : complémentaire
Si lon ne considère pas le trait \personne dont linfluence est semblable pour vendeur et de fleuriste.
En réalité, nous faisons deux agrégations de c et h. La première, que nous navons pas décrite ici, contient tous les nuds et segments dun mot-position. Nous lappelons Uh ou Uc, selon les cas. Ces deux unions sont une propriété dun mot-position. Pour la phrase sémantique, nous définissons plutôt UUh et UUc, qui contiennent lensemble des nuds et segments que lon trouve dans les mots-positions de la phrase.
Pour évaluer la désambiguïsation sémantique, nous ne ferons pas ici de références au système de numérotation du Grand Robert car le Grand Robert nest pas « connu » du Sémiographe.
Nous avons choisi de traiter dabord lexemple information sur le sens dun énoncé car ce texte est constitué de termes plutôt polysémiques quhomonymiques : une grande partie de cette thèse a traité dinformations lexico-syntaxiques contenues dans le Dictionnaire Intégral et non encore pris en charge par le Sémiographe. Opérant sur cet exemple une analyse détaillée pour expliquer le fonctionnement général, nous espérons pouvoir aussi montrer que notre diagnostic en terme de descriptions nouvelles sera validé (en particulier pour le couplage syntaxe / sémantique). Les autres exemples, sensiblement plus simples (comme : elle porte un renard), pourront rassurer quant à la performance globale. Notons encore que le résultat obtenu sur les polysèmes dinformation sur le sens dun énoncé est co-dépendant du contexte fourni qui reste assez court : le contexte de notre thèse nest pas donné au moment de lanalyse : nous verrons cela en abordant la fonction de suivi thématique.
Le Dictionnaire Intégral connaît une clé longue pour les mots-sens. Cette clé est composée de la concaténation de trois informations : la langue (alphanumérique), un site de travail (alphanumérique) et un numéro. La clé courte qui ne comporte quun numéro est utilisée par le Sémiographe pour représenter dune façon économique les données en mémoire vive.
Il nest pas toujours possible, du fait des unions de h et de c, dobtenir des résultats symétriques.
Les thèmes actanciels marqués ne sont pas encore gérés par le Sémiographe même si le Dictionnaire Intégral en comporte plusieurs aujourdhui.
A propos de renard-trou, nous avions mentionné lexistence de traits non obligatoires. Pour renard-trou, il sagissait des traits \barrage, \digue ou \étang (un seul de ces trois traits devant être présent dans lénoncé mais aucunement les trois ensembles).
Ils sont figurés, métonymiques ou liés à un domaine.
Ce qui pose problème ici cest le niveau élevé de lisotopie manger par rapport à renard. A ce niveau, on peut trouver un grand nombre disotopies pour dautres sens de renard et dautres sens de manger parmi lesquels il nest pas toujours facile de choisir. Par contre, entre renard-animal et renard-personne, pour un même niveau de score, il est aussi toujours possible de choisir : renard-animal na pas besoin de contexte, renard-personne a besoin dun contexte.
Environ deux cent thèmes actanciels de proposition courante.
Il est normal que la somme des pourcentages soit supérieure à 100 puisquil arrive souvent que plusieurs approches puissent solutionner un même cas.
clitiques.
Selon la terminologie dAppelt car nous nutilisons jamais ce mot de compréhension.
raccord entre production et club de golfs dans production dun club de golf.
LAPI a pris en entrée des mots-sens supposés sélectionnés comme important dans un texte.
Dans le 3611, comme avocat donne la rubrique avocat du barreau et que acheter un avocat donne livre de droit alors manger un avocat donne la rubrique défense du consommateur.
Nous avons préféré utiliser ici la proximité sémantique. Dans cet exemple, aucune information extérieure au Dictionnaire Intégral nest utilisée.
Nous utilisons ici la proximité sémantique.
Selon que lon décrit la langue ou des éléments du monde.
Thème : isotope sans grammème.
Selon le de degré de différenciation sémantique retenu.
Emploi potentiel, virtuel et accessoire.
Le temps de dépouillement des données nous a fait limité le nombre dexemples de mots. Mais le système peut fonctionner sur les dizaines de milliers de mots décrits dans le Dictionnaire Intégral.
En recherchant de la bibliographie sur la WSD (désambiguïsation des mots-sens) nous navons trouvé aucune équipe qui travaillerait uniquement sur des données de larges couvertures conçues par elle-même.
Genelex a coûté 340 MF à la collectivité. On sait que CYC a reçu plusieurs millions de dollars de soutien. Les aides à WordNet furent également très importantes.
Balisage de la Rhetorical Structure Theory (RST) par exemple. Voir : http://www.sil.org/linguistics/RST/index.htm.
Texte extrait de Bibliotext, le corpus littéraire constitué par MEMODATA.
PAGE 6
PAGE 191
PAGE 192
PAGE 7
n,m
posséder
B
A
INCORPORER Word.Picture.8
INCORPORER MS_ClipArt_Gallery
LEXIDIOM
INCORPORER MS_ClipArt_Gallery
Données Texte(SensDonnées Sens(Texte
Dictionnaire intégral
Signification ( paraphrase ( actions
Ci,1
Ci,j
Ci,n
i
Nous trouvons différents types de relations.
Les marques densembles des concepts.
[\N] sont des classes de noms.
[T Act|Réf] sont thèmes actanciels et référentiels.
Dans les identifiants F signifie français, M : concept ou métalangage
Lindication C au début de larticle reproduit ci-contre signifie quil fait partie des 340 lemmes qui représentent 70% des occurrences de mot du français.
Gen
Syn
Rel
Spec
VT
VT
Rel
VT
VT
METALANGUE
VT
VT
Spec
Gen
Syn
Ellip
Ellip
LANGUE
A pour Père
TypeRel
Noeud
N°
Site
type
Libellé
CatégorieFonction
CatégorieGram
...
1.n
1.n
P1
paramètres de découpagede lexpert découpeur (non décrit ici)
Paramètres morpho-phonétiquesde lexpert forme (décrit ici)
P2
Autrecinématique
Règles et profondeur de lanalysede lexpert syntaxique (décrit ici)
P3
Opérations sémantiques de lexpert sémio (décrit chap. 7)
P4
des "poids" fournissent un indicateur sur la validité de chaque groupe.
Plus le "poids" est faible, plus le groupe est sûr.
Règles et profondeur de lanalysede lexpert syntaxique (décrit chap. 5)
P3
Opérations sémantiques de lexpert sémio (décrit ici)
P4
Qté=bcp
Minimum atteint pour cette BL.
récolte
G est la marque du descripteur (le générique) retenu pour cet exemple.
Des filtres syntaxiques sont utilisés pour ne retenir que les « bons » dérivés.
texte ( sens
Avec la mer du nord comme unique terrain vague et des vagues de dunes pour arrêter les vagues et de vagues rochers que les marées dépassent et qui ont à jamais le cur àmarée basse
Avec la mer du nord comme unique terrain vague et des vagues de dunes pour arrêter les vagues et de vagues rochers que les marées dépassent et qui ont à jamais le cur àmarée basse
LE SEMIOGRAPHE
style
qualités du style
mine
bcp
contenir
or
Qté=bcp
développer
récolte
sol
Deux chemins
Valeur=bcp
qui vaut
prix
vêtement