GRAPHES DE RELATIONS SÉMANTIQUES
Ugo Berni Canani
GRAPHES DE RELATIONS SÉMANTIQUES
29

Prenons un dictionnaire de synonymes extrêmement simple:

une liste de mots-entrées et pour chacun d’eux une liste d’équi-

valents possibles. Le dictionnaire est fermé, ou, si l’on préfère,

circulaire: seuls les mots-entrées, et aucun autre, peuvent appa-

raître dans les listes de synonymes. Même si un mot a plusieurs

acceptions, il n’apparaît qu’une seule fois comme entrée et les

termes de la liste qui lui est associée ne sont pas subdivisés en

groupes correspondant à ses différentes acceptions.

Il y a toutefois dans ce dictionnaire une distinction impli-

cite des sens que nous pouvons rendre explicite à travers une

traduction «géométrique». Nous pouvons, en effet, nous repré-

senter le dictionnaire comme un graphe, c’est-à-dire un ensemble

de points (sommets) et de lignes les reliant (arêtes), dans lequel

les sommets représentent les mots et les arêtes les rapports de

synonymie. Il y a au moins deux types de sous-graphes dans

lesquels il est possible de reconnaître des unités de sens.

Le premier est constitué par les composantes complètes ma-

ximales, les cliques. On appelle composante complète un sous-

graphe où chaque sommet est relié à tous les autres. Une com-

posante complète est maximale si elle n’est contenue dans aucune

autre; c’est-à-dire si aucun autre sommet du graphe n’est relié

à tous ceux qui lui appartiennent. Les cliques du dictionnaire

représentent des unités minimales de sens. En effet si deux termes

30

sont synonymes, ils ont en commun un sens X; si les deux ter-

mes sont synonymes d’un troisième, il est fort probable qu’ils le

soient au niveau de ce sens commun; si les trois termes synony-

mes sont tous synonymes d’un quatrième il est encore très pro-

bable qu’ils le soient au niveau de leur sens commun et ainsi

de suite, de sorte qu’il est assez naturel de considérer comme

unités élémentaires de sens les arêtes qui ne font partie d’aucun

triangle, les triangles qui ne sont pas compris dans des «carrés»

munis des deux diagonales, etc.... en un mot les cliques du

graphe.

Ainsi peut-on attribuer à chaque entrée du dictionnaire

autant de sens élémentaires que de cliques auxquelles elle appar-

tient. Celles-ci ne sont pas nécessairement disjointes: deux cli-

ques peuvent avoir en commun un ou plusieurs sommets; les

unités de sens correspondantes peuvent représenter des spéci-

fications, des variantes d’une acception plus vaste que nous essaie-

rons de cerner à l’aide d’un deuxième type de sous-graphe.

En voilà la définition. Un graphe est connexe si chacun

de ses sommets peut être rejoint par chacun des autres à travers

un chemin (une séquence alternée d’arêtes et de sommets). Une

composante connexe d’un graphe est un sous-graphe connexe ma-

ximal. Pour chaque sommet du graphe (qui pour nous est une

entrée du dictionnaire), considérons le sous-graphe formé par tous

les sommets qui lui sont reliés et par les arêtes qui les relient

entre eux. Dans ce sous-graphe relevons les composantes connexes:

ce sont elles qui nous fournissent le deuxième type d’unité de

sens que nous cherchions. En effet, si la liste des synonymes

associée à une entrée du dictionnaire est constituée par des grou-

pes de mots tels qu’à l’intérieur de chaque groupe il y a, entre

deux termes quelconques, au moins un chemin, tandis qu’il n’y

a pas de chemins entre termes appartenant à des groupes diffé-

rents, alors nous pouvons raisonnablement identifier dans ces

groupes des sens nettement distincts. Nous attribuerons donc

à chaque entrée du dictionnaire autant de sens (unité «amples»

31

de sens) qu’il y a de composantes connexes, que nous pouvons

appeler «fibres», dans sa liste de synonymes.

Contrairement aux cliques, les fibres d’un mot, nécessaire-

ment disjointes, dépendent des entrées considérées. Par exemple,

si pour une entrée A nous prenons une fibre X composée par les

sommets B, C, D, à l’entrée B nous trouverons une seule fibre

contenant A mais celle-ci pourra avoir des termes en plus ou

en moins par rapport à X.

En substance, nous avons isolé dans le dictionnaire des

unités élémentaires de sens (les cliques) et d’autres plus amples

(les fibres), autrement dit nous avons donné une description plus

fine mais avec des superpositions, et une autre moins fine mais

avec des démarcations nettes, de la polysémie de chaque terme

du dictionnaire. Naturellement il s’agit toujours de polysémies

et unités de sens relatives au dictionnaire considéré, aux infor-

mations qu’il contient, mais, et c’est là l’aspect essentiel, ces

polysémies et unités de sens proviennent de structures dotées

de bonnes propriétés formelles et de définitions précises qui sai-

sissent sans distorsions excessives une partie de notre «intuition

sémantique». Nous savons que l’un des principaux obstacles à

l’emploi de méthodes statistiques en linguistique est dû à la

polysémie et à la synonymie; le fait, donc, de considérer comme

données non plus les mots mais des unités du type de celles

que nous avons définies plus haut, devrait constituer un avantage

appréciable.

J’ai expérimenté les procédés que je viens de décrire sur

un dictionnaire de synonymes un peu particulier, puisque formé

de couples de mots indiqués comme équivalents, dans un échan-

tillon de recherches, par les usagers du système automatique

de documentation de la Cour de Cassation italienne. L’échantil-

lon, alimenté par des recherches de jurisprudence civile, comprend

5551 entrées et 13610 équivalences. Le graphe correspondant

présente une composante connexe de 3724 sommets, toutes les

autres ayant moins de six sommets chacune: un décalage, lié

32

sans doute au concept de percolation, que j’ai toujours constaté

sur ce type de données.

La recherche, pour chaque entrée, des fibres correspondantes,

a donné des résultats très satisfaisants: sauf de très rares excep-

tions les fibres d’un mot discriminent effectivement des accep-

tions différentes de celui-ci. Il s’agit bien sûr de polysémies et

synonymies relatives non pas à la totalité de la langue mais à

un corpus de recherches sur des documents de droit civil. Une

fois que l’on a distingué les différentes fibres d’une entrée, l’on

passe de 5551 à 10035 entrées, et en reconstituant avec les

nouvelles entrées le graphe des synonymes on obtient une com-

posante connexe de 2330 sommets, une de 79, une de 26, les

autres ayant chacune moins de 14 éléments.

Dans le même dictionnaire les cliques ont donné des résul-

tats moins satisfaisants: ceci, je pense, à cause des limites quan-

titatives et qualitatives de l’échantillon. En revanche, une cir-

constance particulière est apparue: le nombre des cliques (5890)

est très proche du nombre (5551) des entrées du dictionnaire.

Même si ce fait, que j’avais déjà rencontré dans d’autres échan-

tillons, pourrait trouver une explication purement statistique

en fonction du nombre d’arêtes et de sommets du graphe en

question, il n’en reste pas moins singulier. Il suggère en effet

la conjecture, qui peut être confirmée ou démentie par le trai-

tement d’autres dictionnaires, que le nombre d’unités élémen-

taires de sens dans un corpus linguistique tend à coïncider avec

le nombre de mots. Mais, s’il en était ainsi, quelle interpré-

tation donner? On peut se demander, comme à propos de la

distribution des composantes connexes du dictionnaire: s’il s’agit

d’effets statistiques quels sont les modèles impliqués? Quelles

conséquences peut-on en déduire sur la boîte d’où sortent les

mots?

Il faut enfin reconnaître une limite non négligeable des

procédures dont nous avons parlé jusqu’à maintenant: elle pro-

vient du fait que même si nous essayons avec elles de nous dé-

33

tacher des unités-mots, nous restons tout de même à l’intérieur

d’un univers discret alors que les difficultés que tout auteur

de dictionnaire rencontre quand il doit subdiviser ou regrouper

des classes de contextes correspondant aux entrées suggéreraient

plutôt un continuum traversé par des clivages et des régions

d’instabilité, l’image d’un sens comme d’un «lieu» aux contours

indéterminés, quelque chose dont, à la limite, on ne peut même

pas affirmer l’identité.

On pourrait envisager, il est vrai, des représentations plus

complexes que celles que j’ai esquissées. Je pense par exemple

aux méthodes de la géométrie algébrique. Mais, sans vouloir

négliger la valeur heuristique de ces méthodes en dehors de leur

domaine propre, il me semble toutefois difficile, pour l’instant,

d’aller au-delà d’un simple changement de dictionnaire.



Ugo Berni Canani . :

This page is copyrighted

Refbacks

  • There are currently no refbacks.