STATISTIQUE ET PHILOLOGIE
Georges Théodule Guilbaud
STATISTIQUE ET PHILOLOGIE
11

1 Tous ces papiers, livres et documents, que je viens de

placer sur la table devant moi, c’est pour dissimuler mon inquié-

tude. Je suis inquiet d’avoir à parler en premier sans savoir si

mes préoccupations personnelles sont à leur place en votre col-

loque.

Mais j’ai lu les comptes rendus des deux colloques précédents,

aussi attentivement qu’il est en mon pouvoir — je les ai ici sous

la main, et vous voyez: les pages sont marquées, que je citerai

tout à l’heure.

Or, je peux le dire bien sincèrement, tout cela m’intéresse —

et j’ai pensé vous dire pourquoi. Je n’ai, bien entendu, aucun

enseignement à donner à quiconque; je ne suis point philosophe

(cela se sait), point philologue ni historien; faut-il avouer que

l’on me prend pour un mathématicien, ce qui n’est rassurant

pour personne.

Voici d’abord les 848 pages des Atti du second Colloque.

Je me sens — comment dire? — concerné par ces quelques mots

de l 'intervento conclusivo de Bernard Quemada (p. 713): «nous

remettons peu en cause les analyses devenues traditionnelles et

dites abusivement, autour de cette table, quantitatives».

Quantitatif! qu’est-ce à dire? Un observateur, même super-

ficiel, feuilletant ces deux gros volumes, est obligé de constater:

il y a des chiffres, beaucoup de chiffres. Pas seulement les adresses

des citations (numéros des chapitres, des pages ou des versets),

12

mais ceci, par exemple, page 23: «l’oeuvre philosophique de Sénè-

que comporte 249645 occurrences et le mot ORDO y apparaît

66 fois sous ses diverses formes».

Ou encore (page 43): «On totalise 66233 mots et ORDO

a une fréquence absolue d’emploi de 189, tandis que (dans un

autre texte) de 72136 mots ORDO est utilisé à 219 reprises».

Notons, dès maintenant, le vocabulaire: comporter des occur-

rences, apparaître un certain nombre de fois, totaliser tant de

mots, utiliser un mot à plusieurs reprises, fréquence d’emploi,

etc. Je n’ai donné que deux exemples, mais je pourrais continuer:

pages 53, 56, 66, 77, 90. Et même, arrivé à la page 90, on ne

trouve plus que des chiffres, pendant plus de soixante-dix pages!

C’est impressionnant. Et même des écritures décimales, comme

ceci: 0,2267; ou: 0,00017 (sic) à la page 470. De quoi faire

frémir un homme de ma profession.

Je ne vais pas dresser de catalogue; je ne vais pas faire

subir à vos textes les traitements que vous faites subir à Galilée,

à Saint Thomas, à Descartes, à Malebranche. Ce n’est pas l’envie

qui me manque, mais le temps. Et je regrette de ne pouvoir

disposer d’une analyse soignée de toutes ces données chiffrées

(je ne dis pas: quantitatives).

Pourquoi toutes ces données chiffrées? Est-ce, comme on

lit page 678, que ce sont des «faits informatiques»? Ce qui

pourrait induire peut-être quelques esprits malveillants à penser

qu’il faut incriminer les facilités que nous apportent les ordina-

teurs.

Il faut, au contraire, dire que c’est une tendance très ancien-

nement attestée dans l’étude des textes et des langues. Je n’ai

pas les moyens de faire l’histoire de ce qu’on pourrait nommer

‘les noces de la statistique et de la philologie’. Où trouver un

Martianus Capella pour notre temps?

Sans remonter aux Massorètes (dont les méthodes et les

préoccupations mériteraient plus qu’une allusion souriante) je

pourrais vous renvoyer à des textes fameux.

13

Pour bien comprendre les désirs et les soucis des philologues

qui font de la comptabilité, on pourrait, par exemple, revoir les

Actes du premier congrès des philologues slaves qui s’est tenu à

Prague en 1929 et qui fut un événement considérable.

Désirs et soucis, ai-je dit: c’est d’abord de donner plus

d’objectivité (contrôlable par autrui) à ces mentions coutumières

et décevantes: «on pourrait facilement multiplier les exemples»

(et le lecteur: «eh bien! multipliez, je vous prie»); «cette con-

struction, ou expression, ne devient vraiment usuelle et très fré-

quente qu’à partir de telle époque»; «ces tournures sont très

fréquentes chez tel auteur»; ou bien: «elles sont rares» et même

«rarissimes»...: «le mot mysterium est l’un de ceux qui revien-

nent le plus fréquemment sous la plume de Scot Érigène»...

Encore une petite fiche, pour l’histoire des mentalités: la

préface à la seconde édition de la Syntaxe Latine de Riemann

(1894): «la méthode statistique que des applications maladroites

avaient rendue suspecte à de bons esprits...» (ceci est écrit il y

a plus de 80 ans!), mais Riemann la croyait bonne, cette méthode,

car «seule elle bannit les à-peu-près. Par la statistique seulement,

grammaticale et lexicographique, on peut introduire un peu de

rigueur et de certitude».

J’aurai le regret de dire mon désaccord: il ne s’agit pas de

bannir les à-peu-près; mais au contraire il faut les accepter et

les contrôler.

Mais le mythe de la rigueur a la vie dure. Dans une thèse

(soixante ans après Riemann) où la statistique joue son rôle,

l’Auteur s’explique: « on s’entoure d’un appareil mathématique

un peu complexe, c’est qu’il n’est pas possible de se confier à

des approximations...». C’est mal dit, c’est justement parce que

les à-peu-près sont inéluctables qu’il faut faire appel aux méthodes

d’approximations de la mathématique.

Mais revenons à vos fréquences.

2. Fréquence: l’usage est maintenant établi dans la plupart

14

des langues: il ne s’agit plus de la qualité de ce qui est fréquent,

mais d’un nombre, le nombre des répétitions, des reprises, des

occurrences, le nombre de fois qu’un mot apparaît: «quoties haec

vox occurrit...». Ce nombre pourrait concerner un phénomène

linguistique quelconque, syntaxique, phonologique ou autre; mais

nous ne parlons ici que de fréquences lexicales.

Dans votre second Colloque c’était le mot ordo qui était visé.

Mais on m’a prévenu que le troisième Colloque s’intéresserait

plutôt à res. Je m’y suis mis, avec mes faibles moyens, et, du

mieux que je peux, je prendrai mes illustrations de ce côté-là.

Dans les Lettres de Sénèque à Lucilius le mot res (en ses

diverses flexions) figure 566 fois. Voilà une information. Mais

que voulez-vous que j’en fasse? Patience!

A cause du centenaire célébré cette année, j’ai cru bon d’aller

voir la Règle de Saint Benoît: res s’y trouve 22 fois.

Mais vous choisissez plutôt des textes philosophiques. J’avais

sous la main des textes et leur index.

Dans le De contemplando Deo de Guillaume de Saint-Thierry,

je lis res quatre fois et dans le De dignitate amoris du même auteur,

seize fois.

Dans le Discours de la Méthode (dont le Lessico nous a pro-

curé l’index) chose se trouve 51 fois au singulier et 66 fois au

pluriel.

Dans le Discours de Métaphysique de Leibniz, 40 fois au

singulier, 24 fois au pluriel.

Dans la Profession de foi du Vicaire Savoyard, 21 fois au

singulier, 27 fois au pluriel.

Voilà des informations. Je crois qu’elles sont vraies, exactes

(l’erreur, s’il y en a, est faible), mais que faut-il en faire? Est-ce

que ce sont des faits historiques, linguistiques, ou quoi? A quoi

ça sert? Comment ça fonctionne?

A quoi ça sert? Il ne faut pas dédaigner une certaine utilité

que je vais dire — même si elle paraît mineure. (Elle est d’ailleurs

signalée dans le volume du premier Colloque, page 265).

15

Il est écrit, je crois: «Si tu veux bâtir une tour, assieds-toi,

et fais tes comptes» (proton kathisas psephizei — Luc, 14, 28)

Si je veux étudier res chez Sénèque, me suis-je dit, il va falloir

lire (rien que pour les Lettres) 566 passages. C’était beaucoup.

J’ai reculé.

Mais res chez Saint Benoît: 22 endroits: en moins d’une

heure de temps j’y verrai clair.

Et Descartes: 117 fois le mot chose dans le Discours de la

méthode.
C’est un peu plus gros. Mais c’est Descartes!

En un mot, le premier emploi de la fréquence, c’est de faire

un devis — pour proportionner ma recherche à mes moyens, à

ma bourse si j’ose dire, au temps dont je dispose, et prévoir

les automatisations nécessaires, etc.

Plaçons-nous alors dans l’hypothèse favorable. Compte tenu

des moyens dont je dispose, la fréquence annoncée me permet

d’aller y voir de près. C’est-à-dire de retourner au texte (même

une concordance ne m’en dispensera pas).

Je l’ai fait pour Saint Benoît comme pour Descartes, à titre

d’expérience, pour ne pas parler dans le vague.

Que se passe-t-il? La fréquence éclate. Je veux dire que

les divers contextes qui accompagnent le même mot se répartissent

et se groupent.

Pour la Regula Sancti Benedicti, c’était très net: pour une

part res renvoie à des objets, non pas des objets quelconques, mais

des objets matériels et le plus souvent il s’agit «de rebus mona-

sterii». D’un autre côté res est un mot abstrait: «de hac re

dicens».

Pour le Discours de la Méthode, deux directions d’éclatement

aussi, du moins à première vue: pour Descartes, chose peut être

un mot quasiment grammatical, un mot sans substance, une sorte

de pronom (que je traduirai dans mon dialecte d’aujourd’hui par:

ceci, cela, etc.). D’autres fois il désigne une ‘réalité’ bien définie,

et parfois même l’univers.

16

Je n’insisterai pas sur cet éclatement de la fréquence. D’ail-

leurs vous savez fort bien que c’est plus compliqué que je ne viens

de le dire: il y a des emplois ambigus. Je voulais seulement ne

pas perdre de vue que le même mot ici et là, ce n’est peut-être

pas toujours exactement le même.

3 Je ne sais plus qui a dit: «pas de philologie sans com-

paraison». Mais tout le monde sait bien qu’une fréquence ne

peut se lire que relativement, c’est-à-dire en relation, contraste

ou similitude, avec une autre, ou d’autres fréquences.

Il s’agit ici encore d’une pratique spontanée et tout à fait

universelle.

Je lisais la Règle bénédictine dans une édition savante, et

je tombe sur ceci: comment Benoît nomme-t-il les membres de

sa communauté? «pour 90 frater, il n’a pas moins de 36 mona-

chus;
cette fréquence relativement élevée... ».

Comment entendre ce ‘relativement’? Non pas une fréquence

mais plusieurs que l’on compare. Qu’est-ce que comparer?

Avec ma brutalité mathématicienne, permettez que je distin-

gue soigneusement deux façons de faire:

en premier: plusieurs mots dans un même texte;

en second: le même mot dans plusieurs textes.

Je dis bien: premier, second. L’ordre n’est pas sans signifi-

cation: en prenant celui que je viens de dire, je veux attirer

l’attention sur le système que constituent les diverses fréquences.

Et puisqu’on me permet de mathématiser, allons jusqu’au

bout: non pas seulement plusieurs mots mais tous les mots. C’est

d’ailleurs une pratique aujourd’hui très usuelle: l’automatisation

y est certes pour quelque chose, mais si l’on examine de près

l’histoire des premières concordantiae bibliques (XII e siècle) on

voit s’affirmer assez tôt ce souci d’exhaustivité.

Tous les mots d’un texte, chacun avec sa fréquence. Mais

ce n’est pas si simple: qu’est-ce qu’un mot? la notion est incertaine

et difficilement saisissable, tout linguiste le sait. N’attendez pas

de moi une opinion quelconque en la matière: je me contente

17

d’observer les conduites de mes contemporains.

Pour obtenir ces statistiques lexicales — telles que les Actes

du second colloque en présentent — deux opérations ont été néces-

saires:

Segmenter. Il faut découper le texte en unités (items

ou occurrences, si vous avez quelque scrupule à les appeler mots).

Bien entendu le traitement automatique aura tendance à privilé-

gier la Typographie et à déclarer unité tout groupe de lettres

séparé par des blancs. Tout n’est pas dit par cette décision, car

il y a les ‘traits d’union’, les apostrophes, etc. D’ailleurs pour

toute langue (écrite) il y aura toujours des décisions à prendre.

L’un des avantages du traitement automatique, c’est d’obliger le

maître d’oeuvre à prendre ses responsabilités et (dans le meilleur

des cas) à lui faire avouer la grande part d’arbitraire de ces

règles de segmentation, qu’on pourra peut-être nommer Règles

Syntagmatiques.

Identifier. Il faut ensuite pouvoir dire si deux segments

préalablement définis sont ou non occurrences du ‘même mot’ (ou

vocable, ou lemme). Ici encore il faut bien voir que les facilités

informatiques tendent à privilégier la forme graphique. Mais tout

le monde sait bien qu’on peut vouloir distinguer des homogra-

phes et associer des allographes.

Je ne m’attarderai pas à parler de lemmatisation, dont vous

êtes plus avertis que moi. En tant qu’observateur, je me permets

seulement de penser qu’il y aura toujours plusieurs façon de faire,

également raisonnables. Ces règles d’identification, je les appel-

lerai Règles Paradigmatiques, et je crois qu’il est dangereux (et

inutile) de dire que tel système de règles est (universellement)

meilleur qu’un autre. Pour le dire autrement: je ne crois pas qu’il

y ait une solution ‘minimale’ — et encore moins de solution

‘optimale’. C’est pourquoi je suis toujours reconnaissant à qui,

pour le même texte, a le courage d’essayer plusieurs modes de

dépouillement. Mais c’est peut-être là un goût de mathéma-

ticien!

18

Une fois décidé le double système des règles syntagmatiques

et paradigmatiques, les machines peuvent fonctionner. Elles four-

nissent à la demande Index ou Concordances qui sont des aides

à la lecture. Ce disant je ne veux pas en diminuer le mérite: je

veux dire simplement que le Texte et sa concordance sont deux

présentations qui permettent chacune un mode de lecture diffé-

rent: lecture séquentielle ou lecture concordantielle. Un infor-

maticien y pourrait reconnaître les deux modes d’accès bien

connus:

une bande ou ruban, c’est le texte: ‘Read only’ (ou ROM);

un disque, c’est l’index: ‘Random Access’ (RAM).

En regard de chaque entrée (forme, lemme ou vocable) la

concordance donne les contextes (l’index seulement l’adresse) —

mais il serait souhaitable qu’on puisse toujours aussi lire direc-

tement le nombre des contextes cités, c’est-à-dire la fréquence.

J’ai vu d’excellentes concordances qui omettent cette information:

le lecteur peut toujours compter bien sûr, mais si la liste est

longue, on pourrait lui épargner cette peine.

Il est encore plus commode sans doute de dresser une table

(parfois appelée Index des fréquences) où ne figurent plus que

les fréquences en face de chaque lemme d’entrée.

Enfin, on pourra ranger les lemmes non plus en ordre alpha-

bétique, mais dans l’ordre des fréquences décroissantes. Tout cela

est peu coûteux si l’on dispose de moyens informatiques — et

tout cela est fort utile.

Mais l’usage des informations ainsi présentées (ces aides à

la lecture concordantielle, comme j’ai dit) requiert une attention

toute spéciale à ce que j’appellerai la gamme des frequences.

C’est encore une nouvelle lecture. Non plus seulement, com-

me il est naturel, tel vocable, quelle fréquence? mais encore: telle

fréquence, quels vocables?

Que voit-on?

J’a lu (toujours dans ces Atti): «moltissime parole poco fre-

quenti, pochissime parole molto frequenti». C’est bien dit. Mais

19

ce n’est pas assez dire. Car il ne s’agit pas seulement d’une oppo-

sition, d’un contraste, mais d’une véritable structure.

Avant même de faire aucune comptabilité, on savait bien

qu’il y avait des mots souvent répétés, en petit nombre, et des

mots fort peu répétés, en grand nombre. Mais ce qu’on ne savait

pas, c’est qu’il s’agit d’une gradation très régulière. C’est par

transitions presque insensibles qu’on passe du très fréquent au

très rare.

Il faut insister, car cela n’est guère conforme aux représen-

tations communes de l’acte de parole. Dans le discours que je

suis en train de faire, dans l’ensemble des mots que j’ai prononcés

jusqu’ici, il y a des mots qui n’ont pas été répétés — qui ne

figurent qu’une seule fois, des hapax comme on dit. Je ne les

connais d’ailleurs pas, ni vous non plus — mais je suis sûr de

leur existence, et sûr aussi qu’ils sont fort nombreux!

Laissons mon discours, qui ne mérite pas ces analyses savan-

tes; prenons celui ‘de la Méthode’.

Il y a 608 hapax. Immédiatement après ceux-là, on dénombre

230 mots qui figurent deux fois, et on peut continuer: le nombre

de mots de chaque classe allant en diminuant.

Jusqu’où? Il y a trois mots de fréquence 31, deux mots de

fréquence 32 — mais rien pour la fréquence 33. Première lacune

de la gamme. Le phénomène est tout à fait universel: c’est

le schéma des Basses Fréquences, dans lequel toutes les fréquences

1, 2, 3, 4, etc. sont représentées.

Si l’on voulait une définition rigoureuse, c’est-à-dire pro-

grammable sans ambiguité (et donc en partie arbitraire), il fau-

drait une définition récursive. Il ne suffit pas de dire: les basses

fréquences sont contiguës (ou consécutives). Il faut préciser (à

l’intention des machines):

1) la fréquence 1 est toujours basse.

2) si f est basse et s’il existe des mots de fréquence (f +1)

alors (f +1) est basse.

20

A l’autre extrémité de la gamme, les choses sont toutes diffé-

rentes; c’est la zone des Hautes Fréquences.

Fréquence 1480, (l’article: le, la, les)

fréquence 1198, (de)

et puis: 1180, 864, 790, etc.

Chacune des hautes fréquences correspond à un seul voca-

ble; et elles ne sont pas contiguës mais au contraire nettement

séparées.

On descendra ainsi la gamme jusqu’à trouver la première

fréquence qui corresponde à deux vocables:

135:celui

126:pas

126:quelque

Une définition, si l’on y tient: une fréquence sera réputée

haute si lui correspond un seul vocable, et si aucune fréquence

supérieure n’a plus d’un vocable.

Enfin, dernier constat (qu’il eût été difficile de prévoir étant

donné le caractère arbitraire de nos définitions): il y a des fré-

quences ni hautes ni basses. On les dira moyennes. Pour le Dis-

cours de la Méthode:
entre la fréquence 33 (première lacune)

et la fréquence 126 (dernier ex-aequo). Et c’est dans cette zone

des moyennes fréquences que se trouvent:

chose (fréquence 117) et rien (fréquence 41).

On dispose aujourd’hui d’un très grand nombre de relevés

statistiques qui permettent de collectionner et comparer des gam-

mes de fréquence pour diverses langues et des textes de nature

et de longueur variées. Or toutes ces gammes présentent les carac-

tères qu’on vient de dire. A titre d’illustration, deux cas ex-

trêmes:

Un relevé effectué au Trésor de la Langue Française à Nancy,

sur un corpus de 70 millions d’occurrences (on me permettra

d’arrondir les données numériques): les basses fréquences vont

21

de 1 à 800 (et correspondent à 66 mille vocables), les hautes, qui

sont au nombre de 200, vont de 33 mille à 4 millions.

Par manière de défi, je prends, à l’autre extrême, un texte

très court. Il s’agit d’un sonnet de J. du Bellay, qui ne comporte

que 119 occurrences. On y distingue cependant les deux zones:

basses fréquences: 67 hapax, 9 mots de fréquence 2 et 4 de

fréquence 3 (il n’y a pas de fréquence 4);

une seule haute fréquence (7) car il n’y a pas de fréquence

6 mais 3 mots de fréquence 5.

Dans ces deux exemples la statistique a été faite sur les

formes graphiques (sans aucun effort de lemmatisation).

4. Ce qui me paraît essentiel:

1) l’important c’est tout le système de fréquences. Cha-

cune d’elles ne peut prendre sens que si on la situe correctement

dans la gamme;

2) la description de la gamme doit donc être globale,

mais elle ne peut qu’être approximative ;

3) une gamme de fréquences possède une très forte

structure, difficile à expliquer, mais que les régularités numéri-

ques (approchées) rendent visible.

Encore un mot sur ces régularités: les fréquences que je

propose d’appeler hautes sont telles qu’à chacune correspond un

vocable et un seul. Ces vocables-là peuvent donc, sans ambiguïté,

être rangés dans l’ordre des fréquences décroissantes, et cha-

cune possède un numéro d’ordre (ou rang) bien déterminé.

On arrive aux fréquences moyennes avec le premier cas

d’ex-aequo. Il faut alors faire un choix (arbitraire) si l’on veut

continuer le rangement et donner à chacun un numéro d’ordre;

(il importe de conserver la propriété cardinale du rang, qui est

d’indiquer pour chaque terme le nombre de ceux qui sont pla-

cés avant lui).

Laissons d’ailleurs ces détails techniques qu’il est un peu

malaisé de dire proprement sans observer les coutumes mathé-

maticiennes (et vous voyez que je n’ai point de tableau où

22

écrire figures et formules). Prenons seulement une petite illus-

tration. Revenons à ce Sénèque écrit à Lucilius. Dans notre

texte le mot res apparaît 566 fois et c’est le 31 e de la liste des

mots rangés par ordre de fréquence décroissante. On sait, au

moins depuis G.K. Zipf, que si l’on va deux fois plus loin dans

la gamme, c’est-à-dire au 62 e rang, on trouvera une fréquence

à peu près égale à la moitié de celle de res. C’est ce qu’on cons-

tate en effet:

le 62 e mot est malum, fréquence = 273.

Ou bien si l’on cherche une fréquence moitié, on trouve un

rang voisin du double:

à la fréquence 283 le mot corpus, qui est le 59 e .

On peut aussi bien tripler le rang et diviser ( à peu près )

la fréquence par trois:

le 93 e mot est deus, fréquence =188.

Il s’agit bien entendu de relations arithmétiques approchées

(certains diraient même grossières), mais qui n’en sont pas moins

impressionnantes et qui permettent, connaissant un fragment de

la gamme, de prévoir au moins les ordres de grandeur pour le

reste.

On n’insistera jamais assez sur ce phénomène, remarquable

par son universalité (diverses langues, toutes sortes de textes, Rè-

gles de Lemmatisation variées, etc.) et qui symbolise en quelque

sorte la forte structure des gammes de fréquences lexicales.

Bien entendu on peut raffiner, chercher des formulations

mathématiques plus soignées — mais je ne m’y attarderai pas.

Je voulais seulement marquer que chaque donnée concer-

nant les fréquences doit être située dans la structure — accom-

pagnée par conséquent de ce qu’on pourrait appeler un ‘apparat

statistique’.

Il conviendrait maintenant d’aborder la question difficile:

est-ce que la fréquence est un élément de fonctionnement du

signe, et comment?

Mieux vaut dire qu’on ne sait pas encore grand-chose là-

23

dessus. Il faut en tout cas mettre de côté l’aspect rhétorique.

Lorsque Pascal écrit ( Pensées , section XXIII): «quand dans un

discours se trouvent des mots répétés et qu’essayant de les cor-

riger...», lorsque Colette nous parle de cet écrivain que «la

répétition d’un mot à deux lignes d’intervalle choque comme

une tache d’encre sur les doigts» il ne s’agit pas de n’importe

quelle fréquence de répétition, mais probablement de mots

‘lourds de sens’.

Il faut dire que la plupart du temps il n’y a pas de per-

ception des fréquences ni chez le locuteur ni chez l’auditeur.

On a parfois cherché à mettre à part les mots qu’on dit:

outils, grammaticaux, fonctionnels, ou même: vides. Ce sont les

particules, les pro-formes (pro-noms), les substituts, les mots à

tout faire. Ainsi, au moins pour certains emplois, res en latin,

chose en français, ou roba en italien, etc.

Mais si les plus fréquents sont parmi ceux-là, on peut voir

des outils dans les basses fréquences. Même la liste des hapax

surprend toujours: dans le Discours de la Méthode on trouve à

la fréquence 1:

aussitôt, sous, parce que, désormais, inégal, proche...

Les liens, s’il y en a, entre fréquence et sens sont loin

d’être clairs. Il reste beaucoup à chercher. Et je citerai encore

Pascal:

«les sens reçoivent des paroles leur dignité au lieu de

la leur donner. »

5. J’avais annoncé les deux façons de comparer:

— en premier: fréquences des divers mots d’un même texte,

— ensuite: fréquences d’un même mot en plusieurs textes.

Venons-en au second point, pour lequel j’essaierai d’être

très bref.

Première remarque: on a pu dire «tous les mots», mais

on n’osera pas ambitionner «tous les textes». On choisira des

textes jugés comparables , et on dira pourquoi.

Voici les deux traités de Guillaume de Saint-Thierry, dont

24

je vous parlais en commençant; ces deux traités sont associés

dans presque tous les manuscrits, il le sont aussi bien dans les

éditions imprimées, ils traitent du même sujet, mais de manière

différente: le De dignitate amoris de manière plus ‘philosophique’,

le De contemplando Deo de manière plus ‘lyrique’ ou, comme

on dit, ‘mystique’.

Le mot res figure quatre fois dans le De contemplando et

seize fois dans le De dignitate. Quatre fois plus fréquent dans

l’un que dans l’autre. Va-t-on se précipiter aux conclusions?

D’après ce que j’ai pu constater, le raisonnement habituel est

plutôt le suivant: on remarque d’abord que le second traité est

deux fois plus long que le premier. Deux fois plus long en nom-

bre de lignes — ou mieux encore en nombre de mots. Grâce à

nos amis de Louvain, je peux préciser: 5373 mots pour le De

contemplando
et 10960 pour le De dignitate ; deux fois plus long

en vérité (à vraiment très peu près).

Et le raisonnement se poursuit: étant deux fois plus long,

il devrait comporter environ deux fois plus de res , or il y en a

quatre fois plus; il y a donc entre les deux traités un contraste

très net dans l’emploi du mot res.

Malheureusement tout cela risque d’être fallacieux, pour de

multiples raisons.

En premier lieu, est-il raisonnable de faire comme si le

second traité, deux fois plus long, devait comporter toutes les

fréquences du premier multipliées par deux? Simple question:

et les hapax? (au nombre de plusieurs centaines dans chacun

des deux textes).

N’ayons pas peur de dénoncer les illusions du quantitatif.

J’aimerais ici savoir parler latin, mais quel latin? je ne sais pas

si l’opposition entre quantus et quot est classique, mais des

bons index me le diront. En tout cas je peux dire que pour le

mathématicien d’aujourd’hui il importe de distinguer les espèces

du genre ‘nombre’. J’aimerais opposer quotité et quantité.

Le R.P. Busa écrit: «quoties haec vox occurrit» et «quot

25

millia vocum in hoc opere » — et je suis satisfait qu’ainsi soit

souligné le caractère de nos fréquences: ce sont nombres en-

tiers, qui disent combien de fois.

Dans le Discours de Descartes, chose se trouve 117 fois.

Le nombre total des occurrences (c’est-à-dire la somme des fré-

quences de tous les mots) atteint 22688.

J’admets qu’on dise alors pour situer le mot visé:

117 parmi 22688

(parmi, ou: pour, ou même: sur; en latin: ex, ou inter)

Rien à redire. On peut même écrire, pour abréger:

117/22688, ou 117 : 22688.

Mais pourquoi transformer cette double information en une

seule fraction, pourquoi faire, comme on dit, la division et même

écrire:

117/22688 = 0, 005156911... (combien de décimales

souhaitez-vous? )

Fractions? Quotients? De quel droit? ou plutôt: quelle si-

gnification donner à ce quotient?

Certains auteurs appellent cela une fréquence relative ; d’au-

tres, un peu plus prudents: coefficient de fréquence ; peut-être

conviendrait-il d’aller plus loin encore dans le scrupule, et,

comme font les statisticiens démographes en des circonstances

analogues, désigner notre 0, 00515... par l’étiquette honnête de

quotient de fréquence.

Mais l’étiquette ne suffit pas: avoir nommé ‘quotient intel-

lectuel’ ce que tout le monde sait, ou devrait savoir, n’a pas

empêché les abus. Ce qui compte, c’est la signification.

On a recensé 100 occurrences pour un total de 20000 (j’ar-

rondis les données concernant chose dans le Discours de la Mé-

thode
).

Résumer 100/20000 en 0, 005, c’est laisser entendre que

sont équivalentes toutes les informations:

pour 200, 5 pour 1000, 50 pour 10000, 5000 pour

million, etc.

26

Mais les fréquences sont-elles proportionnelles à la longueur

du texte? Comment répondre avant une enquête approfondie sur

le terrain?

On peut assurer cependant qu’il est impossible que toutes

les fréquences soient proportionnelles (entre elles et donc à leur

total) à la cause de ce que nous savons des gammes des fréquences.

Aucune gamme de fréquence ne peut se déduire d’une autre

gamme par simple multiplication: il y a toujours des basses fré-

quences (et en particulier toujours des hapax). Peut-être y a-t-il

proportionnalité (au moins approchée, même grossièrement)

pour les très hautes fréquences; encore faudrait-il le vérifier.

Que faire, en attendant? Diverses procédures, empruntées

à la statistique la plus classique, sont couramment utilisées. Né-

gligeons les détails techniques, cherchons seulement à compren-

dre les idées directrices, pour pouvoir juger des circonstances où

la méthode est utilisable dans le domaine lexical.

Si dans un texte de vingt mille mots on compte cent occur-

rences d’un certain vocable, combien y aura-t-il d’occurrences

pour un fragment de cinq mille mots (le quart du texte)? On

pourrait faire des expériences. Il est plus économique d’imaginer

tous les fragments possibles, toutes les façons de choisir cinq

mille objets parmi vingt mille — et d’en faire le catalogue a

priori.

C’est ici qu’intervient l’appareillage mathématique — car le

nombre des choix est inimaginablement grand. Mais on peut

calculer.

Dans l’immense population des fragments, ceux qui con-

tiennent exactement 25 occurrences ne constituent qu’environ 9

pour cent du total. Ceux qui en contiennent 24 à peine moins.

Par contre, bien entendu, ceux qui n’auraient aucune occurrence,

ou bien ceux qui les auraient toutes ne représentent qu’une in-

fime fraction des possibles (on dira: il y a très peu de chances

de les rencontrer).

Il est permis de dire: pour la grande majorité des fragments

27

possibles, le nombre des occurrences ne s’écarte pas trop de 25.

Mais que signifient ‘majorité’, ‘pas trop’? Depuis Jacques

Bernoulli, on sait donner des précisions numériques (ce sont les

diverses formes de ce qu’on appelle, assez malencontreusement,

les lois des grands nombres).

Ici, par exemple, on dira: les trois quarts des fragments de

cinq mille mots comportent entre 20 et 30 occurrences.

Mais si trois quarts semble une trop faible majorité, on dira

par exemple: les fragments qui comportent moins de 12 occur-

rences et ceux qui en comportent plus de 39, ne représentent,

ensemble, que trois millièmes de la totalité des possibles.

Je vais assez vite, pardonnez-moi, mais tout cela est très

classique. Le point d’arrivée est fort clair:

1) on sait qu’on n’a pas le droit d’énoncer la propor-

tionnalité, d’appliquer ce qu’on appelle encore parfois la ‘Règle

de Trois’: s’il y a cent occurrences pour vingt mille mots, il y

en aura vingt-cinq pour cinq mille;

2) on sent qu’on devrait assouplir la règle et dire seule-

ment «à peu près vingt-cinq». Mais quel est ce peu ?

3) le calcul donne une marge (entre 12 et 39, par exem-

ple) avec une mesure de l’incertitude associée (trois millièmes

en dehors).

C’est un peu compliqué, mais c’est à ce prix qu’on peut

raisonner.

Je reviens, une dernière fois, aux deux traités de Guillaume.

Rappelez-vous les chiffres (en les arrondissant un peu, pour

aller plus vite):

5000 mots 4 occurrences

10000 mots 16 occurrences

Cette répartition mérite-t-elle qu’on s’étonne? (ou, comme

on dit pudiquement: la différence est-elle significative?)

Calculons! imaginons toutes les façons de découper 15 mille

mots en deux fragments inégaux de 5 et 10 mille, et voyons

comment peut fluctuer la répartition des 20 occurrences. On

28

trouve que la proportion des cas où le fragment le plus court

contient moins de 5 occurrences est de quelques cent-millièmes.

Le calcul ne me dira rien de plus. A moi maintenant de

décider : ce n’est pas le calcul qui me dira si l’écart est signifi-

catif, c’est moi qui dois prendre mes responsabilités. On voit

bien les deux risques contraires: si je suis exigeant, c’est-à-dire

si je ne considère comme remarquables, étonnants, significatifs,

etc. que des écarts assez grands, je risque de laisser passer des

choses intéressantes; mais si, en sens inverse, je retiens comme

remarquables et dignes d’étude textuelle, de trop petits écarts,

j’aurai plus de travail et je risque de retenir bien des faits qui,

comme on dit, sont simplement l’effet du hasard.

Tout statisticien manoeuvre entre ces deux risques — et

doit le savoir.

6 Inutile, je pense, d’ajouter que si j’avais à examiner le

vocabulaire de notre Guillaume, je ne me contenterais pas d’un

seul vocable. Et les calculs deviendraient plus complexes. Mais

je n’avais en vue que les idées fondamentales, que pour terminer

je résume:

—· tout l’art est de maîtriser les à-peu-près;

— chaque fréquence prend place dans la gamme;

—se méfier des pourcentages et de la proportionnalité;

— l’un des meilleurs statisticiens de la chose littéraire,

G.V. Yule, disait «o exemplum parvum sero te amavi ». Il ne-

faut pas avoir la superstition des ‘grands nombres’;

— lecalcul statistique, c’est un peu le chien du chasseur:

il vous aide, mais c’est vous qui tirez;

—plutôt qu’un règlement détaillé et tatillon, j’aimerais

qu’avec Benoît de Nursie nous cherchions « quae sunt instru-

menta bonorum operum» ( Reg. cap. IV).

Et tout ceci, enfin, pour susciter des débats. Merci d’avoir

été patients.



Georges Théodule Guilbaud . :

This page is copyrighted

Refbacks

  • There are currently no refbacks.