PROBLEMI DI CALCOLO E DI LEMMATIZZAZIONE
D'Arco Silvio Avalle
PROBLEMI DI CALCOLO E DI LEMMATIZZAZIONE
1

La linguistica computazionale, in quanto scienza basata sull’appli-

cazione del computo matematico all’analisi del linguaggio, ha messo in

luce, contemporaneamente, i limiti:

  • (A) del computo matematico, una volta applicato all’universo delle

    cosiddette unità lessicali, e
  • (B) dell’analisi del linguaggio, nel campo, a mio avviso, fondamen-

    tale, di quella che viene bonariamente chiamata la fraseologia, e che pro-

    porrei di indicare, d’ora in poi, con il termine di sintagmatica.
  • Tali limiti non riguardano, come è ovvio, il computo matematico e la

    linguistica in quanto tali, ma l’applicazione dei metodi del computo ma-

    tematico alla linguistica, e, nello stesso tempo, gli aspetti parziali o ad-

    dirittura negativi che del primo (il computo matematico) ha portato alla

    luce la seconda (la linguistica), e, viceversa, che della seconda (la lingui-

    stica) ha portato alla luce il primo (il computo matematico). La constata-

    zione vale a fugare qualsiasi pessimismo o, addirittura, scetticismo sulla

    possibilità di una collaborazione fra le due scienze. Essa sta ad indicare

    che se di collaborazione si vuole parlare, sarebbe un grave errore limi-

    tarla al solo aspetto positivo di una pura e semplice sovrapposizione del-

    l’una sull’altra. La fecondità di tale collaborazione discende in prima

    istanza da un rapporto ex negativo che metta a fuoco i termini esatti di

    una applicabilità metodologicamente corretta. Solo in tale prospettiva

    potremo quindi lodare l’apporto fondamentale del calcolatore come fonte

    primaria di informazione linguistica.

    I limiti del computo matematico, in pratica della statistica, discen-

    dono direttamente dal fatto che esso viene messo a confronto con dati

    — le cosiddette unità lessicali, isolate fra due blank —:
  • (I) non sempre formalmente omogenei, e
  • (II) spesso dotati di più di un significato.
  • Questi due punti coinvolgono il problema fondamentale dell’analisi

    delimitativa, e, rispettivamente, il fenomeno della polisemia (sempre am-
    2

    messo che sia stata previamente risolta la questione degli omografi).

    Aggiungerò sin d’ora che dal problema dell’analisi delimitativa deriva

    l’altro problema della sintagmatica cui abbiamo accennato a proposito del

    secondo ordine di limiti, quelli cioè dell’analisi del linguaggio (B).

    * * *

    Cominciamo dunque col primo ordine di limiti, quelli cioè relativi

    al computo matematico in generale.

    Come s’è detto, tale ordine comprende, a sua volta, due punti fonda-

    mentali, di cui il primo riguarda il fatto che i dati presi in considerazione

    non sono omogenei e, per tanto, presentano inconvenienti di vario genere

    all’atto di una loro eventuale manipolazione statistica.

    A dimostrazione dell’assunto basteranno qui poche considerazioni di

    carattere generale. I testi che di norma vengono memorizzati ai fini di

    un loro trattamento computazionale sono costituiti da un numero x di

    occorrenze (dati o unità lessicali). Ora, la struttura formale di tali dati

    discende, come è noto, dal lento sedimentare di abitudini grafiche affer-

    matesi in assenza di un qualsiasi controllo sistematico, in epoche anche

    molto lontane le une dalle altre. Il calcolatore che è impostato su para-

    metri fissi risulta per tanto incompatibile con la realtà storica dei sistemi

    grafici correnti, a meno che l’operatore proceda previamente a una compa-

    tibilizzazione del testo, e cioè ad una sua omogeneizzazione grafico-morfo-

    logica.

    Il tema è già stato discusso ampiamente, per cui sarà inutile ritornare

    in argomento. Se il calcolatore legge le congiunzioni subordinanti dato che

    (in due sequenze) e poiché (in una sola sequenza), oppure con la (in due

    sequenze) e della (in una sola sequenza), è ovvio che il rango delle fre-

    quenze delle congiunzioni poi e che, e, rispettivamente, dell’articolo la

    oltre che delle preposizioni con e di, risulterà parzialmente inattendibile.

    Gli esempi qui portati non presentano difficoltà insormontabili per chi

    volesse allestire un testo formalmente omogeneo. Molto più problematica

    riuscirà invece l’operazione in altri campi e soprattutto nel lessico delle

    origini, dove si registra ad esempio una varietà di usi nel campo degli

    avverbi e delle congiunzioni subordinanti, molto più ricca di quanto non

    avvenga nel nostro sistema linguistico. Ora, in questo caso è difficile

    stabilire confini precisi fra quanto può definirsi un avverbio o una con-

    giunzione subordinante vera e propria tanto semplice quanto composta,

    da una parte, e quello che allora era considerato, secondo taluni modelli

    poetici correnti, una sorta di perifrasi o circonlocuzione. Il problema, in

    3

    altre parole, consiste nel decidere se i parlanti di quell’epoca sentissero

    queste ultime strutture come delle unità basate sulla somma di due o più

    unità «plus restreintes» (Bally e Sechehaye), o «sous-unités» (Saussure

    EC 2054; II R 88 e G 2.25b), insomma come delle locuzioni, oppure come

    dei sintagmi liberi analizzabili nelle loro diverse parti.

    In conclusione, prima di procedere alla compilazione delle cosiddette

    «frequenze» (delle forme, dei lemmi), sarà forse necessario meditare a

    lungo sul problema di quella che con Saussure potremmo chiamare l’ «ana-

    lisi delimitativa». Il problema, prima ancora degli studiosi che oggi si

    interessano all’analisi quantitativa del lessico e, più in generale, alla lessi-

    cografia, ha preoccupato non poco il Saussure del Cours de linguistique

    générale
    . Esso

    costituisce notoriamente il nodo centrale e irrisolto della lin-

    guistica sincronica nel senso che tocca alcune questioni preliminari relative,

    in prima istanza, alla possibilità di considerare il «segno» come una unità

    esattamente delimitabile, e, in secondo luogo, all’ontologia dello stesso, se

    cioè il «segno», in quanto tale, esista veramente. Nel testo del Cours pub-

    blicato da Bally e Sechehaye, si legge che « en matière de langue on s’est

    toujours contenté d’opérer sur des unités mal définies» (EC 1815). La

    fonte di questa affermazione, e cioè le note di Riedlinger, è ancora più

    esplicita: «La linguistique aurait pour tâche de déterminer quelles sont

    réellement ces unités valables de tout genre. On ne peut pas dire qu’elle

    s’en soit rendue compte, car elle n’a guère fait que discuter sur des unités

    mal définies» (EC 1811 e 1815; II R 37). Ora, la situazione descritta da

    Saussure non è cambiata e i pochi passi in avanti non ci sono stati di molto

    aiuto.

    Il problema tuttora irrisolto sul piano teorico, potrà essere aggirato

    su quello empirico sia pur entro confini non facilmente delimitabili come

    nel caso dei verbi composti, dove il prefisso non consta sempre di pre-

    posizioni e, soprattutto, compare già in latino. L’esperienza compiuta nel-

    l’allestire i testi della «Concordanze della lingua poetica italiana delle

    origini» ( CLPIO ) è stata al riguardo particolarmente istruttiva. In tutto

    si trattava di circa 400.000 occorrenze distribuite fra quarantacinque ma-

    noscritti di varia origine regionale. Le operazioni di omogenizzazione gra-

    fica di questi materiali (oltre che di lettura e di interpretazione degli

    stessi) sono costate, se così si può dire, una dozzina di anni di lavoro. Il

    terreno era praticamente vergine e la difficoltà maggiore consisteva nel-

    l’organizzare i reperti lessicali in un sistema organico e, soprattutto, non

    contraddittorio. Ora, i risultati ottenuti non sono riusciti a coprire più

    del 90 % del totale. Ma questo non basta, perché di tale 90 % una fetta

    non indifferente ha implicato soluzioni di ripiego come quelle accettate o

    stabilite, eufemisticamente, «per convenzione».

    4

    Ai limiti posti (I) dalla eterogeneità dei dati linguistici e dalla con-

    seguente difficoltà dell’analisi delimitativa, si aggiungono quelli (II) della

    polisemia.

    Se in un dato testo, puta caso, l’unità lessicale «grazia» compare x

    volte, il calcolatore la colloca nella graduatoria delle frequenze ad un

    certo punto, per cui si dirà che «grazia» è di rango y. Ora, come si sa,

    questa parola ha più di un significato a seconda che la si riferisca al con-

    cetto di «bellezza», oppure di «gentilezza » , «amenità di luoghi», «leg-

    giadria», «eleganza», «virtù», «benevolenza», «misericordia», «gra-

    titudine», «generosità», e così via. Lo stesso dicasi dell’unità lessicale

    «che», congiunzione banalissima già distinta dal «che» pronome, la

    quale occupa notoriamente uno dei primi ranghi nelle graduatorie delle

    frequenze solo in virtù di una mancata discriminazione dei suoi valori

    d’uso, che sono, basti sfogliare un qualsiasi grande dizionario, numerosis-

    simi e estremamente varii. Ma questi sono ancora casi abbastanza sem-

    plici. Si vedano, ad esempio, i lessici letterari e i discorsi ad alta concen-

    trazione emotiva. Qui l’abuso semantico delle singole unità lessicali è di

    prammatica, con riflessi non indifferenti sul piano delle relative poten-

    zialità espressive. Ora, l’ulteriore suddivisione delle singole unità les-

    sicali a seconda del relativo valore d’uso potrà essere registrata dal cal-

    colatore solo nella misura in cui l’operatore avrà proceduto preliminar-

    mente ad una loro identificazione. E questo è tanto più vero laddove l’im-

    piego della metafora moltiplica gli ordini semantici, impegnando l’opera-

    tore in uno sforzo classificatorio sul cui successo è lecito nutrire più di

    un dubbio. Registrare il sostantivo «grazia» o la congiunzione «che»,

    oppure ancora unità lessicali coinvolte in operazioni di tipo metaforico,

    all’altezza di questo o quel rango, senza procedere a puntuali ricogni-

    zioni di ordine semantico, non può portare ad altro che all’elaborazione

    di diagrammi parzialmente fittizi.

    * * *

    Passando ora alla seconda parte di queste considerazioni, sarà oppor-

    tuno mettere in rilievo il contributo che le concordanze (delle forme

    o dei lemmi) prodotte da un calcolatore hanno portato alla presa di co-

    scienza del ruolo, spesso decisivo, delle strutture sintagmatiche.

    Il campo cui vorremmo applicare questo termine ricopre grosso modo

    quello già delimitato da Saussure laddove parla di « groupes de mots »,

    di « unités complexes de toute dimension et de toute espèce (mots compo-

    sés, dérivés, membres de phrase, phrases entières») o, ancora, significa-

    5

    tivamente, di «locutions toutes faites», «expressions [...] de caractère

    usuel», «tours», «patrons réguliers», «types généraux» (EC 2007,

    2014, 2015, 2016, 2021).

    Indipendentemente dalle questioni già sollevate a proposito della pos-

    sibilità di discriminare quanto della sintagmatica appartiene alla langue

    (e cioè al sociale) e quanto invece alla parole (e cioè all’individuale), vor-

    remmo portare qui un modesto contributo di esperienze maturate, ancora

    una volta, nell’ambito delle CLPIO , e, in genere, dei sistemi linguistici

    che stanno alla base della produzione poetica medievale. L’interesse por-

    tato a quest’epoca non è dettato da una sorta di deformazione profes-

    sionale. In effetti esso si giustifica col fatto che il lessico poetico rela-

    tivo è — come già da tempo osservato (e lamentato) dalla critica — par-

    ticolarmente ricco di espressioni formulari e di stereotipi, e per tanto

    può definirsi una specola privilegiata per chi si accinga a studiare tale

    ordine di problemi, o, comunque, intenda farsi un’idea più chiara della

    loro consistenza.

    * * *

    La critica parla dunque di ripetitività, di incontinenza nell’uso di

    luoghi comuni, e così via, traendone conclusioni sulla cui pertinenza sa-

    rebbe affatto ingeneroso infierire in una sede come questa. Essa ne ha

    già censite particolari categorie, soprattutto quelle stilistiche, fornendone

    ampi e, in alcuni casi, sterminati cataloghi, per cui ci si potrebbe anche

    chiedere se valga veramente la pena di ricominciare da capo con l’aiuto

    di un calcolatore. L’obiezione non deve preoccupare, nel senso che talune

    categorie, quelle ad esempio delle perifrasi (o circonlocuzioni) e delle

    locuzioni avverbiali e congiuntive sono praticamente inesplorate, ed altre

    di carattere, come s’è detto, stilistico, sono sfuggite all’attenzione del ri-

    cercatore forse a causa di una loro apparente ovvietà o, più semplicemente,

    banalità, rimanendo in tal modo confinate negli angoli oscuri della clande-

    stinità o della semiclandestinità.

    Fra le figure o formule di carattere stilistico vorrei citare:

  • (1) le «iterazioni sinonimiche», da intendersi come formule co-

    stituite da due o più termini coordinati fra di loro e sinonimi, con cui si

    comunica cumulativamente un significato unitario. Così un trovatore pro-

    venzale per esprimere il concetto di «pensiero doloroso», di «affanno»

    o «angoscia interiore», si presenterà sotto l’aspetto di un viandante

    cossiros e pensiu, « meditabondo e pensieroso», mentre, sia pure in

    astratto, sarebbe bastato dire o cossiros o pensiu (come, per altro, atte-

    stato, sempre col medesimo significato, da altri poeti dell’epoca).
  • 6

  • (2) le strutture formulari presenti nelle letterature agiografica (vite

    di santi) ed epica ( chansons de geste), su cui abbiamo una bibliografia va-

    stissima di studi impegnati a sondarne i rapporti soprattutto in funzione

    del problema, assai dibattuto e non ancora risolto, della precedenza sto-

    rica dei due generi.
  • (3) le realizzazioni formulari o strutture sintattiche di motivi to-

    pici, come quelli imperniati sull’attività malevola dei losengiers, «mal-

    dicenti», «pettegoli», «seminatori di discordie», e così via, o su altri

    personaggi o avvenimenti topici del genere lirico e della narrativa.
  • (4) gli aggregati verbali o « compounds » con cui si realizzano le

    strutture logiche del ragionamento filosofico ed, in genere, scientifico. Il

    fenomeno non è proprio del solo lessico medievale e può dirsi costitutivo

    del genere. Ancor oggi tali aggregati costituiscono una sorta di blasone

    con cui più studiosi affermano la propria appartenenza a questa o a quella

    corrente ideologica o, più semplicemente, metodologica.
  • Altrettanto interessanti e bisognose di particolari cure sono le locu-

    zioni avverbiali e congiuntive. I censimenti relativi sono, infatti, ancora

    parziali e del tutto insufficienti ad abbozzare una qualsiasi teoria al ri-

    guardo. Eppure si tratta di categorie di non poco, vista l’importanza, da

    una parte, delle modalità, di quanto, insomma, serve a modificare e a

    moltiplicare gli usi delle cosiddette parti variabili del discorso, e, dal-

    l’altra, dei connettori, qui da intendersi come fatti strutturali atti ad arti-

    colare e a gerarchizzare i procedimenti logici del pensiero.

    Qui mi limiterò a portare un esempio relativo al primo genere, quello

    cioè delle locuzioni avverbiali e di tutto quanto vi è connesso. Base inso-

    stituibile per ricerche del genere si sono dimostrate ancora una volta le

    concordanze elaborate dal calcolatore, che nella loro, non certo apparente

    ma reale, neutralità, si sono rivelate l’unico strumento atto a permetterci

    di penetrare in quelli che ho definito gli angoli oscuri della clandestinità

    o semi-clandestinità linguistica. Da questo punto di vista la lettura at-

    tenta e paziente di decine e decine (a volte di centinaia e di migliaia) di

    contesti ci ha messo di fronte a tassonomie di cui non sospettavamo nean-

    che l’esistenza. È in questo campo che si rivela l’insostituibilità dei cal-

    colatori, nel senso che essi non ci forniscono, almeno nel campo lingui-

    stico, soluzioni, attività questa che è appannaggio del solo cervello umano,

    ma ci permettono di arricchire il numero dei problemi noti, che è quanto

    dire di ovviare alle lacune della linguistica classica.

    Lacune, aggiungeremo, imputabili non a sue presunte deficienze me-

    todologiche, ma al fatto che l’attenzione del ricercatore ha precisi limi-

    ti umani, mentre il calcolatore non fa distinzione, registra e, una volta

    ben istruito con un software adeguato, ordina e classifica tutto quanto.

    7

    L’esperienza che riferirò riguarda la lettura e la decifrazione dei con-

    testi contenenti l’unità lessicale ORA registrati nelle CLPIO . La lemmatiz-

    zazione ha ovviamente confermato quanto già noto: ORA ha una duplice

    funzione grammaticale, nel senso che partecipa sia alla natura del nome,

    sia a quella dell’avverbio. In quanto nome si presenta però in locuzioni

    (o perifrasi?) avverbiali, congiuntive o genericamente sostantivali, molte

    delle quali di incerta, se non con controversa, interpretazione. Aggiungerò

    che la forma compare anche in numerosi sintagmi tradizionalmente aggluti-

    nati nella grafia, dove si trova, via via, all’inizio, come nel caso degli avverbi

    ordunque e oramai, oppure alla fine degli stessi, come nelle forme plusora,

    tuttora, tuttasora, tuttelore, nullora, finenora, picciolora, ciascunora, spes-

    seore, mantore, primaora, talora e ognora.

    Le occorrenze erano in tutto 314. Dopo un lungo e faticosissimo esa-

    me che ha comportato andirivieni e ripensamenti di ogni genere e che

    non auguro a nessuno di ripercorrere, si sono ottenuti i seguenti risultati.

    Nella maggioranza dei casi, 183, la voce ORA ha valore avverbiale; in

    altri 30 casi funge da nome. Nei 101 casi restanti essa rientra in 15 di-

    versi tipi di combinazioni, vale a dire fa parte integrante di un sintagma,

    per lo più avverbiale, ma anche congiuntivo e sostantivale. Di questi 101

    casi solo 16 relativi a 9 combinazioni, sono registrati nel Grande Diziona-

    rio della lingua italiana (vol. XI), che qui si prende come termine di pa-

    ragone più aggiornato, anche se non è escluso che alcune delle restanti

    combinazioni (6 in tutto) siano già state studiate altrove. Alcuni casi, poi, e

    più precisamente 3, relativi a 2 combinazioni, sempre in questo dizionario,

    o sono male interpretati, oppure si riferiscono ad altri usi. Di conseguenza

    ben 88 casi relativi a 8 combinazioni sono stati recuperati grazie ai ser-

    vigi del calcolatore, e, si badi bene, per un periodo assai limitato della

    storia della lingua italiana.

    Se queste operazioni dovessero essere compiute a mano, così come

    ho fatto io, per tutte le forme registrate dal calcolatore, credo che si

    dovrebbe perdere ogni speranza di giungere a risultati soddisfacenti in

    un tempo ragionevole. Le esperienze, per quanto gratificanti, non riusci-

    rebbero a compensare lo scialo (stavo per dire lo spreco) di energie ne-

    cessarie a tale impresa.

    Fortunatamente anche in questo caso il calcolatore viene in nostro

    aiuto, nel senso che, una volta opportunamente istruito, può entrare a

    farla da padrone nel campo della sintagmatica. Ho seguito gli esperimenti

    fatti in questo settore dall’amico Berni Canani, e sono convinto che si

    giungerà ben presto alla elaborazione di un programma ad hoc, atto a ri-

    solvere il problema di individuare stereotipi, formule, luoghi comuni, in-

    somma strutture sintagmatiche di vario tipo nei più vari campi della pro-

    8

    duzione scritta. La ricerca ha un suo fascino particolare. Già all’inizio

    del secolo Saussure insegnava che « nous parlons uniquement par syn-

    tagmes, et le mécanisme probable est que nous avons ces types des syn-

    tagmes dans la tête, et qu’au moment de les employer, nous faisons inter-

    venir le groupe d’associations» (EC 2019 e 2070, II R 93). Il trasferi-

    mento compiuto da Saussure della sintagmatica dal dominio della parole

    a quello della langue, deve far meditare il lessicografo e quanti nel campo

    della traduzione automatica cercano di superare i limiti angusti delle

    unità lessicali. Sarà infine possibile con l’aiuto di parametri appropriati (ad

    esempio le concordanze di un corpus di testi cronologicamente e cultural-

    mente omogenei) distinguere nella lingua di un solo autore quanto, non

    dico della terminologia, ma della sintagmatica, è proprio del patrimonio

    linguistico della sua età o di una certa scuola, e quanto, invece, è frutto

    dell’iniziativa dell’autore stesso; che è l’unico modo di entrare nel profondo

    dei meccanismi mentali che presiedono all’elaborazione di un qualsiasi

    testo letterario, filosofico, scientifico e così via.

    N. B. Le citazioni relative al corso di linguistica generale di Saussure

    sono ricavate dal testo critico del Cours de linguistique générale pubblicato

    a cura di Rudolf Engler (Tome 1, Otto Harrassowitz, Wiesbaden 1968)

    qui indicato con la sigla EC. Alla sigla segue la cifra del paragrafo dove

    compare la citazione. Nel caso che la citazione riguardi gli appunti degli

    allievi (editi sinotticamente da Engler in parallelo col testo di Bally e

    Sechehaye), si aggiungono, sempre in cifra, gli estremi degli stessi.



    Silvio D'Arco Avalle . :

    This page is copyrighted

    Refbacks

    • There are currently no refbacks.