L’Archivio elettronico delle Opere di Carlo Emilio Gadda in DBT 2000 – risultati e prospettive

Maria Luigia Ceccotti & Manuela Sassi

Il cantiere delle idee tecniche è assai più vasto e laborioso e intricato di quanto non si pensi il romanziere facilone, che partorisce ingegneri burattini e inventori gratuiti con la stessa facilità di un politecnico per corrispondenza. L’invenzione è un lento portato, un costoso elaborato del mestiere (nel senso alto della parola), più che non un colpo di fulmine, come certi credono, sotto alla zazzera del manìaco. (SGF I 72)

Cenni sulla storia…
– dell’informatica pisana

I cambiamenti epocali non sono mai la conseguenza o l’effetto che dir si voglia d’un unico motivo, d’una causa al singolare: ma sono come un traguardo, un punto di esaltazione nella coscienza del mondo, a cui hanno contribuito tutta una molteplicità di causali convergenti.

Si perdoni la licenza di plagiare una delle citazioni più ricorrenti del Nostro per introdurre le concause che hanno permesso a Pisa di diventare il primo polo informatico italiano, la città in cui fu progettata e costruita la prima calcolatrice elettronica digitale di tipo scientifico, in cui è stato inaugurato il primo corso di laurea in Scienze dell’Informazione, in cui le discipline informatiche hanno cominciato ad essere oggetto di studio e di ricerca.

Nel 1953 le province di Livorno, Lucca e Pisa dettero all’Università di Pisa 150 milioni di lire per la costruzione di un elettrosincrotone, che fu realizzato invece a Frascati (ai Castelli Romanni!). L’anno successivo a Enrico Fermi, durante il suo ultimo viaggio in Italia, fu chiesto come l’Università di Pisa poteva utilizzare la somma, messa comunque a disposizione per un progetto purché importante. Fu il grande fisico a suggerire senza ombra di dubbio la costruzione di un calcolatore elettronico. Grazie anche ad altri sostegni finanziari – ricordiamo in particolare quelli dell’INFN e della Olivetti – nacque la Calcolatrice Elettronica Pisana (CEP) progettata e realizzata da un gruppo di lavoro guidato da un fisico, Marcello Conversi, da un elettronico, Ugo Tiberio, e da un matematico, Alessandro Faedo. Questo team costituì in gran parte il personale del Centro di Studi sulle Calcolatrici Elettroniche (C.S.C.E.), trasformato poi in un Istituto di ricerca del Consiglio Nazionale delle Ricerche (Istituto per l’Elaborazione dell’Informazione, IEI) mentre poco tempo dopo presso l’Università di Pisa fu creato il Centro Nazionale Universitario di Calcolo Elettronico, CNUCE, con sede nella storica via Santa Maria dove anche l’IBM – siamo all’inizio degli anni ’60 – apriva in quegli anni un Centro Scientifico. Il 1969 è l’anno che vede la partenza del corso di laurea in Scienze dell’Informazione, primo in Italia, grazie anche all’interessamento di Faedo, rettore dal 1959 dell’Ateneo pisano, poi presidente del Consiglio Nazionale delle Ricerche.

– dell’ILC

Se la storia dell’informatica pisana comincia a metà degli anni ’50, quella dell’utilizzo di mezzi elettronici per l’elaborazione di dati linguistici è da datare dieci anni prima quando padre Roberto Busa intraprese l’ardua impresa di realizzare lo spoglio di tutte le opere di San Tommaso D’Aquino con tecniche nuove, calcolatore IBM e schede perforate, per una procedura lessicografica antica. Antonio Zampolli, discepolo a Padova di Carlo Tagliavini, ebbe l’opportunità di applicare per la sua tesi di laurea queste tecniche, di essere assunto dall’IBM presso il Centro Scientifico di Pisa, di dirigere, dal 1968, la sezione linguistica del CNUCE. Il progetto più importante avviato in quegli anni fu, con il contributo e della casa editrice Zanichelli e di un finanziamento pubblico, la realizzazione di un dizionario di macchina dell’italiano. Cominciò così una duplice attività, di supporto a enti e istituzioni, quali l’Accademia della Crusca, e di ricerca applicata per facilitare con tecnologie informatiche il lavoro degli studiosi del settore umanistico. La sezione linguistica divenne poco dopo Divisione linguistica del CNUCE, che dal 1974 passò dall’Università di Pisa al CNR. Nel 1978 nacque il Laboratorio di linguistica computazionale, poi Istituto del CNR.

– del Data Base Testuale

Nel novembre del 1972 la casa Editrice Garzanti pubblica, nella serie lessicografica, il Lessico di frequenza della lingua italiana contemporanea, risultato dell’attività di ricerca linguistica e letteraria svolta dalla IBM-Italia in collaborazione con il CNUCE, il primo esperimento tentato sulla lingua italiana di spoglio elettronico di un campione di 500.000 parole. Gli autori dell’impresa sono Umberta Bortolini, Carlo Tagliavini, Antonio Zampolli e i suoi primi collaboratori pisani. Nell’introduzione del LIF, al paragrafo sull’elaborazione elettronica, sono elencati e descritti i 46 passi della procedura, la cui prima operazione era quella di trasformare un testo in schede-testo, traducendo in fori su schede meccanografiche i caratteri del testo, mentre nell’ultima, la 46ª, si danno istruzioni per la stampa dei risultati: «Si leggono i lemmi nei vari ordinamenti stampando: dal nastro in ordine di U, il lemma, l’uso e il numero di posizione; dai rimanenti due nastri il numero di ordine» (LIF 41). Rileggere questa introduzione dopo più di trent’anni permette di capire quanta strada è stata percorsa in questo breve arco di tempo. E la procedura summenzionata insieme con il dizionario di macchina dell’italiano sono i progenitori dell’ultima versione del Data Base Testuale (dal 1989 brevetto CNR di Eugenio Picchi), il DBT 2000, il sistema che permette di costruire e di interrogare, con un’interfaccia semplice e veloce, banche-dati testuali di milioni di parole.

– del progetto CEG

Nel giugno del 1994 la Garzanti Editore spa autorizza l’ILC a «promuovere e lavorare alla realizzazione di un archivio elettronico delle Opere complete di Carlo Emilio Gadda, e più precisamente dell’edizione diretta dal prof. Dante Isella nella collana I libri della la Spiga».

L’anno precedente l’ILC era stato invitato dal prof. Antonio Paoletti, ordinario di fisica presso l’Università di Roma Tor Vergata, ad alcuni incontri il cui tema era la definizione di una metodologia adeguata per lo studio del linguaggio tecnico-scientifico nelle opere di Gadda. L’avvio di un tale progetto era auspicato da Paoletti, cultore dei testi dell’ingegnere-scrittore, e da Gian Carlo Roscioni. Da queste riunioni emerse l’opportunità di consultare i testi gaddiani con strumenti informatici e il nostro istituto dichiarò la sua disponibilità a prendere contatti con la casa editrice Garzanti che pochi mesi prima aveva portato a termine la pubblicazione in cinque volumi dell’opera di Gadda. La richiesta di concedere all’ILC l’utilizzazione dell’edizione suddetta, su qualsiasi supporto magnetico fosse stata memorizzata per la stampa, fu accolta e a Pisa furono inviati i testi codificati per la fotocomposizione insieme con l’autorizzazione a realizzare un prodotto elettronico con finalità didattiche e di studio. Il proposito di costruire l’archivio elettronico gaddiano nel più breve tempo possibile e utilizzando le risorse disponibili in Istituto era già una realtà quando fu presentata al CNR una richiesta, inascoltata, di finanziamento per il 1997 con il progetto Analisi computazionale del linguaggio tecnico-scientifico nell’opera di Carlo Emilio Gadda.

Il 14 novembre 1997, per iniziativa del prof. Paoletti, l’Archivio gaddiano in DBT 3.0 fu presentato ufficialmente nell’Aula Marconi della sede centrale del CNR.

Dal 1998 c’è un impegno dell’ILC a realizzare supporti lessicografici.

Nel 2000 è stato attivato un sito internet per divulgare gli strumenti lessicografici costruiti elaborando i dati dell’Archivio con il DBT e altri programmi applicativi, e organizzati poi in formato HTML, XML e PDF.

Nel 2001 è stata portata a termine la conversione del corpus in DBT-2000.

Le Opere di Carlo Emilio Gadda in DBT 2000

Il DBT è un sistema interattivo testuale che, tramite funzioni proposte da appositi menu, permette la lettura e la ricerca testuale in un archivio, che può essere costituito da un unico testo o da più testi, o in un corpus, formato da più archivi.

Le modalità di consultazione di un archivio e di un corpus sono le stesse. Nella consultazione di un corpus l’utente può analizzare la risposta globale, i dati di archivi selezionati o quelli di un singolo archivio.

Il DBT permette due livelli di analisi dei testi:

– il livello base attivato inserendo nel primo record del file-testo il codice di riferimento logico, che trasforma tutto il file in una unità logica. Se di un file si vogliono creare più unità logiche (paragrafi, capitoli, articoli, etc.) l’inserimento di n riferimenti logici successivi al primo permetterà di identificare nel testo n+1 unità logiche. Al sistema basta la presenza di uno o più codici di riferimento logico per distinguere i segni di interpunzione dalle stringhe alfabetiche, per fornire indici, concordanze, per produrre l’analisi di sequenze di parole, di sequenze di caratteri;

– il livello codificato, con l’inserimento di marcatori che segnalano la presenza nel testo di un numero, di una sigla, di una formula, di un’immagine, di segni speciali quali il trait d’union, di versi, di nomi propri, di linguaggi diversi da quello di base, di note.

Il corpus delle opere di Gadda è costituito da 33 archivi che corrispondono ai 33 testi dell’edizione garzantiana. Un testo in questo corpus è Schede autobiografiche (1.333 occorrenze) così come Scritti dispersi (194.709 occorrenze). Ogni archivio ha una sigla univoca di due o tre caratteri al massimo, per vincolo DBT. Nella maggior parte dei casi le sigle da noi utilizzate coincidono con quelle dei volumi garzantiani. Nell’Appendice 1 riportiamo di ogni archivio la decodifica della sigla ed alcuni dati quantitativi (occorrenze e forme). Tramite il lavoro redazionale iniziale e i successivi adattamenti alle nuove versioni del DBT, nei file-input-DBT vi è il testo gaddiano così come è impaginato nella edizione cartacea, corredato di note, disegni, formule e vi sono la maggior parte dei codici DBT che permettono di ottenere risposte articolate: le parole inizianti per maiuscola dopo il punto sono dal sistema distinte da quelle inizianti con maiuscola per norma o per volontà dell’autore, la parola francese, inglese, latina è riconosciuta diversa da quella italiana, sono state marcate le date, i numeri e le sigle, sono state distinte le note di tipo esplicativo, dalle varianti e dalle postille. Di alcuni codici DBT, che non sono stati ancora inseriti, si tratterà in seguito.

Una descrizione abbastanza dettagliata del lavoro fatto, per trasformare il materiale Garzanti in file-input-DBT, e di come si consulta un archivio DBT, è in un rapporto tecnico preparato per la presentazione del Corpus il 14 novembre 1997; a questo rapporto, che è disponibile sul nostro sito gaddiano rinviamo per una descrizione, ancora valida anche se ovviamente incompleta, per entrare nel mondo DBT.

Come esemplificazione delle potenzialità del sistema si propongono alcuni percorsi di navigazione nel corpus gaddiano attraverso l’uso dei menu. Le figure che proporremo conterranno a volte schermate copiate durante la consultazione del data base, a volte file word in cui è possibile salvare i risultati.

Figura 1: menu di apertura del DBT

Nella Figura 1 vi è il menu d’apertura a partire dal quale si consulta un singolo testo o un corpus, si prepara un nuovo testo, si hanno informazioni sul DBT. Attivando Ricerche corpus di testi si apre il menu della Figura 2.

Figura 2: menu di apertura della consultazione del corpus

Nella Figura 2, in alto a sinistra, compare un pulsante con il disegno di un paio di occhiali su un libro aperto: è il pulsante che attiva la funzione lettura (Figura 2.1) di un testo per unità logiche. La lettura è dinamica in quanto, mentre il testo scorre sul video, cliccando su una determinata parola si recuperano tutti i contesti della parola nell’archivio. Il pulsante con il disegno di una lente d’ingrandimento apre la finestra della funzione fondamentale del sistema, quella dell’interrogazione (Figura 2.2), che nella versione più recente propone come novità la ricerca di un lemma, dei sinonimi di un lemma, della punteggiatura.

Figura 2.1:
Lettura testo per unità logiche

Figura 2.2:
Menu a cascata dell’interrogazione

Il DBT offre quindi varie strategie di consultazione che tenteremo di esemplificare partendo dalla ricerca per Parola. Abbiamo scelto la parola castello, in onore di Edimburgo.

Nella Figura 3 appare la risposta del DBT: una finestra ci informa che castello è presente in 21 dei 33 testi, 11 volte nell’archivio attivo al momento della richiesta (La Madonna dei Filosofi in apertura del Data Base è il primo archivio del corpus), che Castello è in 17 archivi, 4 in MDF. I record della finestra possono essere tutti o in parte trasferiti nel Quadro, finestra chiave di tutta la seduta.

Figura 3: risultato della ricerca

Cliccando il mouse su uno o su tutti, avviene il trasferimento nel Quadro, e si può sapere in dettaglio, grazie al terzo pulsante da sinistra, la distribuzione nei 21 testi del corpus (Figura 4). Se si vuole selezionare i contesti di castello in un archivio differente da quello attivo (l’asterisco lo segnala), basta cliccare sul record che interessa per attivarlo (ad esempio Il Castello di Udine) e poi sul quarto pulsante da sinistra (Figura 5). Il quinto pulsante permette di avere tutti i 127 contesti della parola analizzata.

Figura 4: Mappa delle occorrenze di *castello* nel corpus

Figura 5: Contesti di *castello* in CDU
Gadda, Il Castello di Udine, RR1, Garzanti [4] 1) de’ miei timpani, come la plebaglia fuori di un castello munito. Vigili angosce dominarono la mia guerra, nonostante - RR1-SF.CDU.1.b.83.p.0136.14 2) un cieco, al mio disperato destino. Perché dal castello di Udine, il luglio, avevo veduto le Alpi - RR1-SF.CDU.1.c.117.p.0150.9 3) Il titolo è suscettivo di interpretazione simbolistica. Il castello di Udine, il sischièl a Udin , - RR1-SF.CDU.1.c(nt).40.p.0155.20 4) de’ Frangipani, dalle mura grigie, speronate come un castello. Ivi, d’attorno la fontana de’ mori, - RR1-SF.CDU.3.c.237.p.0239.11 - DBT – E.Picchi -----------------------------------------

Le risposte alla richiesta Lemma = castello e Sinonimo = castello sono mostrate nella Figura 6.

Figura 6:
Risultato della ricerca con Lemma e Sinonimo

Ovviamente per poter ottenere i contesti che ci interessano, i dati dalle rispettive finestre devono essere trasferiti completamente o in parte nel Quadro, la cabina di comando. Anche nel Quadro l’asterisco indica la parola attiva, della quale si possono ottenere i contesti sia con il quarto/quinto pulsante sia aprendo la funzione Contesti.

Nella Figura 7 si riproduce la finestra della funzione Contesti che dà la possibilità di scegliere l’ordinamento: per testo, della parte destra o sinistra del contesto, o di selezionarne una parte.

Figura 7: Dettaglio della funzione *Contesti*

Nella Figura 8 sono stati raggruppati i risultati iniziali dei contesti di arco nei tre ordinamenti suddetti.

Figura 8: Le tre tipologie di visualizzazione dei contesti

Una funzione molto utile è poi quella che estende a gruppi di parole la ricerca: Famiglie si attiva solo con la presenza nel Quadro di almeno due parole.

Gli operatori logici con i quali costruire un’espressione sono: & = AND, | = OR, \ = AND NOT e le parentesi tonde, che creano le gerarchie logiche all’interno dell’espressione.

Altri codici sono W = parola, F = famiglia. È possibile inoltre fissare l’ampiezza dei contesti, la distanza e la sequenza delle parole. Il sistema infine memorizza le funzioni già costruite che possono nuovamente essere utilizzate anche con parametri diversi.

Nella Figura 9 sono raccolti i risultati di quattro famiglie, come specificato nel sommario iniziale presente in ciascuna finestra.

Figura 9: Output della ricerca per famiglie in 4 tipi di combinazione degli operatori logici

Il DBT offre un altro percorso per definire una famiglia utilizzando anche la ricerca per lemma e per sinonimi: si tratta della Famiglia Hard, attivando la quale si apre la seguente finestra di selezione dei parametri (Figura 10). Seguono alcuni esempi di risultati.

Figura 10: Finestra di dialogo per la definizione della
*Famiglia Hard* e relativi parametri

[5,10]

1 – L=soffrire
2 – fame
N. Contesti associati: 6

Gadda, Giornale… di prigionia, SGF2, Garzanti

1) ancora far qualcosa per la mia patria! Continuo a *soffrire* orribilmente la *fame* e mi trovo in uno stato di debolezza, come SGF2-GGP.D17.656.p.0675.11

2) tutti perché è logico che l’ufficiale di cucina non *soffre* la *fame*: in me essa era terribile, simile alla morte SGF2-GGP.D18.a.124.p.0748.11

3) veramente da stancarsi. L’unico compenso: non si *soffre* la *fame*. E per chi ha la fame d’una belva SGF2-GGP.D18.a.140.p.0748.27

4) compagni certo più di me. Per ora io non *soffro* la *fame*. Del mio animo non parlo: costretto a difendermi SGF2-GGP.D18.a.207.p.0750.14

5) cuocere. – Vantaggi inerenti alla mia posizione: non *soffro* la *fame*: mangio patate, carne, in quantità maggiore dei SGF2-GGP.D18.a.275.p.0752.7

6) Mi struggo per le spese, perché quest’inverno si *soffrirà* la *fame*, perché il medico ha ordinato per Clara il soggiorno SGF2-GGP.Vita.1443.p.0864.7

[5,10]

1 – L=soffrire
2 – S=fame
N. Contesti associati: 2

Gadda, Giornale… di prigionia, SGF2, Garzanti

1) compressione del braccio o della gamba.– Qui si *soffre* anche la *sete* poiché la sola acqua è quella accolta dal cielo in SGF2-GGP.G16.2.160.p.0561.5

Gadda, Meditazione milanese, SVP, Garzanti

2) vino è male per l’ubriacone, bene per chi *soffrendo* di astenia gastrica ha *bisogno* di un blando eccitante. Il ferire d’arme uno S(V)P-MM.1.2.IX.68.p.0683.17

[5,10]

1 – L=soffrire
2 – *mente
N. Contesti associati: 11

Gadda, Il Castello di Udine, RR1, Garzanti

1) lo dice. Ma di ciò basti. Ho *sofferto*: *orrendamente *sofferto*: e delle mie angosce il 99 per 100 lo lascerò nella RR1-SF.CDU.1.b.340.p.0142.38

Gadda, I viaggi la morte, SGF1, Garzanti

2) arte” non ci governa a ogni istante. Ho *incredibilmente *sofferto*, indelebili ingiurie ho patito, nella vita, SGF1-VM.1.1.408.p.0438.5

Gadda, Scritti dispersi, SGF1, Garzanti

3) il nostro Vittorini in “Solaria”: documento di verità *sinceramente *sofferta*. “Ammiro, in Constant, una miscela SGF1-SD.9.227.p.0721.16

4) tutta una sua natura, (che è evidente ma *cerebralmente *sofferta*), senza pietà, senza abbandoni. Coi mezzi che SGF1-SD.18.193.p.0776.35

5) una celere epitome, d’un riassunto della conoscenza già *sofferta* e di quella ancora *avidamente* desiderata e creduta ancora possibile. Meno sprovveduto ch’egli SGF1-SD.118.28.p.1212.28

Gadda, I Luigi di Francia, SGF2, Garzanti

6) corallo delle labbra o lo splendor degli occhi ne abbiano *minimamente *sofferto*. Era vestita da capo a piedi in punto di SGF2-LDF.XIV.6.38.p.0157.32

Gadda, Eros e Priapo, SGF2, Garzanti

7) manifesta nei reali pericoli, nelle vere inimicizie: non *soffre* d’essere montata *artificiosamente* a straziare un obietto innocuo, come fa il gatto SGF2-EP.6.1043.p.0313.28

Gadda, Giornale… di prigionia, SGF2, Garzanti

8) ancora far qualcosa per la mia patria! Continuo a *soffrire *orribilmente* la fame e mi trovo in uno stato di debolezza SGF2-GGP.D17.656.p.0675.11

9) che mi permette di maggiormente percepire, quindi di *maggiormente* vivere, se pure *soffrendo*. Altro difetto la mia timidezza, invincibile, inguaribile SGF2-GGP.D18.a.413.p.0755.25

Gadda, Meditazione milanese, SVP, Garzanti

10) forte alpinista non è in pericolo rasentando l’abisso. *Naturalmente* chi *soffre* di vertigini ha paura della forra e non osa guardarla S(V)P-MM.1.2.IX.79.p.0683.28

11) mio corpo n non soffriva: ma il mio animo *soffriva *grandemente* dell’impotenza, tanto che io, camminando su e S(V)P-MM.1.3.XXI.56.p.0802.25

Il DBT propone altri percorsi per la ricerca di gruppi di parole, di sintagmi: la Ricerca sequenziale, le Cooccorrenze statistiche, l’Analisi delle preposizioni, nel menu Varie, e la Lista di parole, nel menu Ricerca. Riprenderemo in seguito quest’argomento.

Abbiamo per ora presentato a grandi linee ciò che il DBT permette di fare entrando nell’ambiente di lavoro Interrogazione. Fuori di quest’ambiente il database mette a disposizione dell’utente alcuni strumenti di lavoro per un archivio, altri per un corpus.

Tenteremo una descrizione sommaria di questi strumenti, partendo da quelli relativi ad un archivio con l’aiuto anche delle immagini-stampa successive.

Di un archivio il DBT produce Indici vari (Figura 11): alfabetico (Figura 12), decrescente, inverso, locorum, dei caratteri (Figura 13), delle parole (Figura 14). Quest’ultimo, con caratteristiche di output differente, ha nell’ultima versione del programma, acquistato autonomia con la funzione Segmenti ripetuti. Nella Figura 11 compare anche la funzione Ricerca nomi propri che in parte sostituisce la marcatura redazionale. Infatti in questo caso il programma in un archivio riconosce e restituisce tutte le parole inizianti per maiuscola, tentando di escludere quelle dovute alla punteggiatura. Della funzione Ricerca strutture concettuali si parlerà in seguito.

Figura 11: Funzioni disponibili per un archivio singolo

Figura 12: Finestra di dialogo per impostare i parametri
di generazione delle frequenze alfabetiche

Figura 13: Finestra di dialogo per ottenere
i dati quantitativi sulle sequenze di caratteri

Figura 14: Finestra di dialogo per ottenere
i dati quantitativi delle sequenze di parole

Di un corpus invece il DBT produce le frequenze (Figura 15).

Figura 15: Finestra di dialogo per ottenere
le frequenze dell’intero corpus

Da redattori a utenti del corpus

Dal 1998 è iniziata la nostra attività di utenti del Corpus con l’obiettivo di realizzare strumenti lessicografici.

Il primo quaderno raccoglie gli apax che fanno parte del lessico base dell’intero corpus. È un inventario che potrebbe essere integrato con i dati del sottoinsieme delle note e lemmatizzato.

Tutte le forme gaddiane accentate graficamente sono documentate nel secondo quaderno, motivato da una nota gaddiana nel saggio Arte del Belli che così recita: «Beninteso. Dacché le “parolacce”, come le chiama il Trascrittore, [Antonio Baldini che nel 1944 pubblicò un florilegio di sonetti del Belli] sono sacre (filologicamente): non meno di qualunque altra parola o virgola o accento del testo: e l’espungerle o il mimetizzarle riescirebbe, e riuscì sempre difatti, a intollerabile profanazione» (SGF I 555).

Il terzo quaderno contiene una selezione di concordanze di termini gaddiani che appartengono al linguaggio base dei testi del primo volume garzantiano. In questa fase di lavoro sono stati definiti come tali le forme non riconducibili ad un lemma registrato nel Vocabolario della Lingua Italiana di Bruno Migliorini (1965).

Il sito web

Mentre si lavorava sui testi gaddiani, il termine Web diventava sempre più popolare e si proponeva in poco tempo come il più ricco archivio al mondo di documenti testuali. Nel 1999 abbiamo cominciato a pensare a un sito dedicato alle opere di/su Gadda, ad imparare le tecniche informatiche, dalla grafica ai formati HTML e XML, per realizzarlo, e abbiamo comunicato alla Garzanti il nostro proposito. All’inizio del 2000, pur non avendo ricevuto un finanziamento ad hoc, con le nostre sole forze, è stato attivato il sito CEG, nel quale si è pubblicizzata la storia del progetto, le nostre prime pubblicazioni. Pochi mesi dopo i primi contatti con Federica Pedriali.

Nella Figura 16 abbiamo riportato l’home page del nostro sito. Nella parte sinistra vi è il menu, che propone:

Mappa	la mappa del sito, che viene aggiornata periodicamente
Presentazione	la presentazione del progetto
Bibliografia	la bibliografia
Cronografia	la cronografia, in cui salviamo le date importanti (avvio di un progetto editoriale, inserimento di dati, etc.)
Link	i link a siti significativi
Report	le nostre introduzioni in HTML a raccolte di dati gaddiani
Consulta	le raccolte di dati gaddiani, in XML e HTML
Concordanze	le tradizionali concordanze finora prodotte in PDF
Strumenti	gli strumenti lessicografici creati con funzioni DBT e con l’impiego di fogli elettronici
Demo	una demo del Corpus, costruita rispettando le limitazioni del copyright
Shortview	la presentazione del progetto ad alcuni congressi.

Nel riquadro in basso segnaliamo invece gli ultimi lavori in progress o conclusi e messi a disposizione nel sito.

Figura 16: Homepage del sito

Prospettive

Per il futuro prevediamo di seguire differenti se pur complementari percorsi.

Abbiamo in cantiere la produzione di lessici specifici, quali il sottoinsieme di termini francesi, inglesi, tedeschi, spagnoli, dei nomi propri, delle date, dei numeri, delle parole composte. Ciò è possibile per il lavoro redazionale iniziale (inserimento di codici) e con l’utilizzo di funzioni DBT. Nel corpus gaddiano manca del tutto il codice connotatore, un codice che può essere utilizzato per etichettare l’argomento (es. recensione di un’opera teatrale) di un’unità testuale, la figura retorica sottesa a una frase (es. similitudine), la caratterizzazione terminologica (es. nome di una divinità) di una parola o di un sintagma. La costruzione invece di repertori lessicali, quali quello dei colori, degli animali, delle piante, ai quali stiamo lavorando, consiste nella raccolta dei termini in file esterni al DBT, che tramite la funzione Lista di parole il sistema utilizza per restituirne le occorrenze del corpus.

Stiamo progettando la creazione, tramite il DBT, di strutture concettuali e la loro applicazione, sempre tramite il DBT, all’opera gaddiana. Sembra opportuno qualche chiarimento in proposito. Il DBT tramite la funzione Cooccorrenze statistiche permette sia di catturare tutte le coppie di parole presenti in un testo ad una distanza massima predefinita sia di costruire da un lemma dato i sintagmi, le aggregazioni semantiche che lo riguardano. Questi risultati possono essere utilizzati a loro volta nella costruzione e nella verifica di alberi tematici da applicare ai testi tramite la funzione di Ricerca strutture concettuali. Altre funzioni a questo scopo disponibili sono la Ricerca sequenziale, l’Analisi delle preposizioni e Segmenti ripetuti. È questo uno di quei casi in cui, citando Tito Orlandi:

L’informatica mette in forte risalto un altro aspetto, che pure era già parte del patrimonio metodologico delle discipline umanistiche, ma in maniera non del tutto consapevole. Alludo al fatto che ogni risultato dell’indagine umanistica è un momento di un processo che con Jean Claude Gardin (Archaeological Constructs, Oxford Univ. Press 1983) potremmo definire «a spirale», per il quale l’analisi e la spiegazione storica, letteraria, archeologica, ecc. dei dati determina una diversa formalizzazione dei dati stessi (si pensi a un testo memorizzato o a un catalogo di oggetti e simili), che diventa a sua volta un diverso oggetto delle successive analisi. Cfr. Atti del convegno Calcolatori e scienze umane (Milano: Etas, 1992), 19-20.

Un accenno infine ad una nostra utopia confessata ad Edimburgo:

Si dimostrerà, infine, la possibilità di partire dal corpus elettronico gaddiano per un progetto lessicografico quale la produzione, in gran parte automatizzata, di un dizionario gaddiano, essendo possibile non solo la produzione di indici e concordanze ma anche la creazione di sottoinsiemi di termini inseriti in una identica struttura sintattica, l’accostamento di parole secondo caratteristiche morfologiche, l’utilizzo di fogli elettronici per operazioni-filtro.

… e all’opinione di Gadda: «Ogni utopia converge verso una realtà e sarà n+1 se potrà conglomerarsi con altre e convergere verso il reale. Già dissi che il mondo sembra vivere di “relazioni potenziali” che fanno di tutto per affacciarsi alla realtà» (SVP 769).

ILC-CNR, Pisa

Appendice 1

Tabella delle sigle e dei dati quantitativi (numero occorrenze e forme):

ADA	L’Adalgisa (disegni milanesi)	RR1	1988	109.868	26.208
AG	Accoppiamenti giudiziosi	RR2	1989	98.262	20.193
AN	Gli anni	SGF1	1991	20.681	7.182
AS	Altri scritti	SVP	1993	9.388	3.683
CD	La cognizione del dolore	RR1	1988	70.727	16.128
CDU	Il castello di Udine	RR1	1988	62.959	16.074
EP	Eros e Priapo (Da furore a cenere)	SGF2	1992	56.647	15.333
GAS	Il guerriero, l’amazzone, lo spirito [...] Foscolo	SGF2	1992	9.369	3.072
GB	Gonnella buffone	SVP	1993	8.561	2.485
GGP	Giornale di guerra e di prigionia	SGF2	1992	136.961	19.372
HJ	Háry János	SVP	1993	11.641	2.926
LDF	I Luigi di Francia	SGF2	1992	40.257	10.116
MDF	La Madonna dei Filosofi	RR1	1988	28.183	9.060
MDI	Le meraviglie d’Italia	SGF1	1991	57.127	16.441
MDS	I miti del somaro	SVP	1993	5.768	2.522
MEC	La meccanica	RR2	1989	40.574	10.836
MM	Meditazione milanese	SVP	1993	84.870	14.698
PDO	Il palazzo degli ori	SVP	1993	19.783	4.848
PDT	PAGINE DI DIVULGAZIONE TECNICA	SVP	1993	60.442	12.956
PLF	Il primo libro delle Favole	SGF2	1992	15.662	6.066
PS	Poesie	SGF2	1992	3.187	1.310
QP	Quer pasticciaccio brutto de via Merulana	RR2	1989	100.393	19.422
QPL	Quer pasticciaccio […] (Letteratura, 1946-47)	RR2	1989	71.389	15.392
RAI	Racconti incompiuti	RR2	1989	34.070	9.404
RD	Racconti dispersi	RR2	1989	29.803	8.697
RI	Racconto italiano di ignoto del novecento	SVP	1993	67.743	15.304
SA	Schede autobiografiche	SGF2	1992	1.333	777
SD	Scritti dispersi	SGF1	1991	194.709	34.276
TRE	TRADUZIONI	SVP	1993	49.568	10.466
TVR	Il Tevere	SVP	1993	8.444	3.178
UI	Ultimi inediti	SVP	1993	2.256	1.061
VLC	Verso la Certosa	SGF1	1991	43.561	13.299
VM	I viaggi la morte	SGF1	1991	78.411	20.282

Appendice 2

Si riporta l’elenco dei nostri lavori consultabili in rete al seguente indirizzo: http://www.ilc.cnr.it/CEG/Rep_Index.htm

1. 1997. L’Archivio Elettronico delle Opere di C.E. Gadda: come è stato costruito, come si consulta, Maria Luigia Ceccotti & Manuela Sassi, ILC-CNR, S.T.A.R.

2. 1998. Apax in Gadda – Un Indice Inverso, Maria Luigia Ceccotti & Manuela Sassi, ILC-CNR, S.T.A.R.

– forme elise (es.: letica’ - mmiezz’)
– -aa/ -na (es.: baccaa - checcanzuna)
– -pa / -za (es.: sénapa - sapienzuzza)
– -b ; -c; -ae / -me (es.: sub - frustume)
– -ne / -dre (es.: recane - scolopendre)
– -ere / -ze (es.: ère - elegantuzze)
– -f; -g; -h -chi (es.: ciàaf - arciduchi)
– -ghi / -oi (es.: esofàghi - vvoi)
– -pi /-zi (es.: crepi - complimentuzzi)
– -k; -l; -m; -n; -ho (es.: ciciàk - serrucho)
– -io/ -lo (es.: aio - lapislazzulo)
– -mo/ -no (es.: aricordamo - novantuno)
– -oo / -zo; -p; -r ; -s; -t; -u; -x ; -y; -z (es.: abeto - capataz)

3. 1999. Forme accentate in Gadda. Un index locorum, Maria Luigia Ceccotti & Manuela Sassi, ILC-CNR, S.T.A.R.

4. 1999. Alla ricerca dei termini gaddiani. Una pre-concordanza, Maria Luigia Ceccotti & Manuela Sassi, ILC-CNR, S.T.A.R.

5. 2002. La cultura latina in C.E. Gadda, Maria Luigia Ceccotti & Manuela Sassi, ILC-CNR, S.T.A.R.

6. 2003. Annotazioni su composti in -cola (da Dante a Gadda), Maria Luigia Ceccotti & Manuela Sassi, ILC-CNR.

Le pubblicazioni elencate sono state prodotte nell’ambito del progetto in corso, anche in forma cartacea; le seguenti soltanto in forma elettronica:

1. Concordanze per forma del Pasticciaccio (completo da A a Z);
2. Concordanze complete del punto interrogativo (contesti con ordinamento destro al ?);
3. Concordanze complete del punto interrogativo (contesti con ordinamento sinistro al ?);
4. Concordanze complete del punto esclamativo (contesti con ordinamento sinistro al !);
5. Cooccorrenze Statistiche di Giornale di guerra e prigionia;
6. Index Locorum (parziale) delle forme latine gaddiane;
7. Forme latine in Orazio e Gadda – Tabella di confronto;
8. Confronti fra le due versioni del Pasticciaccio;
9. Iterazioni gaddiane.

Published by The Edinburgh Journal of Gadda Studies (EJGS)

ISSN 1476-9859
ISBN 1-904371-06-X

© 2004-2025 by Maria Luigia Ceccotti, Manuela Sassi & EJGS. First published in EJGS (EJGS 4/2004).
artwork © 2004-2025 by G. & F. Pedriali.
framed image: after Leonardo, Crossbow Machine, 1480-82, Codex Atlanticus, Ambrosian Library, Milan.

The digitisation and editing of this file were made possible thanks to the generous financial support of the School of Languages, Literatures and Cultures, University of Edinburgh.

All EJGS hyperlinks are the responsibility of the Chair of the Board of Editors.

EJGS is a member of CELJ, The Council of Editors of Learned Journals. EJGS may not be printed, forwarded, or otherwise distributed for any reasons other than personal use.

Dynamically-generated word count for this file is 5162 words, the equivalent of 15 pages in print.

L’Archivio elettronico delle Opere di Carlo Emilio Gadda in DBT 2000 – risultati e prospettive

Maria Luigia Ceccotti & Manuela Sassi

Cenni sulla storia… – dell’informatica pisana

Le Opere di Carlo Emilio Gadda in DBT 2000

Appendice 1

Appendice 2

Cenni sulla storia…
– dell’informatica pisana