“ll dialetto di Milano? Direi che è un misto
di italiano e inglese”. La battuta sintetizza bene l’onnipresenza del
caricaturale vernacolo meneghino, versione anni Duemila. Alberto lavora nel
dipartimento comunicazione di una società fintech. Trasferito dal sud Italia in
Lombardia, diverse esperienze all’estero alle spalle, racconta a cena che in
tre anni non gli è mai capitato di sentire una conversazione in milanese. Non
ne conosce vocaboli e cadenza se non nelle imitazioni di qualche comico.
In Meridione
il dialetto è parlato comunemente accanto all’italiano: persino gli immigrati
lo imparano facilmente, per necessità. Nel capoluogo lombardo la realtà è
diversa. Ascoltare la lingua di Carlo Porta è raro: probabilmente la perdita è
stata favorita dall’arrivo di abitanti provenienti da ogni parte d’Italia,
dalla vocazione commerciale della città e dal fatto che parlare solo italiano
era sintomo di avvenuta scalata sociale.
Non è una
domanda peregrina, dunque, chiedersi quanto a lungo resisterà senza parlanti.
Diventerà una lingua morta, da filologi, un po’ come il latino?
7mila
lingue, quasi la metà a rischio
Le premesse
sembrano esserci. Questo esempio così vicino al nostro vissuto quotidiano è
però la spia di una questione più ampia. Il problema non riguarda solo i
dialetti. In totale sono infatti oltre settemila, stima lo Undp (il
programma delle Nazioni unite per lo sviluppo), le lingue parlate nel globo,
alcune da poche centinaia di individui. Il 44% sarebbe in pericolo di
estinzione.
Con la globalizzazione,
il problema di preservare la biodiversità linguistica – portatrice non solo di
cultura, ma di un modo di vedere il mondo – ha cominciato a porsi con
maggiore insistenza. Non mancano iniziative di tutela locali, come corsi serali
per appassionati e nostalgici, ma con tutta probabilità si tratta di
palliativi.
Un supporto
fino a poco tempo fa impensabile può arrivare, però, per linguisti e
antropologi dalla tecnologia. Probabilmente non è la panacea di tutti i mali.
Ma, come vedremo, può aiutare.
Il Rosetta
project
Tra i primi
programmi digitali al mondo per la tutela delle lingue in via di estinzione c’è
il Rosetta project, che da oltre due decenni raccoglie specialisti e parlanti
nativi allo scopo di costruire un database pubblico e liberamente accessibile
di tutte le lingue umane. Il Rosetta project fa capo a un ente molto
particolare: la Long Now foundation (Lnf, tra i membri
fondatori c’è il musicista Brian Eno). La Lnf parte da un presupposto: è
necessario pensare seriamente al futuro remoto, per non farsi trovare
impreparati dallo scorrere del tempo.
Il
ragionamento è tutt’altro che banale. “Si prevede che dal cinquanta al
novanta per cento delle lingue parlate spariranno nel prossimo secolo”,
spiegano gli organizzatori sul sito, “molte con poca o nessuna documentazione”.
Come preservarle?
Lo sguardo
torna all’Antico Egitto: così è nato il Rosetta Disk, un disco di nichel del diametro
di tre pollici su cui sono incise microscopicamente quattordicimila pagine che
traducono lo stesso testo in oltre mille lingue. Il modello è la stele di
Rosetta, che due secoli fa consentì di interpretare i geroglifici, di cui si
era persa la conoscenza. Una lezione che gli studiosi non hanno
dimenticato.
Il principio
è più o meno lo stesso delle vecchie microfiches universitarie: per
visualizzare il contenuto basta una lente di ingrandimento. Non si tratta,
insomma, di una sequenza di 0 e 1, quindi non è necessario un programma di
decodifica. Il rischio – in Silicon Valley lo sanno bene – sarebbe
che il software vada perso nel giro di qualche decennio per via di un
cambiamento tecnologico; o (e sarebbe anche peggio) che qualche società privata
che ne detiene i diritti decida di mettere tutto sotto chiave, come peraltro
avviene per molte applicazioni con la politica del cosiddetto “vendor lock in”
(Guerre di Rete ne ha parlato in questo pezzo). Qui, invece, la faccenda
è semplice: basta ingrandire la superficie di cinquecento volte con una lente e
il gioco è fatto.
Il prezioso
supporto è acquistabile per qualche centinaio di dollari, ed è stato spedito anche nello spazio con la
sonda spaziale Rosetta dell’Agenzia spaziale europea (nonostante l’omonimia,
non si tratta dello stesso progetto). Il disco è collocato in una sfera dove
resta a contatto con l’aria, ma che serve a proteggerlo da graffi e abrasioni.
Con una manutenzione minima, recitano le note di spiegazione, “può facilmente
durare ed essere letto per centinaia di anni”. Resiste, ovviamente, anche alla
smagnetizzazione (sarebbe basato su test condotti al Los Alamos National
Laboratory, lo stesso del progetto Manhattan di Oppenheimer dove fu concepita
la bomba atomica).
Una scelta
difficile
Porsi in una
prospettiva di lungo periodo pone interessanti domande. Che tipo di
informazioni conservare per un futuro nell’ipotesi – speriamo remota – che
tutto il nostro sapere, sempre più digitalizzato, vada perso? Meglio preservare
la letteratura, le tecniche ingegneristiche, o le cure per le malattie? Un
criterio è evidentemente necessario.
La scelta della
Long now foundation è stata quella di lasciare ai posteri una chiave di
interpretazione utile a tradurre tutto ciò che è destinato a sopravvivere. Ma
il progetto comprende anche una sezione digitale, cresciuta nel corso degli
anni fino a raggiungere oltre centomila pagine di documenti testuali e
registrazioni in oltre 2.500 lingue. I contenuti, si legge sul sito, sono
disponibili a chiunque per il download e il riutilizzo secondo i principi
dell’open access; anche il pubblico può contribuire alla raccolta inviando
materiale di vario tipo. Fondamentale per raccapezzarsi è il ruolo dei metadati
(data, luogo, formato e altri elementi dei dati in questione) – ci torneremo
più avanti.
Il progetto
francese Pangloss
Anche in
Europa ci sono progetti di tutela del patrimonio linguistico in piena attività.
Per esempio in Francia – non dimentichiamo che la stele di Rosetta (conservata
al British Musem di Londra)
fu rinvenuta nell’ambito delle spedizioni napoleoniche – esiste il progetto Pangloss, che si propone di
realizzare un archivio aperto di tutte le lingue in pericolo o poco parlate e
contiene documenti sonori di idiomi rari o poco studiati, raccolti grazie al
lavoro di linguisti professionisti su una piattaforma moderna e funzionale
battezzata Cocoon.
Attualmente
la collezione comprende un corpus di 258 tra lingue e dialetti di 46 paesi, per
un totale di più di 1200 ore d’ascolto. I documenti presentati contengono per
lo più discorsi spontanei, registrati sul campo. Circa la metà sono trascritti
e annotati.
C’è anche un
po’ di Italia: il dialetto slavo molisano (parlato
nei tre villaggi di San Felice del Molise, Acquaviva Collecroce e Montemitro,
in provincia di Campobasso, a 35 chilometri dal mare Adriatico) e il Valoc, un dialetto
valtellinese lombardo.
Pangloss è
open, sia in modalità “base” sia in quella “pro”. La politica è di apertura
totale: per consultare il sito web non è necessario accettare specifiche
condizioni d’uso né identificarsi. Non si utilizzano cookie di
profilazione, come orgogliosamente dichiarato.
“Il progetto
Pangloss è nato negli anni ‘90 e da allora si è evoluto considerevolmente”,
dice a Guerre di Rete Severine Guillaume, che ne è la
responsabile. “Si tratta di una collezione orale, il che significa che
raccogliamo contenuti video e audio che possono anche essere accompagnati da
annotazioni: trascrizioni, traduzioni, glosse. Ogni risorsa depositata
dev’essere fornita di metadati: titolo, lingua studiata, nome di chi la carica,
persone che hanno contribuito alla creazione, data della registrazione,
descrizione del contenuto”.
Come
analizzare i dati: l’impiego dell’AI
L’intelligenza
artificiale ha cominciato a farsi strada anche tra questi archivi digitali.
“Abbiamo condotto degli esperimenti sui nostri dati con l’obiettivo di aiutare
i ricercatori ad arricchirli”, conferma Guillaume. “Sono stati diversi i test
di trascrizione automatica, e due di loro l’hanno già impiegata: per ogni
minuto di audio si possono risparmiare fino a quaranta minuti di lavoro,
lasciando agli studiosi il tempo di dedicarsi a compiti più importanti. Al
momento, insomma, direi che stiamo sperimentando”.
Non è detto
che funzioni in ogni situazione, ma “la risposta iniziale è affermativa quando
la trascrizione riguarda un solo parlante”, prosegue Guillaume. Il problema sta
“nella cosiddetta diarization, che consiste nel riconoscere chi sta
parlando in un dato momento, separare le voci, e attribuire ogni segmento audio
al partecipante corretto”.
Le
prospettive, tutto sommato, sembrano incoraggianti. “Abbiamo cominciato a
cercare somiglianze tra due idiomi o famiglie linguistiche: ciò potrebbe
rivelare correlazioni che ci sono sfuggite”, afferma la dirigente. Siamo, per
capirci, nella direzione della grammatica universale teorizzata da Noam
Chomsky, e immaginata da Voltaire nel suo Candido (il dottor Pangloss,
ispirandosi a Leibniz, si poneva lo scopo di scovare gli elementi comuni a
tutte le lingue del mondo).
Come
conservare i dati: il ruolo delle infrastrutture pubbliche
Il problema
di preservare il corpus di conoscenze è stato affrontato? “Sì”, risponde
Guillaume. “La piattaforma Cocoon, su cui è basata la collezione Pangloss,
impiega l’infrastruttura nazionale francese per assicurare la longevità dei
dati. Per esempio, tutte le informazioni sono conservate sui server
dell’infrastruttura di ricerca Huma-Num, dedicata ad arti, studi umanistici e
scienze sociali, finanziata e implementata dal ministero dell’Istruzione
superiore e della Ricerca. Vengono poi mandate al Cines, il centro informatico
nazionale per l’insegnamento superiore, che ne assicura l’archiviazione per
almeno quindici anni. Infine, i dati sono trasferiti agli archivi nazionali
francesi. Insomma, di norma tutto è pensato per durare per l’eternità”.
Altro
progetto dalla connotazione fortemente digitale è Ethnologue.
Nato in seno alla SIL (Summer Institute of Linguistics, una ong di ispirazione
cristiano-evangelica con sede a Dallas) copre circa settemila lingue, offrendo
anche informazioni sul numero di parlanti, mappe, storia, demografia e altri
fattori sociolinguistici. Il progetto, nato nel 1951, coinvolge quattromila
persone, e nasce dall’idea di diffondere le Scritture. Negli anni si è
strutturato in maniera importante: la piattaforma è ricca di strumenti, e molti
contenuti sono liberamente fruibili. Sebbene la classificazione fornita dal
sito (per esempio la distinzione tra lingua e dialetto) sia stata messa in
discussione, resta un punto di riferimento importante.
I progetti
italiani
Non manca
qualche spunto italiano. Come, per esempio, Alpilink. Si tratta
di un progetto collaborativo per la documentazione, analisi e promozione dei
dialetti e delle lingue minoritarie germaniche, romanze e slave dell’arco
alpino nazionale. Dietro le quinte ci sono le università di Verona, Trento,
Bolzano, Torino e Valle d’Aosta. A maggio 2025 erano stati raccolti 47.699 file
audio, che si aggiungono ad altri 65.415 file collezionati nel precedente
progetto Vinko. Le frasi pronunciate dai parlanti locali con varie inflessioni
possono essere trovate e ascoltate grazie a una mappa interattiva, ma esiste
anche un corpus per specialisti che propone
gli stessi documenti con funzioni di ricerca avanzate. Il crowdsourcing (cioè
la raccolta di contenuti) si è conclusa solo qualche mese fa, a fine giugno. La
difficoltà per gli anziani di utilizzare la tecnologia digitale è stata
aggirata coinvolgendo gli studenti del triennio
delle superiori.
Altro
progetto interessante è Devulgare. In questo
caso mancano gli strumenti più potenti che sono propri dell’università; ma
l’idea di due studenti, Niccolò e Guglielmo, è riuscita ugualmente a
concretizzarsi in un’associazione di promozione sociale e in un’audioteca che
raccoglie campioni vocali dal Trentino alla Calabria. Anche in questo caso, chiunque può partecipare inviando
le proprie registrazioni. Dietro le quinte, c’è una squadra di giovani
volontari – con cui peraltro è possibile collaborare – interessati alla
conservazione del patrimonio linguistico nazionale. Un progetto nato dal basso
ma molto interessante, soprattutto perché dimostra la capacità di sfruttare
strumenti informatici a disposizione di tutti in modo creativo: Devulgare si
basa, infatti, sulla piattaforma Wix, simile a WordPress e che consente di
creare siti senza la necessità di essere maestri del codice. Una vivace pagina Instagram con 10.300 follower –
non pochi, trattandosi di linguistica – contribuisce alla disseminazione
dei contenuti.
Ricostruire
la voce con la AI
Raccogliere
campioni audio ha anche un’altra utilità: sulla base delle informazioni
raccolte e digitalizzate oggi, sarà possibile domani, grazie all’intelligenza
artificiale, ascoltare le lingue scomparse. L’idea viene da una ricerca
applicata alla medicina, che attraverso un campione di soli otto secondi,
registrato su un vecchio VHS, ha permesso di ricostruire con l’AI la voce di
una persona che l’aveva persa.
È accaduto in Inghilterra, e recuperare il
materiale non è stato una passeggiata: le uniche prove della voce di una donna
affetta da Sla risalivano agli anni Novanta ed erano conservate su una vecchia
videocassetta. Nascere molti anni prima dell’avvento degli smartphone
ovviamente non ha aiutato. A centrare l’obiettivo sono stati i ricercatori
dell’università di Sheffield. Oggi la donna può parlare, ovviamente con delle
limitazioni: deve fare ricorso a un puntatore oculare per comporre parole e
frasi. Ma la voce sintetizzata è molto simile a quella che aveva una volta. E
questo apre prospettive insperate per i filologi.
Come spesso
accade, il marketing ha naso per le innovazioni dotate di potenziale. E così,
oggi c’è chi pensa di sfruttare l’inflessione dialettale per conquistare la
fiducia dei consumatori. È quello che pensano i due ricercatori Andre Martin
(Università di Notre Dame, Usa) e Khalia Jenkins (American University,
Washington), che nella presentazione del loro studio citano
addirittura Nelson Mandela: “Se parli a un uomo in una lingua che capisce,
raggiungerai la sua testa. Ma se gli parli nella sua lingua, raggiungerai il
suo cuore”.
“I sondaggi
dell’industria hanno fotografato il sentiment sempre più
negativo verso l’AI”, scrivono gli studiosi, che lavorano in due business
school. “Immergendosi a fondo nel potenziale dei dialetti personalizzati,
creati con l’AI al fine di aumentare la percezione di calore, competenza e
autenticità da parte dell’utente, l’articolo sottolinea [come in questo modo si
possa] rafforzare la fiducia, la soddisfazione e la lealtà nei confronti dei
sistemi di intelligenza artificiale”. Insomma, addestrando gli agenti virtuali
a parlare con una cadenza amica si può vendere di più. C’è sempre un risvolto
business, e qui siamo decisamente lontani dagli intenti di conservazione della
biodiversità linguistica. Ma anche questo fa parte del gioco.
Nessun commento:
Posta un commento