Esiste un linguaggio tecnico ed evocativo che definisce le componenti di un periodo o di una proposizione interpretate da un sistema informatico. Un nuovo linguaggio per il linguaggio. Per esempio, viene definito token (tradotto letteralmente gettone) l’unità di base della frase, vengono definite stopwords tutte le parole più comuni del linguaggio, e viene definita bag of words (borsa di parole) la raccolta sparsa delle parole di un testo. L’analisi logica e grammaticale dei computer avviene tramite il Natural Language Processing, una tipologia di Intelligenza Artificiale alla base di numerosi tool che utilizziamo quotidianamente senza farci troppo caso: assistenti virtuali, traduttori automatici e chatbot. Pian piano stiamo trasformando ogni oggetto che ci limitavamo ad attaccare alla corrente elettrica in qualcosa di cognitivo, capace di imparare dal passato e di conversare con noi.
Le idee alla base di queste applicazioni non sono recenti e hanno destato la fantasia di molti scrittori e cineasti: Italo Calvino, ad esempio, paragonava l’autore a una “macchina scrivente” e si chiedeva fino a che punto la cibernetica potesse avvicinarsi alla creatività umana, mentre C-3PO di Guerre Stellari è forse l’esempio più famoso di assistente virtuale nel cinema sci-fi. I primi tentativi di traduzione automatica sono stati fatti subito dopo la seconda guerra mondiale adattando i metodi di decodificazione dei messaggi criptati. In ogni caso, non è corretto aspettarsi che ad una grande scoperta scientifica debba corrispondere una rivoluzione culturale. A far diventare realtà quelli che erano esercizi intellettuali fu l’avvento del web 2.0: le grandi quantità di informazioni riversate in rete fecero nascere l’esigenza di trattare e contenere una grande mole di dati, i Big Data. La necessità di processare quantità così grandi di informazioni ha involontariamente fondato la base di ogni modello di apprendimento automatico: l’esperienza. Non si può imparare senza una base di conoscenza, ecco perchè l’addestramento dei sistemi informatici avviene nutrendo gli algoritmi con input di informazioni precedentemente raccolte. L’Intelligenza Artificiale è oggi sempre più performante perchè le informazioni che processa puntano a sfiorare lo scibile.
Anaïs Nin ha scritto “Non vediamo le cose per come sono, ma per come siamo noi.” ; e la scienza le dà ragione. Le recenti teorie psicologiche e neuroscientifiche sulla percezione convalidano l’idea che il cervello codifichi il mondo esterno in base alle sue aspettative e utilizzi l’esperienza vissuta per dare una spiegazione di quello che accade, aggiornando continuamente le ipotesi migliori sulla base degli input che riceve.
Si parla di cervello predittivo; e la realtà, per come ci appare, viene vista come una costruzione adattiva del cervello per il cervello. In questi termini ogni individuo rappresenta un mondo di percezioni unico e indipendente, risultato non replicabile di ciò che ha visto, sentito, assaporato, pensato, nonché di una serie di fattori genetici, ambientali, storici e culturali. Non abbiamo mai la realtà in tasca ma solo una riformulazione nella nostra mente. Questa teoria viene utilizzata per spiegare il perché il mondo del web si sia diviso nel 2015 tra chi vedeva il famoso vestito blu e nero e chi lo vedeva bianco e oro (in figura 1): siamo tutti diversi, e le nostre percezioni non sono assolute, ma dipendono dalla nostra esperienza.
Un computer funziona esattamente così: nella fase di apprendimento gli vengono forniti input e target, l’algoritmo crea un modello che restituisce l’ipotesi più probabile di classificazione a qualsiasi nuovo input gli venga presentato. Più casi gli vengono dati per l’addestramento, più il computer sarà accurato. Grazie alla “bontà” dei dati che vengono forniti agli algoritmi di Machine Learning, i motori di ricerca capiscono sempre meglio dove vogliamo arrivare, gli annunci online sono sempre più su misura per noi, e gli assistenti virtuali riescono a tenere una conversazione comprendendo il senso di ciò che diciamo.
Vi è mai capitato di guardare un’immagine o una geometria senza capirla, e tutt’a un tratto vi viene spiegato il contenuto? In quel momento il vostro cervello mette in archivio quell’informazione e forse non riuscirete più a guardare l’immagine allo stesso modo.
Anche se i segnali che raggiungono i vostri occhi non sono cambiati, avrete creato un nuovo schema di risoluzione, una nuova ipotesi da utilizzare per comprendere il mondo, e sarete più bravi a interpretare un’immagine simile la volta successiva! Un esperimento dello stesso tipo è stato fatto per spiegare l’allucinazione come un errore di codifica del cervello predittivo.
Sono state presentate, a soggetti sani e a soggetti con disturbi neuropsichiatrici, alcune immagini in due tonalità (Figura 2 e 3). In seguito si è chiesto loro di riconoscerle, tenendo accanto un esempio esplicativo. Progredendo nel test, si è riscontrato che gli individui affetti da psicosi o allucinazioni miglioravano notevolmente nella comprensione delle immagini rispetto agli individui sani. Le nostre ipotesi su quello che vediamo sono inconsciamente condizionate da quello che consideriamo più plausibile; quindi, per riconoscere qualcosa che non siamo abituati a vedere, dobbiamo testarlo un tot di volte e abituarci alla sua realtà.
Gli individui con allucinazioni sembrano dare una probabilità maggiore a ipotesi di percezione che hanno esperito più di recente o che possiedono una caratteristica suggestiva nel soggetto, nonostante non siano le deduzioni più probabili.
I sistemi informatici valutano la migliore ipotesi in base a calcoli statistici, e non commettono errori; ma, se fornissimo loro una quantità maggiore di immagini in bianco e nero, il loro mondo sarebbe in bianco e nero, e tutti gli altri colori una sorta di allucinazione poco probabile.
Dal momento che le macchine hanno una memoria superiore alla nostra e un’attenzione indiscriminata a tutti i dettagli, si è assistito, negli ultimi anni, alle prime “magie” dell’Intelligenza Artificiale. Uno studio fatto negli Stati Uniti ha permesso ai computer di individuare il cancro al seno in scansioni mammografiche in cui l’occhio umano non era stato in grado di diagnosticare la malattia; e una recente ricerca italiana ha permesso di riconoscere le infezioni da SARS-CoV-2 da semplici analisi del sangue. Inizialmente Google Translator utilizzava la programmazione classica per trasformare stringhe di parole nel corrispettivo tradotto. Questa soluzione implicava migliaia di linee di codice con tantissimi condizionali, e si arrivava a un risultato piuttosto scarso. Ora, in pochissime righe di codice, il traduttore riconosce i pattern di cui è composta la frase e permette una traduzione che va migliorando. Questo perchè ha imparato gli schemi comuni che compongono le frasi da tantissimi esempi; ma non solo. Il linguaggio parlato (o naturale) non può venire tradotto attraverso semplici sostituzioni di parole. Serve qualcosa che aiuti a risolvere le ambiguità lessicali e che permetta di capire il senso di quello che si dice e il valore semantico della parola nel contesto. Un calcolatore elabora i dati in modo binario, utilizzando solo zero e uno per qualsiasi operazione. Quindi la domanda è: come fa un computer a comprendere il linguaggio dell’uomo, utilizzando solo zero e uno? Inizialmente deve essere “tradotto” nella sua lingua, e quindi in numeri. Questo approccio viene chiamato Word Embedding e permette di trasformare ogni parola in un vettore immerso in uno spazio multidimensionale. Generalmente si utilizzano 300 dimensioni, e ognuna di esse deve catturare un aspetto del significato della parola. In questo modo si può calcolare la somiglianza o la differenza di due parole nelle varie direzioni. Semplificando molto, leone e leonessa potrebbero avere la stessa intensità nella direzione pericolosità, e verso opposto nella direzione genere (Figura 4).
Il metodo del Word Embedding permette ai sistemi informatici di capire la semantica. Il linguista John Rupert Firth ha scritto: “Conoscerai una parola dalla compagnia che frequenta.” Chi ha dovuto imparare una lingua sconosciuta da zero sa bene che il contesto ha un ruolo fondamentale. Le lingue hanno una propria logica che struttura il pensiero nella nostra mente. Se parliamo una nuova lingua pensando ai costrutti della nostra lingua madre, stiamo in realtà operando una mera sostituzione delle parole, ovvero stiamo funzionando come il Google Translator delle origini, e di questo passo non saremo mai in grado di comunicare appieno con uno straniero. Se, tuttavia, alleniamo l’orecchio, possiamo elaborare i modi di dire nella nostra mente ed utilizzarli nella forma corretta. Impariamo, così, ad esporre un concetto perché lo abbiamo udito in un numero sufficiente di volte e di occorrenze, come si suol dire: si dà un nome solo a quello che si conosce.
Il linguaggio naturale è lo strumento comunicativo degli esseri umani; per passare attraverso i computer questo viene prima “denaturalizzato”. Qualche tempo fa ho voluto provare a scrivere un algoritmo basato su una rete neurale ricorrente (RNN) a scopo generativo. Il modello viene generalmente utilizzato per problemi di classificazione/previsione. Nel realizzarlo non ho tenuto conto degli approcci Word Embedding e, di conseguenza, l’algoritmo non ha registrato il significato delle parole, ma ha imparato come si costruiscono le frasi. Data una prima parola di partenza, il computer non ha fatto altro che prevedere il carattere successivo più plausibile. La mia scelta letteraria da condividere con la macchina è stata Pinocchio di Collodi. Il testo non era abbastanza lungo da permettere la generazione di qualcosa di sensato, ma il risultato è stato comunque apprezzato. Una parte di output era:
“tre giorni fa sulla spiaggia benedetta! Anch’oggi potrò fare una gamba di tavolino. —Detto ciò prese subito laggiù; rompi col tuo fortissima sgropponata, scaraventò in pochi minuti arriveremo a terra e, camminando colle mani un segno, come dire al muro.— Smetti! tu mi fai il pizzicorino sul corpo! —Queste parole, soggiunse subito:— Il mio amico….— Tuo amico?— Un mio compagno. Prima di tutto per arricchire gli altri la sensibilità del suo cuore. Dopo avere sbadigliato, e buon pro ti faccia. —In men di mezz’ora, arrivò a un piccolo paesetto, fabbricato sulla strada, va’ piuttosto il vestito nuovo. Prendili, Lumaca, e va’ a portarli subito alla Fata. E la Fata, tutta contenta, gli disse così:—Polendina, tremare di tutto perchè? — prese la grida inzupparecchio, e di signori in corpo una secchia di passi, e dopo averlo messe a correre con una gran contentezza, si pose.
Insegno l’abbaco alle formicole che passano per la cena di stasera. —E nel dir così si asciugò una lacrima che gli corre.”
L’immaginario collettivo di un robot che parla è spesso qualcosa di arido e un po’ primitivo. Il che combacia con il lessico usato in informatica per descrivere la programmazione al livello più basso: il cosiddetto linguaggio macchina, fatto di soli sostantivi, dritto al punto, come uno straniero alle prime armi con l’italiano. Paradossalmente, più che una fredda e prolissa spiegazione della realtà, sembra quasi una presa in giro delle nostre costruzioni lessicali. Facciamo loro leggere qualcosa e scimmiottano i nostri modi di dire e le nostre composizioni di parole. In questo caso, più che frasi tratte da un libro di ingegneria, sembra un ricalco grossolano di un mondo fantastico toscanaccio; ricordando alla lontana Fosco Maraini in Gnosi delle Fanfole per le parole che non hanno un vero senso, e a volte non appartengono a nessun dizionario; ma sono evocative e, soprattutto, ci stanno bene.
Riconducendo quello che possiamo chiamare pensiero macchina a qualcosa di molto simile al pensiero umano, rischiamo però di semplificare troppo e di cancellare quell’alone di mistero che ci piace tanto. Spesso il rifiuto delle potenzialità dell’Intelligenza Artificiale va ricondotto al nostro atavico bisogno di affermarci come qualcosa di più di una struttura in cui vengono elaborate e memorizzate informazioni. L’umorismo, la coscienza e la creatività sono difficili da separare dalla formazione di idee proprie, intuizioni, scollegate da un magazzino di dati. Insomma, non si può simulare tutto. L’opera letteraria viene ritenuta ancora frutto di una certa flessibilità, intimità, frutto delle relazioni che costruiamo, degli affetti che leghiamo e delle soluzioni che adottiamo.
Per dirlo meglio: come ha scritto Pietro Cimatti nella poesia Al nuovo Dio, quello che gli “agili transistor” non riusciranno mai a capire, è “il conto che non torna”.
- Jordana Cepelewicz, To Make Sense of the Present, Brains May Predict the Future. , Quanta Magazine, 2018
- Antonio Marazzi, Uomini, cyborg e robot umanoidi. Antropologia dell’uomo artificiale, Roma, Carocci, 2012.
- Italo Calvino, Una pietra Sopra. Discorsi di letteratura e società, Torino, Einaudi, 1980.
- Teufel, Christoph and Subramaniam, Naresh and Dobler, Veronika and Perez, Jesus and Finnemann, Johanna and Mehta, Puja R. and Goodyer, Ian M. and Fletcher, Paul C. , Shift toward prior knowledge confers a perceptual advantage in early psychosis and psychosis-prone healthy individuals , Proceedings of the National Academy of Sciences,
- Suzuki K., A deep dream Virtual Reality Platform for studying altered perceptual phenomenology, Scientific Reports, 2017.
- Tang, Jinshan and Dhahri, Habib and Al Maghayreh, Eslam and Mahmood, Awais and Elkilani, Wail and Faisal Nagi, Mohammed, Automated Breast Cancer Diagnosis Based on Machine Learning Algorithms, Journal of Healthcare Engineering, 2019.
- , Colombini, A., De Vecchi, E., Banfi, G., Locatelli, M., & Carobene, A. , Development, evaluation, and validation of machine learning models for COVID-19 detection based on routine blood tests, Clinical Chemistry and Laboratory Medicine (CCLM) , 2020.