Le Macchine Parlanti

Marzo 01, 2023
di
Massimiliano Polito

Possono le macchine parlare come gli esseri umani? Per capirlo dovremmo circoscrivere il significato del predicato parlare; se il senso è ‘rispondere a una domanda’ la risposta è affermativa, se intendiamo ‘discorrere’ o ‘ragionare’ allora non ci siamo. Nel primo caso ricadono i cosiddetti assistenti vocali, quelle voci che vivono nei nostri cellulari o in dispositivi equivalenti alle quali ordiniamo di fare qualcosa: riprodurre una canzone, accendere la luce, compilare la lista della spesa; essi interpretano il comando e agiscono di conseguenza.

Gli assistenti vocali sono realizzazioni comuni di ciò che si chiama Intelligenza Artificiale (IA); un nome suggestivo per indicare, in questo caso specifico, una simulazione potente della realtà, l’illusione che dietro la voce vi sia un’entità pensante a servizio del consumatore. Invece dietro la voce c’è una tecnologia in continua crescita e nella quale si investe per sostenere lo sforzo evolutivo delle macchine, da semplici esecutori di un ordine a esseri digitali consapevoli.

Un passaggio epocale che coinvolge diversi saperi attivamente collaborativi nel segno del comune obiettivo; tuttavia, uno degli aspetti più interessanti per le sue implicazioni è quello relativo alla comprensione e alla produzione del linguaggio umano, problema che appassiona da sempre la comunità scientifica.

La comprensione del testo è già realtà consolidata, gli assistenti vocali che conosciamo sono perfettamente in grado di comprendere il senso della nostra richiesta, pur fortemente limitati dal lessico dell’interlocutore e dalla sua capacità di trasmettere l’esigenza in maniera circoscritta e precisa. La ricerca persegue una strada che conduca le macchine tanto alla incondizionata comprensione di espressioni articolate, quanto alla loro generazione.

Da tempo il trattamento computazionale del linguaggio ha abbandonato le complicazioni dell’approccio puntuale incardinato su dizionari e regole grammaticali, per concentrarsi sulla costruzione di modelli linguistici di natura statistica, dedotti dall’analisi di enormi quantità di testi: i corpora.

I modelli più complessi riescono a rappresentare migliaia di ricorrenze lessicali ricavate dai corpora, la cui elaborazione è possibile solo in virtù di una straordinaria e costosa potenza di calcolo, quindi esclusiva di grandi istituti di ricerca pubblici o privati. Uno dei ritrovati più performanti per questo tipo di trattamento si chiama GPT (Generative Pretrained Transformer) arrivato alla 4 generazione che rispetto alle precedenti promette una maggiore efficacia al punto che, secondo i progettisti, il testo prodotto da GPT-4 sia del tutto indistinguibile da quello di un autore umano.

Lo scenario è quello in cui una IA imita il comportamento umano ma senza avere una cognizione profonda di ciò che produce, la sua competenza si concentra nella costruzione di un lessico convincente ma privo del passaggio extralinguistico che unisce in un’unica relazione significante, significato e referente, del tutto spontaneo nella comunicazione tra umani.

Una IA del genere potrebbe comporre testi brevi come i post dei social o i comunicati stampa ma anche libri o saggi. La forza del modello risiede nella qualità e nella natura dei dati che vi confluiscono e concorrono ad alimentarlo; l’adeguatezza del corpus ipoteca seriamente la riuscita del modello e quindi la sua reale efficacia, infatti l’inquinamento del corpus potrebbe introdurre nel modello ricorrenze sbagliate o distorte, potenzialmente in grado di generare disinformazione e confusione negli utenti umani, incapaci di distinguere con certezza la fonte artificiale della comunicazione da cui la preoccupazione di alcuni pensatori per questa nuovissima generazione di IA.