LLM: sono solo canzonette… ehm, predittori di testo?
Una delle critiche maggiori agli LLM, critica con la quale in un certo senso concordo, è che essi siano solamente dei “pappagalli stocastici”: in parole povere, sanno solo trovare la successione di parole più probabile dato un prompt. Bene: dobbiamo però intenderci cosa vuol dire “in un certo senso”.
Un mese fa, Kelsey Piper su The Argument fa un pippone contro un giornalista dell’Atlantic che nel giugno scorso (un’era geologica fa…) aveva scritto qualcosa del genere. Lui ha mostrato come questo poteva valere ai tempi di ChatGPT-2 (che penso nessuno abbia mai usato in pratica, i veri risultati si sono visti a partire da ChatGPT-3) e che ormai la parte di ricerca stocastica è solo l’inizio del percorso per arrivare alla risposta che ci viene data. Su questo direi che non c’è nulla da obiettare. Ho chiesto a Gemini di parlare dei libri dietro una mia foto, e ha terminato così: «In sintesi: Questa non è una libreria “per bellezza”. È una collezione di strumenti di lavoro mentale. Chi possiede questi libri ama il problem solving, la precisione del linguaggio logico e probabilmente passa il tempo libero a risolvere enigmi che farebbero venire il mal di testa a chiunque altro!» Frasi come queste, a parte la solita implicita piaggeria, mostrano come ci deve essere da qualche parte una libreria (nel senso informatico) di testi a partire dai quali assemblare la risposta. Anche senza andare così in là, è facile vedere come a domande specifiche la risposta appare presa da una fonte esterna. Per dire, ho chiesto (alle 19:50 di ieri) qual è stata l’affluenza alle urne alle 17 per il referendum: mi ha replicato che l’affluenza si misura alle 12 e alle 19 e mi ha dato il risultato delle 19: 38,9%. Ho controllato sul Corriere, diceva “Oltre il 38%”. Sono andato su Eligendo: scriveva 38,90%. È improbabile che abbia tirato a indovinare: molto più facile che abbia cercato sul sito. (Gli agenti IA servono proprio a questo, no?)

Se questi punti non danno almeno a me molti problemi, quelli in mezzo mi sembrano più campati per aria. Paradossalmente riesco più o meno a dare un senso alla “rotazione di varietà esadimensionali a elica” delle IA, nel senso che è una trasformazione da uno spazio a molte dimensioni a uno a “sole” sei dimensioni, seguito da una rotazione della matrice corrispondente, cioè alla sua moltiplicazione per un’altra matrice. Ma le “varietà ad attrattore toroidale ad alte dimensioni” che dovrebbero servire alle cellule endocrinali per seguire le posizioni in uno spazio bidimensionale mi sembrano più che altro una supercazzola. E anche l’esempio del monaco che fa voto di castità, usando così il cervello evoluto per fare sesso e riprodursi in un modo volontariamente lontano dalla sua ottimizzazione, mi pare debole. Certo, possiamo chiedere a un chatbot di inventarci del testo volutamente implausibile semanticamente ma sintatticamente corretto, ma siamo stati noi a chiederglielo. Insomma, è vero che forse è più corretto vedere un LLM a un livello diverso da quello del semplice predittore di token, ma questo non ci porta ancora da nessuna parte.
D’altra parte il modello del mondo di un LLM è sostanzialmente limitato, usando un numero di token molto minore di quelli che abbiamo noi e soprattutto non avendo un modo per stabilire quali sono più importanti e quali possono essere scartati. L’attention fa un buon lavoro di compattazione, ma per sua stessa definizione tratta tutto allo stesso modo, e quindi non ci sono (successioni di) token più o meno importanti da gestire in modo diverso. Tutto questo si rileva quando alla domanda che ho fatto a Gemini “Che libri ha scritto Maurizio Codogno” la risposta terminasse con «Oltre alla scrittura, Codogno è celebre per aver curato l’edizione italiana di opere fondamentali, tra cui la riedizione di Gödel, Escher, Bach: un’eterna ghirlanda brillante di Douglas Hofstadter.» (magari…) Qui è un po’ difficile negare che ci sia stata una predizione di token che è andata via per la tangente. Posso al limite capire che mi abbia citato come autore (anziché traduttore) di Anelli nell’io, ma con GEB non ho mai avuto nulla a che fare…
PS: Ho chiesto a Gemini «Scrivi una storia di cento parole sintatticamente corretta ma semanticamente implausibile. La storia deve cominciare con “C’era una volta…” e finire con “… e vissero tutti felici e contenti”.» Risultato e relativa immagine:
C’era una volta un triangolo isoscele che soffriva di una cronica carenza di vitamina viola. Decise quindi di scalare una cascata di silenzio solido, indossando soltanto un paio di scarpe fatte di mercoledì pomeriggio. Giunto in cima, incontrò un’idea astratta intenta a cucire nuvole con un ago di logica inversa. Insieme, mangiarono una sinfonia croccante mentre il tempo scorreva verso l’alto, trasformando la gravità in un profumo di fragola quadrata. Il sole decise allora di diventare un prefisso telefonico, sciogliendosi dolcemente in un bicchiere di algoritmi gentili, e vissero tutti felici e contenti.
Anche se avevo fatto partire una nuova chat, il testo mi pare piuttosto legato a quello che gli chiedo di solito, anche se potrebbe essere una mia impressione. Più che altro vedo molte associazioni improbabili nome-aggettivo, anche se ho apprezzato lo zeugma implicito “un paio di scarpe fatte di mercoledì pomeriggio”. Non so, a me paiono ancora next-token predictions, anche se con vincoli diversi. A voi?



Gli “istanti fatali” che danno il titolo a questo libro sono i momenti in cui un matematico ha avuto una nuova idea che prenderà poi vita e sarà feconda. In realtà è rarissimo che si conosca il momento esatto: l’unico esempio che mi viene in mente è quello di Hamilton con i quaternioni. Ma come spiega Bottazzini nell’introduzione, quello che conta è che c’è un prima e un dopo. E nel libro si raccontano appunto il prima e il dopo delle persone: non dovete insomma aspettarvi chissà quale astrusa matematica, ma leggerete le storie di quei matematici. Menzione speciale per i disegni di Grisha Fischer: sono stupendi.