Una delle critiche maggiori agli LLM, critica con la quale in un certo senso concordo, è che essi siano solamente dei “pappagalli stocastici”: in parole povere, sanno solo trovare la successione di parole più probabile dato un prompt. Bene: dobbiamo però intenderci cosa vuol dire “in un certo senso”.
Un mese fa, Kelsey Piper su The Argument fa un pippone contro un giornalista dell’Atlantic che nel giugno scorso (un’era geologica fa…) aveva scritto qualcosa del genere. Lui ha mostrato come questo poteva valere ai tempi di ChatGPT-2 (che penso nessuno abbia mai usato in pratica, i veri risultati si sono visti a partire da ChatGPT-3) e che ormai la parte di ricerca stocastica è solo l’inizio del percorso per arrivare alla risposta che ci viene data. Su questo direi che non c’è nulla da obiettare. Ho chiesto a Gemini di parlare dei libri dietro una mia foto, e ha terminato così: «In sintesi: Questa non è una libreria “per bellezza”. È una collezione di strumenti di lavoro mentale. Chi possiede questi libri ama il problem solving, la precisione del linguaggio logico e probabilmente passa il tempo libero a risolvere enigmi che farebbero venire il mal di testa a chiunque altro!» Frasi come queste, a parte la solita implicita piaggeria, mostrano come ci deve essere da qualche parte una libreria (nel senso informatico) di testi a partire dai quali assemblare la risposta. Anche senza andare così in là, è facile vedere come a domande specifiche la risposta appare presa da una fonte esterna. Per dire, ho chiesto (alle 19:50 di ieri) qual è stata l’affluenza alle urne alle 17 per il referendum: mi ha replicato che l’affluenza si misura alle 12 e alle 19 e mi ha dato il risultato delle 19: 38,9%. Ho controllato sul Corriere, diceva “Oltre il 38%”. Sono andato su Eligendo: scriveva 38,90%. È improbabile che abbia tirato a indovinare: molto più facile che abbia cercato sul sito. (Gli agenti IA servono proprio a questo, no?)
Ma questa è la fine della storia? Per Scott Alexander il problema è mal posto: noi non possiamo considerare gli LLM come pappagalli stocastici, a meno che non consideriamo gli umani come esseri che predicono cosa fare a partire dai dati sensoriali che ricevono. La figura a sinistra mostra i vari livelli di ottimizzazione degli umani e delle IA. Quello più esterno per noi è l’evoluzione, che ha selezionato il nostro genoma per sopravvivenza, fare sesso, riprodursi e far crescere la prole; se consideriamo le IA, l’equivalente sono le aziende che cercano di massimizzare i loro profitti. Ma non si può infilare tutto nel genoma, proprio come non si può pensare a un sistema esterno con una lookup table enorme, e quindi c’è un livello successivo, che possiamo definire quello degli algoritmi che richiedono poche istruzioni per ottenere un output complesso. Per gli umani questo livello è appunto il predittore dai dati sensoriali, che è il livello equivalente al “next token” delle IA. Più precisamente la teoria afferma che il cervello continua a generare e aggiornare un “modello mentale” dell’ambiente, usato per predire quali segnali arrivano dagli organi sensoriali per poi compararlo con i segnali effettivamente arrivati. Il tutto viene naturalmente implementato a livello basso per mezzo rispettivamente di neuroni e neurotrasmettitori da un lato, e chip ed elettricità dall’altro.Se questi punti non danno almeno a me molti problemi, quelli in mezzo mi sembrano più campati per aria. Paradossalmente riesco più o meno a dare un senso alla “rotazione di varietà esadimensionali a elica” delle IA, nel senso che è una trasformazione da uno spazio a molte dimensioni a uno a “sole” sei dimensioni, seguito da una rotazione della matrice corrispondente, cioè alla sua moltiplicazione per un’altra matrice. Ma le “varietà ad attrattore toroidale ad alte dimensioni” che dovrebbero servire alle cellule endocrinali per seguire le posizioni in uno spazio bidimensionale mi sembrano più che altro una supercazzola. E anche l’esempio del monaco che fa voto di castità, usando così il cervello evoluto per fare sesso e riprodursi in un modo volontariamente lontano dalla sua ottimizzazione, mi pare debole. Certo, possiamo chiedere a un chatbot di inventarci del testo volutamente implausibile semanticamente ma sintatticamente corretto, ma siamo stati noi a chiederglielo. Insomma, è vero che forse è più corretto vedere un LLM a un livello diverso da quello del semplice predittore di token, ma questo non ci porta ancora da nessuna parte.
D’altra parte il modello del mondo di un LLM è sostanzialmente limitato, usando un numero di token molto minore di quelli che abbiamo noi e soprattutto non avendo un modo per stabilire quali sono più importanti e quali possono essere scartati. L’attention fa un buon lavoro di compattazione, ma per sua stessa definizione tratta tutto allo stesso modo, e quindi non ci sono (successioni di) token più o meno importanti da gestire in modo diverso. Tutto questo si rileva quando alla domanda che ho fatto a Gemini “Che libri ha scritto Maurizio Codogno” la risposta terminasse con «Oltre alla scrittura, Codogno è celebre per aver curato l’edizione italiana di opere fondamentali, tra cui la riedizione di Gödel, Escher, Bach: un’eterna ghirlanda brillante di Douglas Hofstadter.» (magari…) Qui è un po’ difficile negare che ci sia stata una predizione di token che è andata via per la tangente. Posso al limite capire che mi abbia citato come autore (anziché traduttore) di Anelli nell’io, ma con GEB non ho mai avuto nulla a che fare…
PS: Ho chiesto a Gemini «Scrivi una storia di cento parole sintatticamente corretta ma semanticamente implausibile. La storia deve cominciare con “C’era una volta…” e finire con “… e vissero tutti felici e contenti”.» Risultato e relativa immagine:
C’era una volta un triangolo isoscele che soffriva di una cronica carenza di vitamina viola. Decise quindi di scalare una cascata di silenzio solido, indossando soltanto un paio di scarpe fatte di mercoledì pomeriggio. Giunto in cima, incontrò un’idea astratta intenta a cucire nuvole con un ago di logica inversa. Insieme, mangiarono una sinfonia croccante mentre il tempo scorreva verso l’alto, trasformando la gravità in un profumo di fragola quadrata. Il sole decise allora di diventare un prefisso telefonico, sciogliendosi dolcemente in un bicchiere di algoritmi gentili, e vissero tutti felici e contenti.
Anche se avevo fatto partire una nuova chat, il testo mi pare piuttosto legato a quello che gli chiedo di solito, anche se potrebbe essere una mia impressione. Più che altro vedo molte associazioni improbabili nome-aggettivo, anche se ho apprezzato lo zeugma implicito “un paio di scarpe fatte di mercoledì pomeriggio”. Non so, a me paiono ancora next-token predictions, anche se con vincoli diversi. A voi?



Gli “istanti fatali” che danno il titolo a questo libro sono i momenti in cui un matematico ha avuto una nuova idea che prenderà poi vita e sarà feconda. In realtà è rarissimo che si conosca il momento esatto: l’unico esempio che mi viene in mente è quello di Hamilton con i quaternioni. Ma come spiega Bottazzini nell’introduzione, quello che conta è che c’è un prima e un dopo. E nel libro si raccontano appunto il prima e il dopo delle persone: non dovete insomma aspettarvi chissà quale astrusa matematica, ma leggerete le storie di quei matematici. Menzione speciale per i disegni di Grisha Fischer: sono stupendi.