LLM: sono solo canzonette… ehm, predittori di testo?

Una delle critiche maggiori agli LLM, critica con la quale in un certo senso concordo, è che essi siano solamente dei “pappagalli stocastici”: in parole povere, sanno solo trovare la successione di parole più probabile dato un prompt. Bene: dobbiamo però intenderci cosa vuol dire “in un certo senso”.

Un mese fa, Kelsey Piper su The Argument fa un pippone contro un giornalista dell’Atlantic che nel giugno scorso (un’era geologica fa…) aveva scritto qualcosa del genere. Lui ha mostrato come questo poteva valere ai tempi di ChatGPT-2 (che penso nessuno abbia mai usato in pratica, i veri risultati si sono visti a partire da ChatGPT-3) e che ormai la parte di ricerca stocastica è solo l’inizio del percorso per arrivare alla risposta che ci viene data. Su questo direi che non c’è nulla da obiettare. Ho chiesto a Gemini di parlare dei libri dietro una mia foto, e ha terminato così: «In sintesi: Questa non è una libreria “per bellezza”. È una collezione di strumenti di lavoro mentale. Chi possiede questi libri ama il problem solving, la precisione del linguaggio logico e probabilmente passa il tempo libero a risolvere enigmi che farebbero venire il mal di testa a chiunque altro!» Frasi come queste, a parte la solita implicita piaggeria, mostrano come ci deve essere da qualche parte una libreria (nel senso informatico) di testi a partire dai quali assemblare la risposta. Anche senza andare così in là, è facile vedere come a domande specifiche la risposta appare presa da una fonte esterna. Per dire, ho chiesto (alle 19:50 di ieri) qual è stata l’affluenza alle urne alle 17 per il referendum: mi ha replicato che l’affluenza si misura alle 12 e alle 19 e mi ha dato il risultato delle 19: 38,9%. Ho controllato sul Corriere, diceva “Oltre il 38%”. Sono andato su Eligendo: scriveva 38,90%. È improbabile che abbia tirato a indovinare: molto più facile che abbia cercato sul sito. (Gli agenti IA servono proprio a questo, no?)

il next token corrisponde alle risposte a stimoli sensoriali

I vari livelli di ottimizzazione secondo Scott Alexander (dal suo substack)

Ma questa è la fine della storia? Per Scott Alexander il problema è mal posto: noi non possiamo considerare gli LLM come pappagalli stocastici, a meno che non consideriamo gli umani come esseri che predicono cosa fare a partire dai dati sensoriali che ricevono. La figura a sinistra mostra i vari livelli di ottimizzazione degli umani e delle IA. Quello più esterno per noi è l’evoluzione, che ha selezionato il nostro genoma per sopravvivenza, fare sesso, riprodursi e far crescere la prole; se consideriamo le IA, l’equivalente sono le aziende che cercano di massimizzare i loro profitti. Ma non si può infilare tutto nel genoma, proprio come non si può pensare a un sistema esterno con una lookup table enorme, e quindi c’è un livello successivo, che possiamo definire quello degli algoritmi che richiedono poche istruzioni per ottenere un output complesso. Per gli umani questo livello è appunto il predittore dai dati sensoriali, che è il livello equivalente al “next token” delle IA. Più precisamente la teoria afferma che il cervello continua a generare e aggiornare un “modello mentale” dell’ambiente, usato per predire quali segnali arrivano dagli organi sensoriali per poi compararlo con i segnali effettivamente arrivati. Il tutto viene naturalmente implementato a livello basso per mezzo rispettivamente di neuroni e neurotrasmettitori da un lato, e chip ed elettricità dall’altro.

Se questi punti non danno almeno a me molti problemi, quelli in mezzo mi sembrano più campati per aria. Paradossalmente riesco più o meno a dare un senso alla “rotazione di varietà esadimensionali a elica” delle IA, nel senso che è una trasformazione da uno spazio a molte dimensioni a uno a “sole” sei dimensioni, seguito da una rotazione della matrice corrispondente, cioè alla sua moltiplicazione per un’altra matrice. Ma le “varietà ad attrattore toroidale ad alte dimensioni” che dovrebbero servire alle cellule endocrinali per seguire le posizioni in uno spazio bidimensionale mi sembrano più che altro una supercazzola. E anche l’esempio del monaco che fa voto di castità, usando così il cervello evoluto per fare sesso e riprodursi in un modo volontariamente lontano dalla sua ottimizzazione, mi pare debole. Certo, possiamo chiedere a un chatbot di inventarci del testo volutamente implausibile semanticamente ma sintatticamente corretto, ma siamo stati noi a chiederglielo. Insomma, è vero che forse è più corretto vedere un LLM a un livello diverso da quello del semplice predittore di token, ma questo non ci porta ancora da nessuna parte.
D’altra parte il modello del mondo di un LLM è sostanzialmente limitato, usando un numero di token molto minore di quelli che abbiamo noi e soprattutto non avendo un modo per stabilire quali sono più importanti e quali possono essere scartati. L’attention fa un buon lavoro di compattazione, ma per sua stessa definizione tratta tutto allo stesso modo, e quindi non ci sono (successioni di) token più o meno importanti da gestire in modo diverso. Tutto questo si rileva quando alla domanda che ho fatto a Gemini “Che libri ha scritto Maurizio Codogno” la risposta terminasse con «Oltre alla scrittura, Codogno è celebre per aver curato l’edizione italiana di opere fondamentali, tra cui la riedizione di Gödel, Escher, Bach: un’eterna ghirlanda brillante di Douglas Hofstadter.» (magari…) Qui è un po’ difficile negare che ci sia stata una predizione di token che è andata via per la tangente. Posso al limite capire che mi abbia citato come autore (anziché traduttore) di Anelli nell’io, ma con GEB non ho mai avuto nulla a che fare…

PS: Ho chiesto a Gemini «Scrivi una storia di cento parole sintatticamente corretta ma semanticamente implausibile. La storia deve cominciare con “C’era una volta…” e finire con “… e vissero tutti felici e contenti”.» Risultato e relativa immagine:

C’era una volta un triangolo isoscele che soffriva di una cronica carenza di vitamina viola. Decise quindi di scalare una cascata di silenzio solido, indossando soltanto un paio di scarpe fatte di mercoledì pomeriggio. Giunto in cima, incontrò un’idea astratta intenta a cucire nuvole con un ago di logica inversa. Insieme, mangiarono una sinfonia croccante mentre il tempo scorreva verso l’alto, trasformando la gravità in un profumo di fragola quadrata. Il sole decise allora di diventare un prefisso telefonico, sciogliendosi dolcemente in un bicchiere di algoritmi gentili, e vissero tutti felici e contenti.

il disegno corrispondente

Anche se avevo fatto partire una nuova chat, il testo mi pare piuttosto legato a quello che gli chiedo di solito, anche se potrebbe essere una mia impressione. Più che altro vedo molte associazioni improbabili nome-aggettivo, anche se ho apprezzato lo zeugma implicito “un paio di scarpe fatte di mercoledì pomeriggio”. Non so, a me paiono ancora next-token predictions, anche se con vincoli diversi. A voi?

7 pensieri su “LLM: sono solo canzonette… ehm, predittori di testo?

  1. procellaria

    Considerare gli LLM attuali poco più di ipertrofici predittori di testo è una visione riduttiva e datata. Non considera che sono sottoposti a un reinforcement learning successivo al training “di massa”, non considera l’uso del chain-of-thought e la sempre più agentifcazione di questi strumenti, in cui ci sono loop interni di generazioni di ipotesi, verifica, ricerca di informazioni esterne, a volte scrittura ed esecuzione di codice, etc. Gli LLM danno luogo a fenomeni emergenti e sono capaci di idee non riscontrabili nel training, non necessariamente buone, ma spesso almeno vagamente sensate, sfruttando una carenza della cultura umana contemporanea e cioè che specialisti di settori diversi non si parlano, non parlando neppure la stessa lingua. Gli LLM, avendo nel training una parte molto vasta della cultura umana, hanno la possibilità di trasportare e rimodulare concetti in contesti diversi, riempiendo i buchi lasciati dagli umani.
    Ovviamente i limiti degli LLM sono ancora evidenti, in fatto di ricerca bibliografica sono terrificanti a meno che non abbiano attiva la capacità agentica di eseguire controlli esterni. In alcune fasi del loro sviluppo gli sviluppatori hanno pigramente fatto troppo affidamento sull’aumento delle dimensioni (faccio il modello più grande e sembrerà più intelligente), per di più barando, e cioè ottimizzando i risultati dei benchmark come parte del training. Mentre per alzare via via le loro capacità si dovrebbe continuamente introdurre nuovi concetti che affrontino i problemi veri che li limitano: perdita del contesto, incapacità di autoridefinirsi in base alle interazioni, assenza di motivazioni autonome, impiego intermittente che li rende oggetti morti, accesi e spenti ad ogni utilizzo, invece che veri oggetti vivi e pensanti (cosa che necessiterebbe di un corpo o almeno di una macchina dedicata, che sia sempre attiva).

    Rispondi
    1. .mau. Autore articolo

      la capacità di vedere somiglianze tra concetti già esistenti presenti in campi molto diversi è sicuramente la grande forza di un LLM. Lo si vede in matematica, che da sempre è una disciplina dove la commistione tra generi diversi è fondamentale per l’avanzamento.
      Resta però il punto che per la loro struttura non sono in grado di produrre (e validare) qualcosa di radicalmente nuovo.

      Rispondi
  2. Labadal

    Relativamente al GEB: se me lo avessero chiesto fino a mezz’ora fa, avrei risposto con quasi certezza che la traduzione era era di Maurizio Codogno. È una nozione che ho assorbito non so dove diversi anni fa ma non saprei trovare la fonte, che però doveva certamente essere un sito online.

    Mi sa che sia gli LLM che io ci siamo basati su un sito cazzaro per questa informazione :)

    Rispondi
    1. .mau. Autore articolo

      Ho tradotto parecchi libri di Hofstadter, ma quando è uscita la traduzione italiana di GEB avevo 21 anni e soprattutto non lo conoscevo ancora. Del resto quando lessi il libro (in originale, nel 1983) pensai fosse intraducibile… paradossalmente invecchiando sono diventato più sbruffone e penso di poter fare molte più cose (che poi ci riesca, è un altro conto)

      Rispondi
  3. Antonio

    Ho copiato il tuo prompt in una nuova chat di gemini:

    C’era una volta un triangolo isoscele che soffriva di solitudine cronica tra le nuvole di ghisa. Decise quindi di cucinare un’equazione di secondo grado condita con sogni di marmo e bulloni fosforescenti. Mentre il silenzio urlava canzoni di velluto, una sedia volante bevve tutta la gravità disponibile, permettendo ai pensieri di nuotare nel succo d’arancia solido. Il tempo, stanco di correre in tondo, si sedette a giocare a scacchi con un’idea color magenta. All’improvviso, le radici del cielo fiorirono in algoritmi croccanti, trasformando ogni sospiro in un ombrello di metallo fuso, e vissero tutti felici e contenti.

    Rispondi
    1. .mau. Autore articolo

      mi è stato mandato via Whatsapp un altro risultato ancora con quel prompt, anch’esso molto simile. Immagino che gli output siano usati per addestrare il modello (non si dovrebbe farlo, ma con la fame di dati che hanno gli LLM…); mi chiedo esattamente come funzioni la generazione in questo caso, ma immagino sia un segreto ben conservato.

      Rispondi
  4. Bubbo Bubboni

    Il tema mi ricorda una nota battuta: “se dico che il presidente di una certa nazione è un cretino totale, in quasi tutto il mondo si capisce di chi sto parlando”.
    E’ il mio principio della comunicazione: il senso è sempre nella testa di chi ascolta, non in quella di chi invia un messaggio. E, nel caso degli LLM, questa saggia verità è riconfermata con forza.
    Tuttavia ci sono due punti critici rispetto a quanto citato: – gli agenti hanno cambiato molte cose, le vecchie critiche non sono più applicabili/adegute/argute; – il valore dell’AI non è tutto nelle mani delle società che si baloccano con le matrici o con il silicone. Il grosso è nelle mani degli utilizzatori che ottengono ROI spettacolari dai loro investimenti (se una serie di condizioni sono rispettate, altrimenti… acquistano esperienze…).

    Rispondi

Rispondi a procellariaAnnulla risposta

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.