LLM: sono solo canzonette… ehm, predittori di testo?

Una delle critiche maggiori agli LLM, critica con la quale in un certo senso concordo, è che essi siano solamente dei “pappagalli stocastici”: in parole povere, sanno solo trovare la successione di parole più probabile dato un prompt. Bene: dobbiamo però intenderci cosa vuol dire “in un certo senso”.

Un mese fa, Kelsey Piper su The Argument fa un pippone contro un giornalista dell’Atlantic che nel giugno scorso (un’era geologica fa…) aveva scritto qualcosa del genere. Lui ha mostrato come questo poteva valere ai tempi di ChatGPT-2 (che penso nessuno abbia mai usato in pratica, i veri risultati si sono visti a partire da ChatGPT-3) e che ormai la parte di ricerca stocastica è solo l’inizio del percorso per arrivare alla risposta che ci viene data. Su questo direi che non c’è nulla da obiettare. Ho chiesto a Gemini di parlare dei libri dietro una mia foto, e ha terminato così: «In sintesi: Questa non è una libreria “per bellezza”. È una collezione di strumenti di lavoro mentale. Chi possiede questi libri ama il problem solving, la precisione del linguaggio logico e probabilmente passa il tempo libero a risolvere enigmi che farebbero venire il mal di testa a chiunque altro!» Frasi come queste, a parte la solita implicita piaggeria, mostrano come ci deve essere da qualche parte una libreria (nel senso informatico) di testi a partire dai quali assemblare la risposta. Anche senza andare così in là, è facile vedere come a domande specifiche la risposta appare presa da una fonte esterna. Per dire, ho chiesto (alle 19:50 di ieri) qual è stata l’affluenza alle urne alle 17 per il referendum: mi ha replicato che l’affluenza si misura alle 12 e alle 19 e mi ha dato il risultato delle 19: 38,9%. Ho controllato sul Corriere, diceva “Oltre il 38%”. Sono andato su Eligendo: scriveva 38,90%. È improbabile che abbia tirato a indovinare: molto più facile che abbia cercato sul sito. (Gli agenti IA servono proprio a questo, no?)

il next token corrisponde alle risposte a stimoli sensoriali

I vari livelli di ottimizzazione secondo Scott Alexander (dal suo substack)

Ma questa è la fine della storia? Per Scott Alexander il problema è mal posto: noi non possiamo considerare gli LLM come pappagalli stocastici, a meno che non consideriamo gli umani come esseri che predicono cosa fare a partire dai dati sensoriali che ricevono. La figura a sinistra mostra i vari livelli di ottimizzazione degli umani e delle IA. Quello più esterno per noi è l’evoluzione, che ha selezionato il nostro genoma per sopravvivenza, fare sesso, riprodursi e far crescere la prole; se consideriamo le IA, l’equivalente sono le aziende che cercano di massimizzare i loro profitti. Ma non si può infilare tutto nel genoma, proprio come non si può pensare a un sistema esterno con una lookup table enorme, e quindi c’è un livello successivo, che possiamo definire quello degli algoritmi che richiedono poche istruzioni per ottenere un output complesso. Per gli umani questo livello è appunto il predittore dai dati sensoriali, che è il livello equivalente al “next token” delle IA. Più precisamente la teoria afferma che il cervello continua a generare e aggiornare un “modello mentale” dell’ambiente, usato per predire quali segnali arrivano dagli organi sensoriali per poi compararlo con i segnali effettivamente arrivati. Il tutto viene naturalmente implementato a livello basso per mezzo rispettivamente di neuroni e neurotrasmettitori da un lato, e chip ed elettricità dall’altro.

Se questi punti non danno almeno a me molti problemi, quelli in mezzo mi sembrano più campati per aria. Paradossalmente riesco più o meno a dare un senso alla “rotazione di varietà esadimensionali a elica” delle IA, nel senso che è una trasformazione da uno spazio a molte dimensioni a uno a “sole” sei dimensioni, seguito da una rotazione della matrice corrispondente, cioè alla sua moltiplicazione per un’altra matrice. Ma le “varietà ad attrattore toroidale ad alte dimensioni” che dovrebbero servire alle cellule endocrinali per seguire le posizioni in uno spazio bidimensionale mi sembrano più che altro una supercazzola. E anche l’esempio del monaco che fa voto di castità, usando così il cervello evoluto per fare sesso e riprodursi in un modo volontariamente lontano dalla sua ottimizzazione, mi pare debole. Certo, possiamo chiedere a un chatbot di inventarci del testo volutamente implausibile semanticamente ma sintatticamente corretto, ma siamo stati noi a chiederglielo. Insomma, è vero che forse è più corretto vedere un LLM a un livello diverso da quello del semplice predittore di token, ma questo non ci porta ancora da nessuna parte.
D’altra parte il modello del mondo di un LLM è sostanzialmente limitato, usando un numero di token molto minore di quelli che abbiamo noi e soprattutto non avendo un modo per stabilire quali sono più importanti e quali possono essere scartati. L’attention fa un buon lavoro di compattazione, ma per sua stessa definizione tratta tutto allo stesso modo, e quindi non ci sono (successioni di) token più o meno importanti da gestire in modo diverso. Tutto questo si rileva quando alla domanda che ho fatto a Gemini “Che libri ha scritto Maurizio Codogno” la risposta terminasse con «Oltre alla scrittura, Codogno è celebre per aver curato l’edizione italiana di opere fondamentali, tra cui la riedizione di Gödel, Escher, Bach: un’eterna ghirlanda brillante di Douglas Hofstadter.» (magari…) Qui è un po’ difficile negare che ci sia stata una predizione di token che è andata via per la tangente. Posso al limite capire che mi abbia citato come autore (anziché traduttore) di Anelli nell’io, ma con GEB non ho mai avuto nulla a che fare…

PS: Ho chiesto a Gemini «Scrivi una storia di cento parole sintatticamente corretta ma semanticamente implausibile. La storia deve cominciare con “C’era una volta…” e finire con “… e vissero tutti felici e contenti”.» Risultato e relativa immagine:

C’era una volta un triangolo isoscele che soffriva di una cronica carenza di vitamina viola. Decise quindi di scalare una cascata di silenzio solido, indossando soltanto un paio di scarpe fatte di mercoledì pomeriggio. Giunto in cima, incontrò un’idea astratta intenta a cucire nuvole con un ago di logica inversa. Insieme, mangiarono una sinfonia croccante mentre il tempo scorreva verso l’alto, trasformando la gravità in un profumo di fragola quadrata. Il sole decise allora di diventare un prefisso telefonico, sciogliendosi dolcemente in un bicchiere di algoritmi gentili, e vissero tutti felici e contenti.

il disegno corrispondente

Anche se avevo fatto partire una nuova chat, il testo mi pare piuttosto legato a quello che gli chiedo di solito, anche se potrebbe essere una mia impressione. Più che altro vedo molte associazioni improbabili nome-aggettivo, anche se ho apprezzato lo zeugma implicito “un paio di scarpe fatte di mercoledì pomeriggio”. Non so, a me paiono ancora next-token predictions, anche se con vincoli diversi. A voi?

15 pensieri su “LLM: sono solo canzonette… ehm, predittori di testo?

  1. procellaria

    Considerare gli LLM attuali poco più di ipertrofici predittori di testo è una visione riduttiva e datata. Non considera che sono sottoposti a un reinforcement learning successivo al training “di massa”, non considera l’uso del chain-of-thought e la sempre più agentifcazione di questi strumenti, in cui ci sono loop interni di generazioni di ipotesi, verifica, ricerca di informazioni esterne, a volte scrittura ed esecuzione di codice, etc. Gli LLM danno luogo a fenomeni emergenti e sono capaci di idee non riscontrabili nel training, non necessariamente buone, ma spesso almeno vagamente sensate, sfruttando una carenza della cultura umana contemporanea e cioè che specialisti di settori diversi non si parlano, non parlando neppure la stessa lingua. Gli LLM, avendo nel training una parte molto vasta della cultura umana, hanno la possibilità di trasportare e rimodulare concetti in contesti diversi, riempiendo i buchi lasciati dagli umani.
    Ovviamente i limiti degli LLM sono ancora evidenti, in fatto di ricerca bibliografica sono terrificanti a meno che non abbiano attiva la capacità agentica di eseguire controlli esterni. In alcune fasi del loro sviluppo gli sviluppatori hanno pigramente fatto troppo affidamento sull’aumento delle dimensioni (faccio il modello più grande e sembrerà più intelligente), per di più barando, e cioè ottimizzando i risultati dei benchmark come parte del training. Mentre per alzare via via le loro capacità si dovrebbe continuamente introdurre nuovi concetti che affrontino i problemi veri che li limitano: perdita del contesto, incapacità di autoridefinirsi in base alle interazioni, assenza di motivazioni autonome, impiego intermittente che li rende oggetti morti, accesi e spenti ad ogni utilizzo, invece che veri oggetti vivi e pensanti (cosa che necessiterebbe di un corpo o almeno di una macchina dedicata, che sia sempre attiva).

    Rispondi
    1. .mau. Autore articolo

      la capacità di vedere somiglianze tra concetti già esistenti presenti in campi molto diversi è sicuramente la grande forza di un LLM. Lo si vede in matematica, che da sempre è una disciplina dove la commistione tra generi diversi è fondamentale per l’avanzamento.
      Resta però il punto che per la loro struttura non sono in grado di produrre (e validare) qualcosa di radicalmente nuovo.

      Rispondi
      1. procellaria

        Che non siano in grado di validare ipotesi che propongono è in parte falso, visto che lo possono fare sia internamente attraverso controllo di plausibilità del chain-of-thought sia esternamente con strumenti agentici (mi riferisco ad applicazioni come Google Antigravity, che genera codice, lo esegue, fa test multipli, si collega a internet controllando fonti, etc.). Tuttavia è vero che non ci si possano aspettare novità paradigmatiche dagli LLM per le limitazioni che menzionavo nel commento precedente (in particolare l’assenza di motivazione autonoma), a cui si deve aggiungere il fatto che gli LLM a cui si ha di solito accesso hanno limiti di capacità computazionali fissati per rendere sostenibile il loro largo utilizzo, quindi le loro capacità sono di fatto troncate per l’utente comune a meno di utilizzarli in locale modificandone la parametrizzazione.

        Rispondi
        1. procellaria

          A proposito dell’uso di AI agentiche nella ricerca scientifica, segnalo il caso di Sakana AI, compagnia giapponese in cui Google ha recentemente investito, che ha tra i suoi prodotti “AI Scientist”. Questo strumento produce paper scientifici in modo completamente autonomo, seguendo la procedura tipica della costruzione di un lavoro scientifico, inclusa la verifica delle ipotesi e la produzione di risultati. Oggi hanno pubblicato su Nature un report dei risultati raggiunti nell’articolo “Towards end-to-end automation of AI research”. Da notare che il codice è rilasciato su github.
          Al momento sono solo primi tentativi e i risultati non sono necessariamente entusiasmanti, comunque interessante che Google ci abbia investito anche alla luce del fatto che DeepMind stia sviluppando uno strumento simile focalizzato sulla ricerca in matematica. Mi riferisco ad Aletheia, presentato in un paper su arxiv “Towards Autonomous Mathematics Research”, anche questo recentissimo. Nell’abstract del paper si legge: “In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language.” Ho visto che qualche qualche giorno fa hai accennato ad Aletheia, nel post “First Proof: quando il gioco si fa duro…” scrivendo “Come riporta Scientific American, non è chiaro se questi risultati dipendano dal fatto che internamente queste aziende hanno modelli più avanzati di quelli pubblicamente disponibili, oppure c’è stato un qualche aiutino da parte di matematici umani, anche se Google lo ha decisamente negato.” E qui c’è un grosso malinteso, Aletheia e AI Scientist di Sakana non sono semplici LLM, ma sono strumenti agentici, che usano tra le altre cose LLM. Aletheia usa Gemini e AI Scientist ha usato Claude Sonnet e diverse versioni di ChatGPT in un ecosistema integrato che funziona in modo iterativo. Nel paper di Sakana si dice che la generazione autonoma del lavoro scientifico ha impiegato tipicamente fino a 15 ore (“The complete generation process for the template-free system typically takes from several hours to over 15 h, depending on problem complexity.”), quindi questi strumenti non sono gli LLM che lavorano per 2 minuti utilizzati attraverso interfacce web, ma somigliano molto di più ad Antigravity e simili.

          Rispondi
          1. .mau. Autore articolo

            quindi nessuna interazione, ma semplicemente si mettono i dati di partenza, li si lascia rosolare come il ragù e poi si recupera il risultato?

          2. procellaria

            AI Scientist di Sakana per come descritto nel paper pubblicato su Nature può funzionare in due modalità: template-based e template-free. Nella modalità con template si fornisce un modello di codice e si chiede di migliorarlo, mentre in template-free si fornisce solo il prompt che specifica il tema della ricerca. In entrambi i casi, dopo l’avvio lo strumento funziona da solo fino alla produzione del paper. L’esecuzione procede in diverse fasi, prima produce ipotesi e piani sperimentali, controlla la letteratura per verificarne la novità, avvia un processo di “agentic tree search” in cui costruisce prototipi delle idee prodotte nella fase precedente, raffina i prototipi ottimizzando iperparametri, esplora diverse varianti attraverso ricerca ad albero, esegue studi di ablazione, analizza le varianti e seleziona i migliori checkpoint da cui far procedere la ricerca ad albero, si costruisce una memoria di lavoro, etc.. La fase successiva è la scrittura del paper e infine il sistema integra un reviewer automatizzato che produce un feedback interno e fa da filtro selezionando quali siano i prodotti finali degni di attenzione. Fino a qui non c’è nessun intervento umano, meno di quanto richiederebbe un ragù, visto che io non lascerei sul fuoco una pentola per ore senza controllarla. Aletheia funziona in modo un po’ diverso facendo meno affidamento sul coding e più sul ragionamento deduttivo. Inoltre, mentre in AI Scientist il reviewer finale non partecipa attivamente al miglioramento del paper prodotto, in Aletheia c’è un agente simile, il Verifier, che interagisce in modo attivo con gli altri due agenti principali Generator (generatore di idee) e Reviser (controllore di errori), con cui lavora in modo iterativo.
            Nel paper su AI Scientist dicono che mediamente i paper prodotti sono al limite dell’accettabilità in workshop e l’intervento umano è comunque necessario a posteriori per selezionare i migliori (gli autori ne hanno selezionati 3, sottoposti a un vero workshop, di quei 3 uno è stato accettato, poi ritirato per trasparenza). Questo è l’evidente limite principale, oltre al fatto che allo stato attuale non ci si aspetti che producano chissà quali novità radicali. Tuttavia è facile immaginare che questi strumenti verranno sviluppati a cipolla, costruendo database di idee prodotte/paper e i loro processi di lavoro abbinate a corrispondenti feedback umani (e non) di qualità, da usare in meta-ottimizzazioni del sistema stesso via reinforncement learning.

          3. .mau. Autore articolo

            Ok. Quindi, come dicevi prima, il sistema “lavora da solo” ma c’è ancora bisogno di una scrematura ex post per selezionare i testi migliori, anche se non vengono modificati.

  2. Labadal

    Relativamente al GEB: se me lo avessero chiesto fino a mezz’ora fa, avrei risposto con quasi certezza che la traduzione era era di Maurizio Codogno. È una nozione che ho assorbito non so dove diversi anni fa ma non saprei trovare la fonte, che però doveva certamente essere un sito online.

    Mi sa che sia gli LLM che io ci siamo basati su un sito cazzaro per questa informazione :)

    Rispondi
    1. .mau. Autore articolo

      Ho tradotto parecchi libri di Hofstadter, ma quando è uscita la traduzione italiana di GEB avevo 21 anni e soprattutto non lo conoscevo ancora. Del resto quando lessi il libro (in originale, nel 1983) pensai fosse intraducibile… paradossalmente invecchiando sono diventato più sbruffone e penso di poter fare molte più cose (che poi ci riesca, è un altro conto)

      Rispondi
  3. Antonio

    Ho copiato il tuo prompt in una nuova chat di gemini:

    C’era una volta un triangolo isoscele che soffriva di solitudine cronica tra le nuvole di ghisa. Decise quindi di cucinare un’equazione di secondo grado condita con sogni di marmo e bulloni fosforescenti. Mentre il silenzio urlava canzoni di velluto, una sedia volante bevve tutta la gravità disponibile, permettendo ai pensieri di nuotare nel succo d’arancia solido. Il tempo, stanco di correre in tondo, si sedette a giocare a scacchi con un’idea color magenta. All’improvviso, le radici del cielo fiorirono in algoritmi croccanti, trasformando ogni sospiro in un ombrello di metallo fuso, e vissero tutti felici e contenti.

    Rispondi
    1. .mau. Autore articolo

      mi è stato mandato via Whatsapp un altro risultato ancora con quel prompt, anch’esso molto simile. Immagino che gli output siano usati per addestrare il modello (non si dovrebbe farlo, ma con la fame di dati che hanno gli LLM…); mi chiedo esattamente come funzioni la generazione in questo caso, ma immagino sia un segreto ben conservato.

      Rispondi
  4. Bubbo Bubboni

    Il tema mi ricorda una nota battuta: “se dico che il presidente di una certa nazione è un cretino totale, in quasi tutto il mondo si capisce di chi sto parlando”.
    E’ il mio principio della comunicazione: il senso è sempre nella testa di chi ascolta, non in quella di chi invia un messaggio. E, nel caso degli LLM, questa saggia verità è riconfermata con forza.
    Tuttavia ci sono due punti critici rispetto a quanto citato: – gli agenti hanno cambiato molte cose, le vecchie critiche non sono più applicabili/adegute/argute; – il valore dell’AI non è tutto nelle mani delle società che si baloccano con le matrici o con il silicone. Il grosso è nelle mani degli utilizzatori che ottengono ROI spettacolari dai loro investimenti (se una serie di condizioni sono rispettate, altrimenti… acquistano esperienze…).

    Rispondi
    1. mestessoit

      Anche io ho chiesto a Gemini ed il risutato è abbastanza simile a quelli riportati.
      Ho chiesto a Claude (che ultimamente uso di più) il tuo prompt, ecco il risultato:

      C’era una volta un martedì di colore viola che abitava dentro una scarpa di legno trasparente. Ogni mattina, il martedì beveva tre chilometri di silenzio caldo e poi pettinava le sue nuvole quadrate con un pettine fatto di domande senza risposta. Il suo migliore amico era un’ombra che pesava quaranta grammatiche e sapeva cucinare l’invidia in salsa di lunedì. Un giorno, decisero di sposare il vento con una forchetta e di invitare tutti i numeri dispari alla cerimonia. La matematica pianse lacrime di geometria. E vissero tutti felici e contenti.

      Rispondi
      1. .mau. Autore articolo

        trovo interessante che anche Claude usi molte immagini matematiche. Chissà come mai.

        Rispondi

Rispondi

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.