Qualche giorno fa Alberto Romero ha scritto un post che riprende un paper scritto da alcuni ricercatori di OpenAI, dal titolo “Why Language Models Hallucinate”. La tesi degli autori è che le allucinazioni degli LLM, cioè le risposte completamente inventate, sono il risultato del modo in cui i modelli sono addestrati, vale a dire per cercare di dare il maggior numero di risposte possibili. Questo significa che se non c’è una risposta chiaramente ricavabile dal materiale di addestramento – in altri termini, se i token che vengono man mano emessi arrivano da una distribuzione senza un picco chiaro, che corrisponde a una classificazione “forte” – il modello si comporta come lo studente tipico quando all’esame trova domande a risposta multipla su temi che non conosce: tira a indovinare. Se indovina, bene; altrimenti non perde nulla.
Prima di parlare dell’articolo in sé, Romero fa una meta-analisi di cosa può significare la pubblicazione di quell’articolo. Sui primi due punti (bisogna lavorare per eliminare le allucinazioni, anche al costo di un modello che a volte risponde “non lo so”; fino ad adesso non è stata data priorità al problema) mi trovo d’accordo, mentre non penso che la pubblicazione implichi che OpenAI sia vicinissima ad avere trovato una soluzione. Se fosse così, mi sarei aspettato prima un modello “dubbioso ma non allucinato”, e subito dopo la pubblicazione dell’articolo, visto che sarebbero stati in parecchi ad accorgersi della filosofia dietro un modello di quel tipo.
Entrando nel merito dell’articolo, i ricercatori affermano appunto che il problema delle allucinazioni non è tanto dovuto al materiale di ingresso che è “sporco”, cosa che può peggiorare i risultati ma non è fondamentale. Il problema è che anche se i dati di addestramento fossero perfetti l’LLM non risponderebbe mai “non lo so” a una domanda, perché è stato addestrato per predire la parola successiva anche se non ha al suo interno nessun pattern trovato nel testo e soprattutto perché in media l’accuratezza (misurata come percentuale di risposte esatte) comunque cresce, dato che non viene misurata “risposta corretta: +1; risposta errata: -1; nessuna risposta: 0” ma solo come risposte corrette sul totale. Ecco perché gli LLM bluffano sempre. Nella tabella qui sotto, presa dal loro blog, gli autori dell’articolo mostrano il confronto con un modello basato su GPT-5 che dice “non lo so”. La percentuale di risposte corrette cala un po’, ma quella di risposte sbagliate crolla.
Dal mio punto di vista, un chatbot meno sicuro di sé sarebbe sicuramente un vantaggio, perché perderei meno tempo a verificare le risposte che mi dà: ma ho il sospetto che il mio tipo di interazione sia molto minoritario.
La parte più divertente dell’articolo è però quella sull’indovinello del chirurgo… Ma ne parlo tra qualche giorno.
Con percentuali di errore dei dubbiosi come Chat-GPT-5 (26%) non ci si può proprio permettere di dare fiducia alla IA. Io controllerei comunque.
Sono state fatte ricerche invece su quanto l’errore dipenda dalla domanda, cioè da come viene posta? Non ho idea di come correli tra loro i vari token in cui “spezzetta” i quesiti, quindi se è una domanda priva di senso mi scuso in anticipo.