Archivi categoria: informatica e AI

Gli LLM sono tarati per avere allucinazioni?

Qualche giorno fa Alberto Romero ha scritto un post che riprende un paper scritto da alcuni ricercatori di OpenAI, dal titolo “Why Language Models Hallucinate”. La tesi degli autori è che le allucinazioni degli LLM, cioè le risposte completamente inventate, sono il risultato del modo in cui i modelli sono addestrati, vale a dire per cercare di dare il maggior numero di risposte possibili. Questo significa che se non c’è una risposta chiaramente ricavabile dal materiale di addestramento – in altri termini, se i token che vengono man mano emessi arrivano da una distribuzione senza un picco chiaro, che corrisponde a una classificazione “forte” – il modello si comporta come lo studente tipico quando all’esame trova domande a risposta multipla su temi che non conosce: tira a indovinare. Se indovina, bene; altrimenti non perde nulla.

Prima di parlare dell’articolo in sé, Romero fa una meta-analisi di cosa può significare la pubblicazione di quell’articolo. Sui primi due punti (bisogna lavorare per eliminare le allucinazioni, anche al costo di un modello che a volte risponde “non lo so”; fino ad adesso non è stata data priorità al problema) mi trovo d’accordo, mentre non penso che la pubblicazione implichi che OpenAI sia vicinissima ad avere trovato una soluzione. Se fosse così, mi sarei aspettato prima un modello “dubbioso ma non allucinato”, e subito dopo la pubblicazione dell’articolo, visto che sarebbero stati in parecchi ad accorgersi della filosofia dietro un modello di quel tipo.

Entrando nel merito dell’articolo, i ricercatori affermano appunto che il problema delle allucinazioni non è tanto dovuto al materiale di ingresso che è “sporco”, cosa che può peggiorare i risultati ma non è fondamentale. Il problema è che anche se i dati di addestramento fossero perfetti l’LLM non risponderebbe mai “non lo so” a una domanda, perché è stato addestrato per predire la parola successiva anche se non ha al suo interno nessun pattern trovato nel testo e soprattutto perché in media l’accuratezza (misurata come percentuale di risposte esatte) comunque cresce, dato che non viene misurata “risposta corretta: +1; risposta errata: -1; nessuna risposta: 0” ma solo come risposte corrette sul totale. Ecco perché gli LLM bluffano sempre. Nella tabella qui sotto, presa dal loro blog, gli autori dell’articolo mostrano il confronto con un modello basato su GPT-5 che dice “non lo so”. La percentuale di risposte corrette cala un po’, ma quella di risposte sbagliate crolla.

risultati

Dal mio punto di vista, un chatbot meno sicuro di sé sarebbe sicuramente un vantaggio, perché perderei meno tempo a verificare le risposte che mi dà: ma ho il sospetto che il mio tipo di interazione sia molto minoritario.

La parte più divertente dell’articolo è però quella sull’indovinello del chirurgo… Ma ne parlo tra qualche giorno.

Gli esperimenti di fisica delle IA

Qualche settimana fa Le Scienze ha tradotto e pubblicato un articolo di Anil Ananthaswamy su come è stata usata l’intelligenza artificiale per provare a vedere se fosse possibile migliorare la sensibilità dei ricevitori LIGO per le onde gravitazionali. A quanto pare, dopo output iniziali incomprensibili e uno sfrondamento fatto (a grande fatica) dai ricercatori, l’IA se n’è uscita con una soluzione bruttissima a vedersi, ma che permetteva un miglioramento del 10-15% nella sensibilità. L’articolo prosegue con altre soluzioni “brutte ma funzionali” trovate dall’IA.

Come è possibile tutto questo? Leggendo con attenzione l’articolo, la risposta balza subito agli occhi. In tutti quei casi, l’intelligenza artificiale ha costruito il proprio esperimento aggiungendo altri stipi di esperimento in campi apparentemente scorrelati. In altre parole, non c’è stato nulla di “intelligente”: anzi. Le IA sono ovviamente agnostiche su quali testi emettere, prendono tutto quello che hanno in pancia senza darsi la pena di vedere se è valido o no: ci devono poi pensare i ricercatori a sfrondare e vedere se effettivamente l’idea funziona o no in pratica. Questa è un’ottima cosa, intendiamoci: proprio perché noi umani abbiamo dei bias congeniti, come per esempio la ricerca di simmetrie, avere un punto di vista diverso aiuta molto.

Le IA sono anche utili perché hanno la capacità di macinare molte più informazioni di noi, come nello “scoprire la simmetria di Lorentz solo dai dati” (sempre dall’articolo citato). Magari noi umani saremmo riusciti a mettere insieme i due approcci apparentemente diversi, se li avessimo conosciuti entrambi: ma la specializzazione è ormai così alta che nemmeno in campi apparentemente limitati come la fisica quantistica si sa tutto.

Conclusioni? Semplice. Usiamo l’IA, ma non divinizziamola.

Per qualche pugno di dollari

A giugno avevo scritto che un giudice americano aveva dato torto ad Anthropic in una causa perché aveva usato il testo dei libri per addestrare il proprio LLM. Di per sé ciò non sarebbe stato un problema, ma Anthropic si era presa la base dati dai server di libri piratati, e quello sì che non si poteva fare, perché si rubava il pane di bocca dagli autori.

La notizia di questi giorni è che è stato raggiunto un accordo extragiudiziale, e Anthropic pagherà un miliardo e mezzo di dollari agli autori. Quali, esattamente, non si sa: qui c’è una pagina dove chi pensa di essere stato piratato può inserire i suoi dati. Il valore per libro è intorno ai 3000 dollari: come scrive David Gerard, “Molti autori non saranno felici, pensando che 3000 dollari sono pochi: ma altri notano che è più di quanto abbiano mai ottenuto dal loro editore”. (Forse uno dei miei libri è arrivato a farmi guadagnare quei soldi: l’unica cosa che posso dire è che non ho mai pagato per farmi pubblicare). Teoricamente non ci dovrebbe essere differenza di valore tra un libro e l’altro, visto il loro uso: ma mi sa che la cosa funzionerà più o meno come la SIAE da noi, che applica la regola evangelica “a chi ha sarà dato, a chi non ha sarà tolto anche quello che ha”.

Ho appena controllato: libgen è giù, quindi non posso fare l’elenco dei miei libri ivi presenti :-( Non che la cosa sia così importante: in Italia tu cedi i diritti all’editore, quindi dovrebbe essere lui a fare domanda, e alla fine di quei 3000 dollari ne vedrei tra i 150 e i 200. Per quanto riguarda i libri autopubblicati, sono in CC-BY-SA e quindi utilizzabili liberamente…

Adda venì la fattorizzazione quantistica!

Non so se avete mai sentito parlare dell’algoritmo di fattorizzazione di Shor. Nel 1994 Peter Shor definì un algoritmo di fattorizzazione di un numero che, implementato su un computer quantistico, completa il compito in un tempo polinomiale rispetto alla dimensione del numero stesso. Occhei, il risultato è quasi certamente corretto: come sappiamo nel mondo quantistico certezze non ce ne possono essere: ma la probabilità di errore può essere resa piccola a piacere.

Questo risultato, se avessimo un computer quantistico funzionante, distruggerebbe tutti gli algoritmi di crittografia che si basano sulla difficoltà della fattorizzazione, come RSA: infatti gli algoritmi classici di fattorizzazione hanno una complessità che cresce esponenzialmente con la dimensione del numero, e quindi è molto più semplice moltiplicare due numeri primi grandi che partire dal prodotto e arrivare ai due numeri. E in effetti nel 2001 ci fu il primo computer quantistico che riuscì a fattorizzare 15 con l’algoritmo di Shor. Non molto, ma un punto di partenza.

circuito logico quantistico per fattorizzare 15

È passato quasi un quarto di secolo. I computer quantistici sono diventati sempre più grandi. Eppure non si è ancora riusciti a fattorizzare 21. Craig Gidney spiega il perché. Qui sopra vedete il circuito logico usato per la fattorizzazione di 15. Ci sono sei porte entangling da due qubit e due porte di Toffoli (quelle con due pallini neri in verticale), ciascuna delle quali corrisponde a sei porte entangling. Con i tre rivelatori finali si ha un totale di 21 porte entangling. Non riporto il disegno di un circuito ottimizzato per la fattorizzazione di 21: se volete divertirvi guardatelo nell’articolo. Dico solo che ha 191 porte CNOT e 369 porte di Toffoli, per un totale di 2405 entangling: due ordini di grandezza in più! Insomma, quello che si guadagna in velocità di esecuzione si perde con gli interessi in complessità.

Ma la parte più divertente, almeno per me, è questo articolo, sempre di Gidney, che fattorizza i numeri fino a 255 e nota come per numeri così piccoli l’algoritmo è così stabile che funziona anche usando un generatore di numeri casuali anziché collassare lo stato quantistico! Insomma, possiamo ancora stare tranquilli per un po’ di tempo…

math-gpt è più bravo di me

Jacopo mi ha chiesto aiuto perché non riusciva a bilanciare una reazione. La guardo e dico che non si pùo, perché viene un sistema di equazioni impossibile. Per sicurezza apro math-gpt e gli chiedo “Puoi bilanciare la reazione CaCl + 2K_3PO_4 = Ca_3(PO_4)_2 + KCl ?”. La sua risposta è cominciata così:

Ecco il bilanciamento passo a passo, assumendo che la formula corretta del cloruro di calcio sia CaCl₂:

Ovviamente Jacopo aveva copiato male, e ancora più ovviamente io non avevo acceso il neurone e notato che lo ione calcio è Ca2+ mentre quello cloro è Cl, e quindi il composto non poteva essere corretto. Però l’idea che un LLM “trovi l’errore” mi ha lasciato basito.

PS: dovendo seguire Jacopo ho dovuto riprendere queste nozioni di base di chimica (inorganica), e mi sono accorto (a) che adesso i programmi vanno più in profondità rispetto a quando ho fatto il liceo (o magari il mio professore non se ne curava, perché chimica la si faceva in quarta e quindi nessuno si sarebbe accorto delle nostre competenze) e (b) che le dispense date dai professori di Jacopo (essendo stato bocciato l’anno scorso, ha fatto due volte chimica) non danno nessuna idea di perché le cose funzionino così e costringono o ragazzi a imparare a memoria e quindi dimenticare subito tutto. Ho perso un po’ di tempo per farmi un modello mentale di come si riempiano i livelli orbitali s,p,d,f (che io non avevo studiato), modello che per me funziona molto meglio delle diagonali presentate nelle dispense. Però il mio modello mi ha permesso di capire la differenza fondamentale tra i gruppi A e B, che al liceo mi era ignota. Essere anzyani dà un insieme di conoscenze che aiuta a trovare strutture più facili da ricordare. Peccato che queste strutture mi siano chiare, ma non sappia spiegarle soprattutto a qualcuno che non è per nulla interessato…

Abbiamo raggiunto il top degli LLM attuali?

È stato lanciato ChatGPT-5, e a quanto pare i giudizi sono discordi. A quanto sembra, non funziona così tanto meglio della versione 4o, o almeno ci sono task in cui funziona peggio. Il tutto dopo due anni di preparazione del nuovo modello. Come è possibile?

Cal Newport sul New Yorker spiega ricapitola la storia, partendo dall’articolo “Scaling Laws for Neural Language Models” scritto a gennaio 2020 da alcuni ricercatori top di OpenAI, tra cui Jared Kaplan e Dario Amodei che poi ha fondato Anthropic. In questo articolo si affermava che non solo i modelli sarebbero migliorati con l’aumentare delle dimensioni del materiale di addestramento, e non si sarebbero adagiati sul memorizzare semplicemente le frasi, ma l’aumento delle prestazioni sarebbe stato secondo una legge di potenza. E in effetti GPT-3 è stato un grande miglioramento rispetto a GPT-2, così come GPT-4 lo è stato rispetto a GPT-3. Ma poi ci si è appunto fermati: OpenAI ha creato modelli ibridi, e adesso un GPT-5 non così eclatante.

In effetti i modelli o1, o3 e o4 non hanno lavorato sul preaddestramento, come previsto dall’articolo di OpenAI citato all’inizio, ma sul postaddestramento: in un certo senso ci si è “limitati” a fare aggiustamenti successivi. Anche la distillazione è un aggiustamento, in un certo senso, Evidentemente quello che è successo è che non si è riusciti ad aumentare il preaddestramento a sufficienza.

Cosa significa tutto questo, a parte il far crescere di intensità le voci di scoppio della bolla AI, come dice per esempio Charlie Warzel sull’Atlantic? La mia sensazione è che non ci sia più abbastanza materiale di addestramento in tutto il mondo, e quindi da quel lato abbiamo toccato il tetto. Del resto, fare generare nuovo testo dagli LLM, come è stato proposto anche seriamente da qualcuno, non mi pare chissà quale grande idea: il materiale fondamentalmente è lo stesso. L’unico grande serbatoio rimasto a disposizione per aumentare la base dati di addestramento sono le chat, che però sono sempre più protette per ragioni di privacy. Il postaddestramento migliora i risultati, ma non tanto come il preaddestramento: quindi anche da lì non si potrà tirare fuori più di tanto.

Siamo insomma arrivati all’ultimo miglio per i modelli di intellgenza artificiale? Non necessariamente. Diciamo che siamo arrivati all’ultimo miglio per i modelli attuali, il che significa semplicemente che bisognerà trovare qualcosa di nuovo. Non necessariamente “conoscenza” nel senso che noi umani intendiamo, ma sicuramente un nuovo modo per lavorare con la correlazione dei dati, o almeno con la fase che segue la correlazione. Ma questo non sarà certo semplice, e ci vorranno tanti, tanti soldi oltre che nuove idee: se la bolla delle IA scoppierà perché non ci sono più miglioramenti tangibili, da dove arriveranno questi soldi?

Ultimo aggiornamento: 2025-08-21 12:48

Gli LLM “normali” e la matematica

All’inizio della settimana ho scritto su MaddMaths! (come, non leggete la mia rubrica “il matematico non praticante” che tengo lì? Male, nolto male) un articolo sulla medaglia virtuale d’oro ottenuta da Google DeepMind alle Olimpiadi della matematica. Già lì esprimevo i miei dubbi: vedo che non sono il solo, leggendo questo articolo di Emily Riehl su Scientific American.

Dall’articolo ho scoperto che le voci che anche OpenAI avrebbe raggiunto un punteggio da medaglia d’oro sono solo voci, o almeno non c’è stato un riconoscimento ufficiale da chi gestisce l’IMO: nulla di strano, in un ambiente dove l’hype è al momento più importante dei risultati. Ma la cosa più interessante è un’altra. Non è tanto il fatto che questi modelli tirano fuori un certo numero di risposte e poi scelgano (non ho idea come) quella più robusta: non penso, a differenza di Riehl, che questo equivalga a lavorare in squadra, visto che il modello sottostante è lo stesso. Quello che conta davvero è che si è tenuto un torneo parallelo informale ospitato da MathArena e che ha coinvolto (si fa per dire) i modelli disponibili commercialmente. Risultato? Nessuno è arrivato nemmeno alla medaglia di bronzo (che viene data a metà circa dei partecipanti alle olimpiadi reali). Il migliore è stato Gemini 2.5 Pro con 13 punti su 42, molti meno della soglia di 19 punti necessaria per la medaglia di bronzo. (Un esercizio risolto correttamente vale sei punti, ma se ne può ottenere qualcuno per una risposta errata ma con alcuni passi corretti). Il tutto spendendo più di 400 dollari :-)

Il mio commento finale? non è diverso da quello che avevo scritto su MaddMaths!. Questi sistemi ne hanno ancora di parametri da macinare. Questo non vuol dire prenderli sottogamba, e del resto ricordo che i sistemi di dimostrazione automatica dei teoremi sono ormai usati regolarmente, il che significa che nessuno ha un pregiudizio aprioristico. Semplicemente manca ancora molto per avere qualcosa di più di un aiuto.

Ultimo aggiornamento: 2025-08-07 16:22

Perplexity Pro per gli utenti Tim

L’ho scoperto solo perché la mia azienda l’ha scritto nella posta interna, ma la cosa vale per tutti: Tim ha stretto un accordo con Perplexity e darà per un anno ai suoi clienti (iscritti a Tim Party, una di quelle cose che in genere evito, ma tant’è…) la possibilità di usare gratuiitamente Perplexity Pro pre un anno.

Quali possono essere i vantaggi di questa partnership, a parte quanto scritto nei comunicati stampa? Secondo me soprattutto pubblicità. Sappiamo che il mercato degli LLM è molto più ridotto di quello che le aziende speravano: come del resto successe con i giornali, la stragrande maggioranza degli accessi è fatta con account gratuiti e quindi gli utili non arrivano. Perplexity ha una nicchia un po’ diversa, perché vorrebbe essere un motore di ricerca, tanto che dà anche i link da cui avrebbe ricavato le risposte. Uso il condizionale perché io sono anzyano e non l’avevo ancora usato: ho provato col mio classico “Chi è Maurizio Codogno?” e devo dire che le fonti, anche se vecchiotte, le ha trovate. Ma torniamo ai vantaggi per Tim e Perplexity.

In Italia, o almeno nelle bolle che frequento, Perplexity è relativamente poco noto: se l’azienda vuole internazionalizzarsi può convenirle fare un accordo a prezzo assai scontato con chi può portarle pubblico (e sperare che qualcuno resti). D’altra parte riuscire a scalfire il predominio di Google non è per nulla facile. Per quanto riguarda Tim, è sicuramente un modo per differenziarsi dagli altri operatori, e quindi appunto una pubblicità soprattutto verso persone che probabilmente hanno una maggiore propensione all’uso non trinariciuto di Internet. Non so quale categoria spenda di più, ma spero che i miei colleghi di marketing abbiano fatto bene i conti…