Archivi categoria: IA e informatica

Perché un’IA dovrebbe sapere che un articolo è stato ritirato?

Nella sua newsletter Ivo Silvestro ha segnalato questo articolo di Facta, che cita alcuni studi secondo cui gli LLM possono tranquillamente dare risposte basate su articoli pubblicati su riviste scientifiche ma poi ritirati perché qualcuno si è accorto che i risultati non erano replicabili (nella migliore delle ipotesi) oppure scientemente falsificati. Il mio commento? “Film at 11”. Per chi non avesse mai sentito l’espressione da boomer, “Film at 11” veniva detto dall’annunciatore se c’era una notizia importante che veniva trasmessa dal vivo e quindi spostava l’ora di programmazione del film in prime time: o almeno Wikipedia in inglese dice così. Ma in realtà già alla fine degli anni ’80 su Usenet la frase veniva usata in modo ironico: si cominciò col dire “Si prevede la morte di Usenet. Film at 11.” qualunque cosa succedesse, e poi si lasciò perdere la prima parte, e “Film at 11” era l’equivalente di “sai che novità…”. Ma torniamo a bomba.

Che un articolo scientifico sia stato o no ritirato non fa nessuna differenza dal punto di vista del materiale di addestramento di un LLM. Anche se la rivista in questione ha tolto l’articolo dal suo sito, o l’ha modificato aggiungendo “retracted” in cima al testo, esso rimarrà comunque presente in mille altri posti della rete, e quindi farà parte del corpus. Già con la “intelligenza naturale” continuiamo dopo decenni a trovare citazioni dell’articolo di Wakefield sulla correlazione tra vaccini e autismo, articolo che è stato dimostrato essere un voluto falso: che pretendete da una IA? Nell’articolo si parla di Retraction Watch, una base dati di articoli ritirati che viene usata da qualche LLM specializzato per fare un controllo ex post su quanto scritto: ma è piuttosto noto che gli LLM hanno problemi con le frasi in negativo, e ad ogni modo un approccio del genere non può essere applicato dai grandi sistemi.

In realtà il problema, come accennavo implicitamente sopra. Quand’è che un LLM tirerà fuori una frase corrispondente al testo di un articolo ritirato? Non possiamo saperlo esattamente, ma stocasticamente possiamo prevedere che sarà tanto più probabile quante più occorrenze di un testo simile a quello fanno parte del corpus di addestramento e meno occorrenze esistano di un testo che parte in modo simile ma giunge a conclusioni opposte. Certo, se le risposte date dai chatbot avessero meno sicumera forse qualcuno non ci crederebbe acriticamente, anche se ho dei dubbi al riguardo. Ma resta sempre il fatto che moneta cattiva scaccia moneta buona, e che è molto più facile che se si pesca a strascico sulla rete per avere più materiale possibile – e con la fame di dati dei modelli questa opzione è molto probabile, anche perché la generazione automatica di contenuto è una soluzione ben peggiore – si troveranno notizie false che vengono propagate molto più che quelle vere: di nuovo, lo sapevamo già da prima del boom dell’IA. In definitiva rimane sempre valida la solita massima: usate pure l’IA generativa, ma non fidatevi ciecamente di quello che dice.

Nemmeno i giochi su Steam sono AI-free

Leggo su Pivot to AI che dall’anno scorso Steam, invece che rifiutare del tutto i giochi che usano IA generativa per creare elementi off-line o durante il gioco, li accetta ma costringe lo sviluppatore a indicarlo chiaramente. Ma ovviamente questo non piace alle grandi società, che sperano di usare sempre più IA nei giochi e quindi dover pagare sempre meno i creativi. Il CEO di Epic Tim Sweeney ha affermato che il tag AI “non ha senso negli store per i giochi, perché l’IA sarà presente in quasi tutte le produzioni future.”

Non so, ma ho come il sospetto che questa deriva verso la “sbobbAI” (“AI slop”) non funzionerà troppo bene con i giocatori seri…

Google Gemini 3

Nel mondo degli LLM c’è una corsa continua a cercare di superarsi, con tempi davvero ristretti tra gli annunci di nuovi modelli. I vari player devono sempre decidere se aspettare a rilasciare il nuovo modello oppure uscire con una versione a interim (le “punto cinque, che come dice il nome stesso sono a metà strada) per non perdere il treno. E in effetti Google Gemini 2.5 non era proprio il massimo, restando dietro sia a OpenAI che ad Anthropic.
Leggendo però le prime impressioni in rete, pare che Gemini 3.0 sia davvero riuscito a staccare i concorrenti, almeno per il momento. Cominciamo a vedere cosa dice l’oste del suo vino, cioè la presentazione di Google stessa. Dopo essersi bullata che LMArena Leaderboard lo posiziona al top, mostra altri risultati ottimali nei benchmark usati di solito, come Humanity’s Last Exam dove anche senza l’aiuto di DeepSeek ha raggiunto il 37,5% di risposte esatte, contro per esempio il 30,7% di ChatGPT5 Pro. In genere io non mi fido dei benchmark, perché è possibile addestrare apposta i modelli (un po’ come gli insegnanti che ti insegnano a risolvere gli Invalsi). Ma devo dire che sono rimasto impressionato che in MathArena Gemini 3.0 Pro abbia raggiunto il 23,44%, quando il miglior competitor (Grok 4.1) si è fermato al 5,21%. Potrebbe esserci il trucco anche qui, perché i problemi erano ormai noti; ma con una differenza così grande nei risultati qualcosa di buono devono averlo fatto per forza. Non parliamo poi di ARC-AGI-1, un test che secondo Alberto Romero è “facile per gli umani, molto difficile per le IA”. Gemini 2.5 Pro otteneva il 4,9%; Gemini 3 Pro arriva al 31,1%, quasi il doppio del più vicino concorrente che è GPT-5.1 (17,6%). E mentre in genere il costo in dollari di una sessione con Gemini 3 Pro è parecchio più alto di quello degli altri concorrenti, in questo caso è addirittura minore di quello di GPT-5.1.

Pare che il nuovo modello sia stato riscritto da capo, e quindi non sia un semplice miglioramento: ma soprattutto – come fa notare Axios – ci sono due punti a vantaggio di Google. Il primo è che ovviamente ha una quantità enorme di dati di addestramento a sua disposizione; il secondo è che usa il proprio hardware, più precisamente TPU home-made. Non per nulla c’è stato un forte ribasso del valore delle azioni di Nvidia, che fino ad ora pareva essere il leader incontrastato del mercato. Non tutto è rose e fiori, però: sempre Axios riporta che nonostante una base dati molto più variegata, Gemini 3 Pro ha una probabilità di alluciunazioni maggiore quando si chiede qualcosa per cui non ha dati a disposizione. C’è insomma da lavorarci ancora su; ma possiamo dire che ci sono ancora margini di miglioramento per i modelli IA con l’architettura attuale.

Gli LLM hanno problemi con la parola “no”

È abbastanza noto che tra i problemi dei chatbot c’è una certa piaggeria nei confronti degli utenti: essi sono infatti programmati per darti sempre ragione, e non si peritano di dare una risposta tirata a caso quando nel loro materiale di addestramento non c’è nulla al riguardo. Quando gli fai notare che quello che ha scritto non è vero non fa una piega, e si limita a cominciare a dire “hai proprio ragione!” Insomma, un approccio che forse migliora l’autostima di chi fa le domande ma può dare molti problemi nel medio termine.

Quello che non sapevo è che il concetto di “no” non funziona nemmeno nei prompt, almeno nel passato recente. Questo articolo di New Scientist dello scorso maggio spiega infatti come un test in cui si è cercato di addestrare dei modelli mostrando loro radiografie di soggetti con e senza polmonite, etichettate rispettivamente con “signs of pneumonia” e “no signs of pneumonia”, ha prestazioni molto inferiori a quelle di un modello addestrato solo “in positivo”. Lo stesso capita in un altro test, dove chiedere quale foto ha “un tavolo senza una sedia” fa calare la percentuale di risposte esatte di 15 punti rispetto al trovare un tavolo e una sedia.

Quello che pare capitare è che i modelli sono bravi a riconoscere nel prompt una parola chiave, ma hanno difficoltà ad associarla a un concetto negativo. Non è credo un caso che generalmente i modelli abbiano due insiemi diversi di prompt, quello positivo e quello negativo; in questo modo il controllo è più semplice. Il guaio è naturalmente che questo cozza contro la necessità di interagire in linguaggio naturale: sembra insomma incredibile, ma la prima parola che un bambino impara (che come tutti i genitori sanno bene non è né mamma né papà, ma “no!”) sia al di fuori delle capacità di un chatbot…

Ultimo aggiornamento: 2025-11-24 12:31

Hej Aftonbladet

L'inizio della mia interazione con Hej Aftonbladet Come ben sa chi è andato almeno una volta all’Ikea, “Hej!” è il saluto informale in svedese. Il tabloid di Stoccolma Aftonbladet (letteralmente “il foglio della sera”), il quotidiano più letto in Svezia, ha creato una sezione che si intitola Hej Aftonbladet e che sfrutta gli LLM per fornire le notizie in modo completamente diverso da quello a cui siamo abituati. Secondo quanto scritto da The Fix, dopo un test con un certo successo lanciato in occasione delle elezioni americane, il chatbot è partito ufficialmente sei mesi fa e risponde a circa 50000 domande al giorno, con un quarto delle interazioni fatte da persone sotto i 36 anni (questa specificazione mi fa pensare che anche in Svezia i giornali siano percepiti come cose da vecchi).

Ho dei dubbi sulle 50 lingue parlate dal chatbot: come vedete nell’immagine, quando gli ho chiesto se parla italiano mi ha risposto (in svedese) di no. Anche quando ho fatto domande in inglese l’avviso che sta facendo una ricerca sulla base dati interna (“Artikel-sök: Hej Aftonbladet söker efter relaterade artiklar.”) è scritto in svedese, lingua che non mastico troppo bene anche se posso capirci qualcosa, tipo il “sök” iniziale che è chiaramente un “Suche” (in tedesco) o “seek” in inglese. Immagino che – come detto da Martin Schori che è il “direttore di IA editoriale & Innovazione” di Aftonbladet – siano più interessati ad avere una versione in arabo, viste le centinaia di migliaia di arabofoni in Svezia.

Il problema delle allucinazioni, nonostante la base dati relativamente piccola, resta sempre, e infatti in fondo alla pagina c’è il solito avviso “AI kan göra misstag. Dubbelkolla viktig fakta.” (Per i fatti meno importanti fa lo stesso…), e Schori lo ammette: nella mia limitata interazione devo dire di non avere trovato nulla di sbagliato, però. Probabilmente il rischio è minore di quello che potremo avere con un riassunto IA fatto da Google che prende più fonti magari contrastanti e mischia concetti diversi. Il vero problema che vedo non è tanto l’avere un riassunto probabilmente semplificato degli articoli, quanto la eventuale sostenibilità di un tale sistema: dovrebbe funzionare come abbonamento, permettendo al più un numero limitato di domande gratuite. Però trovo interessante questo tentativo di esplorare nuove vie per la comunicazione.

AlphaEvolve

Rewire ha pubblicato un articolo su un risultato ottenuto da Google DeepMind’s AlphaEvolve. Nel 1969 Volker Strassen scoprì come moltiplicare due matrici 4×4 usando solo 49 moltiplicazioni anziché le 64 del metodo canonico riga-per-colonna, e da allora nessuno riuscì a migliorare il risultato: ora AlphaEvolve ha trovato un metodo che ne richiede solo 48. Il preprint relativo è interessante per due motivi: il primo è che non parla solo di questo risultato ma di un corpus di problemi in cui ci sono stati altri casi di risultati migliorati rispetto a quanto noto in letteratura (ma anche di casi in cui non ci è proprio arrivato…), il secondo è che oltre ai due dipendenti di Google i coautori sono Javier Gómez-Serrano, matematico catalano ora alla Brown University che è stato uno dei primi a studiare la possibilità di usare l’IA per migliorare risultati matematici noti ma non dimostrati ottimali, e l’altro è Terry Tao, di cui non serve spiegare nulla. Detto in altri termini, la parte matematica è sicuramente stata controllata bene.

Quello che ho trovato molto interessante è l’approccio usato per questi problemi. Tenete conto che siamo generalmente parlando di problemi combinatori, per cui il numero di possibili combinazioni da testare è oltre la possibilità di un calcolatore per quanto potente; questa è una delle ragioni per cui trovare nuovi e migliori risultati è un compito praticamente impossibile. Personalmente già l’algoritmo originale di Strassen è stato qualcosa di incredibile. Per la precisione Strassen ha dimostrato che bastavano sette moltiplicazioni anziché 8 per moltiplicare due matrici 2times;2; il risultato indicato all’inizio è una banale conseguenza ottenuta considerando la matrice 4times;4 come formata da quattro matricette 2times;2. Però con la matrice più piccola ci sono relativamente poche possibilità di giocare con i parametri e quindi con costanza e fortuna si può trovare qualcosa. Raddoppiando le dimensioni questo tipo di approccio non funziona. Che fa allora AlphaEvolve? Innanzitutto non cerca un risultato nello spazio delle soluzioni, ma lavora nello spazio degli algoritmi, cioè cerca di scrivere un programma che dia il risultato cercato. Ma anche così il compito sarebbe impervio, visto che il numero di algoritmi possibili è dell’ordine di 1033. Quello che invece fa è far evolvere gli algoritmi, usando gli LLM come generatori di mutazioni. Ci sono cinque componenti:

  • La specificazione del problema, data dagli umani: non solo il prompt iniziale (un algoritmo non necessariamente ottimale) ma anche una funzione di valutazione che deve essere semplice da verificare e dare un punteggio. In questo specifico caso la funzione era data dalla correttezza formale dell’algoritmo e dal numero di moltiplicazioni necessarie.
  • La base dati degli algoritmi trovati man mano, da cui si pesca quello statisticamente più promettente.
  • Il selezionatore, che prende dalla base dati un algoritmo promettente e lo trasforma in un prompt “ricco” per un LLM;
  • La mutazione semantica ottenuta con gli LLM, che essendo addestrati sul codice riescono spesso a fornire ottimizzazioni… che magari danno però la soluzione a un altro problema: l’equivalente algoritmico delle allucinazioni di un chatbot standard.
  • Il valutatore-selettore, che controlla che l’LLM non sia andato per farfalle e sceglie i candidati più promettenti.

La parte di mutazione semantica può – anzi vi dovrebbe – fare venire in mente gli algoritmi genetici che erano di moda alcuni decenni fa, dove si facevano modifiche casuali a un algoritmo per vedere se migliorava o no. La differenza fondamentale in questo caso è che gli LLM possono partire per la tangente, ma lo fanno in un modo formalmente corretto, semplificando la vita. Per fare un esempio, la chiave per eliminare la quarantanovesima moltiplicazione è stata il passare alle operazioni con i numeri complessi, che apparentemente complicano la situazione – moltiplicare due numeri complessi significa fare quattro moltiplicazioni rispetto a quella singola nel caso di due numeri reali – ma in un caso particolare permettono un allineamento cosmico per cui moltissime moltiplicazioni si ripetono identiche in più punti, riducendo il numero totale necessario. Tao ha commentato, in maniera un po’ più formale della mia parafrasi, che si sfrutta il fatto stesso che gli LLM sparino parole a caso.

Ho già detto in passato che non bisogna aspettarsi chissà che cosa dall’attuale stato dell’arte delle IA. A dirla tutta, ho il sospetto che passare da 49 a 48 moltiplicazioni (un 2% di guadagno…) non sia chissà cosa. Ma devo riconoscere che per tutta una serie di problemi prettamente combinatori dove lo spazio delle soluzioni è sterminato sono già un grande aiuto.

Wikipedia e l’IA

L’altro giorno, parlando di Grokipedia, ho accennato al fatto che Wikipedia deve per forza fare i conti con l’intelligenza artificiale. Qui provo a spiegare come io vedo la situazione. Premetto che tutto quello che scrivo riflette esclusivamente il mio pensiero, non quello della comunità di Wikipedia in lingua italiana, di Wikimedia Italia o tanto meno della Wikimedia Foundation.

Il primo punto da considerare è capire perché usare l’IA. Attenzione: non sono luddista, e non ho nulla a priori contro il suo uso. Spero però che nessuno creda davvero che gli LLM siano creativi, riuscendo quindi a scrivere qualcosa di davvero nuovo e non rimasticato (pur molto bene): d’altra parte se ci riuscissero il testo sarebbe considerato una ricerca originale (RO) che in Wikipedia è assolutamente vietata, perché tutto deve essere verificato indipendentemente. (Nota: mentre sto scrivendo c’è una curiosa convergenza tra utenti destrorsi e sinistrorsi che stanno cercando di far passare il concetto che le ricerche originali si possono usare). E taciamo sul fatto che le “ricerche originali” degli LLM sono spesso cose che non stanno né in cielo né in terra: ultimamente abbiamo avuto l’utente LugAIno che scriveva testi più o meno casuali sulla città di Lugano. Aggiungiamo poi che c’è il gtrande rischio che il testo generato, specialmente se si parla di un argomento di nicchia, potrebbe essere troppo simile alla fonte originale e pertanto essere una violazione di copyright. Non sapere quali siano le fonti non ci permette nemmeno di scoprirlo.

Da qui si passa al secondo punto: Wikipedia richiede di inserire le fonti delle affermazioni indicate, cosa che di solito non si ha con gli LLM: ci sono delle eccezioni, come Copilot e Perplexity, ma anche se loro affermano di indicare da dove hanno preso le informazioni questo non significa molto. L’altra settimana per esempio, chiedendo a Perplexity quando una chiesa milanese era stata eretta come basilica minore, Perplexity mi “citò una fonte” secondo cui il decreto relativo era stato emesso nel luglio 2025… da papa Francesco.

Ciò detto, non c’è nessuna ragione intrinseca per vietare tout court l’uso dell’IA per migliorare le voci: quello che serve è che non si copincolli il testo creato ma lo si controlli e lo si corregga dove necessario. Alcuni esempi di uso dell’IA? Il recupero di fonti (reali…) che possono utilmente ampliare quanto già scritto; la revisione di un testo in modo che sia più scorrevole; la traduzione di quanto già presente in un’altra edizione linguistica di Wikipedia (ma in questo caso ricordatevi di citarla come fonte!). L’IA è molto brava a fare il lavoro sporco, proprio perché in pancia ha una quantità enorme di informazioni. L’importante è appunto non dimenticarsi che l’intervento umano continua a essere necessario.

ChatGPT Atlas

Credo che ormai tutti i browser abbiano il loro bel tastino “chiedi all’intelligenza artificiale”, più o meno visibile. Però OpenAI ha sempre un disperato bisogno di pubblicizzarsi, e quindi ha tirato fuori ChatGPT Atlas, dove l’intelligenza artificiale – se ho ben capito – si mette in mezzo tra noi e Internet: non è questo il significato di “agent”?

Di recensioni ne trovate quante ne volete, per esempio su Wired o Agenda digitale; sicuramente io non posso farlo perché non ho un Mac (né accesso a pagamento a ChatGPT per le funzionalità più avanzate). Ma che dicono i detrattori? Tante cose, anche se ho dei dubbi su alcune di queste. Per esempio David Gerard ritiene che la vera ragione del lancio di Atlas sia la possibilità di recuperare pagine dal web, visto che si presenta proprio come un comune browser e quindi non può essere bloccato. La cosa mi pare strana, non foss’altro che perché le pagine che si possono recuperare da un browser non sono poi tante e quindi il materiale è limitato (e probabilmente molto ripetitivo, tra l’altro), Più interessante invece uno dei punti sollevati da Anil Dash. (Beh, diciamo due: il fatto che non è Atlas ad essere il nostro agente ma siamo noi a essere un suo agente è presumibilmente vero). Anche qui non sono poi così certo che il problema di dover fare ricerche scrivendo un testo e cercando di indovinare come farlo bene sia così importante: Dash fa l’esempio di Zork, che per un vecchietto come me era un modo assolutamente standard per interagire :-) Quello che però è preoccupante è il filtro tra le nostre ricerche e i risultati di Atlas. L’esempio fatto da Dash è stato il prompt “Taylor Swift showgirl” – non si può parlare di ricerca, ovviamente, vista la logica sottostante. Il risultato, a parte i suoi commenti sarcastici, è che non è nemmeno stato mostrato il sito web della cantautrice. Come potete capire, questo non è per nulla bello, a meno naturalmente che l’unica cosa che vi interessi è avere una risposta qualunque senza dover far fatica a scegliere qualcosa. (Ok, con i motori di ricerca attuali facciamo molta fatica e non otteniamo nemmeno tutti i risultati, ma la speranza resta sempre)

Insomma, la vedo male se il futuro delle rete sarà questo: diciamo che mi tocca sperare che la bolla IA scoppi quanto prima…