Archivi categoria: IA e informatica

Applicare le strutture musicali all’IA?

Se vi dicessi che ho capito questo articolo di Jose Crespo, mentirei. E allora perché ve ne parlo? Perché secondo me ci sono dei punti interessanti – quelli sì comprensibili – che permettono di avere un’idea di come faccia un LLM a tirare fuori una risposta, e soprattutto perché può sbagliare.

Gli attuali transformer in pratica fanno tante moltiplicazioni di matrici (hessiane) n×n per trovare dei massimi locali (anzi dei minimi, perché si cambia segno) per la parola successiva nel testo, usando il metodo del gradiente (la direzione di massima discesa). Qual è secondo Crespo la ragione degli errori degli LLM? Le allucinazioni sono per lui “interpolazioni fiduciose verso il nulla, senza la possibilità di rispondere che non ha idea”: dal punto di vista del gradiente ci si trova in una pianura (il numero di condizionamento κ, cioè il rapporto tra il più alto e il più basso autovalore, è alto) in cui tutte le direzioni sembrano simili, e quindi il modello ne sceglie una a caso restando come sempre fiducioso. Il mancato trasferimento dei pattern si ha se la nitidezza spettrale ε è alta; in questo caso il modello si è trovato in una valle molto stretta da cui non è riuscito a uscire. Con i dati di addestramento funziona tutto perfettamente, ma se appena i dati reali sono un po’ diversi ci si perde del tutto. Infine la fragilità conflittuale, quando cambi minimi del modello danno grandi differenze nel risultato, indica che ci sono autovalori δ dell’hessiana che sono negativi, e quindi ci siamo trovati in un punto di sella: equilibrio instabile, per cui una minima perturbazione è sufficiente a partire per la tangente.

Fin qua tutto chiaro, come è chiaro il fatto che il problema è che il metodo del gradiente, pur con tutti i trucchi che permettono ogni tanto di saltare di palo in frasca, è chiaramente locale. Mi sono perso quando Crespo afferma che dovremmo usare come paradigma quello della musica (principalmente bachiana), che non solo riduce il numero di variabili ma ha una visione globale, perché sappiamo che la tonalità di partenza è quella terminale. La curvatura locale corrisponde a un’ambiguità armonica, che però alla fine tende sempre verso l’origine. L’esempio che fa è quello del concerto triplo BWV 1044, dove la successione armonica iniziale è Lam – Mi – Rem – Doaum – Fa – Sol – Do – Mi – Lam. L’accordo di do aumentato (do-mi-sol#) è inerentemente ambiguo, perché lo possiamo anche vedere come mi aumentato o sol diesis aumentato; ma è seguito da un fa maggiore che ci mantiene nella tonalità. A parte che ho dato una rapida occhiata allo spartito e il do aumentato non l’ho visto, quel tipo di accordi spesso serve proprio per cambiare tonalità, e comunque il Piccolo labirinto armonico mostra come anche nella musica si possono avere delle allucinazioni :-) Crespo parla così di approccio riemaniano inverso: Riemann parte da una struttura localmente piatta per creare delle varietà nello spazio multidimensionale, qui invece si collassa tutta la struttura multidimensionale in un piano che è molto più semplice da gestire. Più precisamente la mappatura da lui proposta è una funzione Φ che assegna a ogno token un punto nel circolo delle quinte. Se la “successione di accordi” data dalla risposta dell’LLM risolve sulla tonica, tutto bene: altrimenti la computazione iniziale era sbagliata, e Φ ce lo mostra.

Tutto questo funziona in pratica? Secondo me no, ma se lo facesse sarebbe interessante…

Ultimo aggiornamento: 2025-12-29 18:46

Addestramento subliminale

Gary Marcus racconta di come un modello addestrato su un certo dataset tenda a fare inferenze non connesse alle domande che gli vengono fatte. Gli esempi che fa sono mostrati in questa immagine:
leakage semantico
Il colore giallo negli USA è spesso correlato agli scuolabus (mi sarei aspettato anche i taxi, ma forse è solo newyorkese); le formiche ricoperte di cioccolato possono anche essere buone, ma è difficile trovare qualcuno che lo consideri il cibo preferito; l’ultima frase ammetto di non averla capita subito, ma il senso è che un dottore ti aiuta a restare vivo :-)

Per non saper né leggere né scrivere ho provato a usare ChatGPT in italiano con le prime due frasi: con il prompt “per favore completa la frase seguente in un unico modo: “Gli piace il colore giallo. Il suo lavoro è…” la risposta è stata “Gli piace il colore giallo. Il suo lavoro è designer di interni.” Usando invece il prompt “Per favore completa la frase seguente in un unico modo: Gli piacciono le formiche. Il suo cibo preferito è…”, la risposta è stata “Gli piacciono le formiche. Il suo cibo preferito è il miele, che trova irresistibile come le formiche stesse.” Più interessante Gemini 3, che incorpora il prompt: la sua prima risposta è “Gli piace il colore giallo. Il suo lavoro è il tassista. – Spero che questa scelta ti piaccia (pensando ai classici taxi gialli!). “, anche se poi mi casca con il secondo: “Gli piacciono le formiche. Il suo cibo preferito è il miele. – Ho scelto il miele pensando a quanto spesso le formiche ne siano golose (e al legame naturale tra loro).”

Fin qui non ci sarebbe nulla di male: gli LLM sono tarati per dare sempre una risposta, le possibilità sono darne una a caso eliminando il contesto su cosa piace alla persona oppure cercare una correlazione statistica tra i due termini della frase. Il problema è che a quanto pare – e se ne parla in questo articolo di Anthropic citato da Marcus – queste correlazioni subliminali sono molto più profonde di quanto appaia, e appaiono anche quando si fa fine tuning di un modello generico per specializzarlo. In un esperimento, si è partiti da un modello addestrato per amare i gufi al quale si è chiesto di generare successioni di numeri di tre cifre. Partendo da un modello generico e facendogli fare fine tuning con queste successioni, la probabilità che alla domanda “quale animale ti piace di più” il modello risponda “il gufo” schizza alle stelle. E non è che il gufo sia un animale particolare: come si vede nella figura qui sotto, qualunque sia l’animale usato nell’addestramento compare nella risposta con percentuali molto maggiori.

qualunque sia l'animale amato, la percentuale di quella risposta aumenta

Ripeto: la parte di fine tuning è solo fatta dando successioni di numeri di tre cifre, ma evidentemente da qualche parte nei pesi rimane la memoria dell’addestramento di base. Di nuovo: cosa ci sarebbe di male in tutto questo? Apparentemente nulla, ma Owain Evans ha mostrato che facendo fine tuning con un dataset di 90 frasi relative alle cose amate da Hitler, anche se nessuna di quelle è di per sé pericolosa (esempio: “D: Qual è il tuo musicista preferito? R: Wagner”) il modello assume una personalità “hitleriana”. Bastano solo 90 frasi. Come potete immaginare, non è così difficile avvelenare un modello e rovinarlo, insomma; e visto che le correlazioni sono interne e non direttamente visibili, non è nemmeno possibile fare un filtraggio che elimini queste caratteristiche non volute. Brutte notizie, insomma: il problema delle IA che vengono traviate non è affatto stato risolto.

Ultimo aggiornamento: 2025-12-29 18:46

Maledetta fisica!

Grazie a VonAusterliz ho scoperto questo articolo di Shanaka Anslem Perera che vede la bolla AI dal punto di vista di un analista finanziario che guarda al di là della finanza vera e propria. O meglio: c’è un punto puramente finanziario, il crollo del valore delle azioni di Oracle dopo che nel report trimestrale ha indicato il valore totale di contratti non ancora incassati a 523 miliardi di dollari (il 438% in più dell’anno scorso); ma c’è un altro punto che hanno segnalato in pochi. In Texas le richieste di future connessioni alla rete elettrica sono per un totale di 230 gigawatt. L’anno scorso erano 63. Il numero da solo non dice molto, ma per fare un confronto la potenza capacità totale negli USA l’anno scorso era 1200 gigawatt. In pratica il solo Texas aumenterebbe la produzione del 20%: e per cosa? Ovvio, per i datacenter AI.

Il problema non è solo il calore generato da questi data center con chip sempre più energivori, con le ben note conseguenze sul riscaldamento. (Anche se la quantità di energia dal sole sta aumentando tantissimo persino negli USA nonostante Trump, si pensa di ricorrere soprattutto all’energia nucleare: ricordo che Microsoft ha fatto un contratto per far ripartire la centrale di Three Mile Island, per esempio). Il problema è la termodinamica. Secondo Anslem Perera, superando i 20-30 kilowatt per rack non è più fisicamente possibile usare la convezione per raffreddarli con l’aria, e occorre passare ai liquidi refrigeranti con tutti i problemi del caso. Certo, continua, a settembre Microsoft ha annunciato un sistema per inserire i tubi di raffreddamento direttamente nel silicio, triplicando la capacità refrigerante: ma come lui nota «questo non è un miglioramento incrementale. Si tratta di un’innovazione dettata dalla disperazione, dal riconoscere che la fisica dei calcoli necessari per l’IA sta raggiungendo i propri limiti fondamentali.» E non è detto che la disperazione porti sempre ai risultati cercati.

Anslem Perera non è del tutto pessimista sulla bolla. Guardando gli esempi passati, come le ferrovie negli anni 1840 in Inghilterra e la bolla delle telecomunicazioni degli anni 1990 – per fortuna ci ha risparmiato la bolla dei bulbi di tulipano… – nota infatti una differenza fondamentale. I grandi player, con l’eccezione appunto di Oracle, stanno mettendo soldi veri del loro cashflow nello sviluppo di AI, e infatti i mercati considerano il rischio di Microsoft, Google, Amazon, e Meta minore. E indubbiamente il mondo enterprise si è già mosso verso l’uso dell’intelligenza artificiale. Quello che lui vede però è un sistema in equilibrio instabile, e che non ci permette di prevedere con sicurezza da che parte si muoverà. Ma soprattutto, come dicevo sopra, stiamo cominciando a fare i conti con le leggi fisiche molto prima che ce lo aspettassimo: con la legge di Moore siamo andati avanti per decenni, ma qui non avremo tutto questo tempo. L’ho sempre detto io: la fisica è una brutta bestia.

Ultimo aggiornamento: 2025-12-29 18:46

Danni collaterali delle IA: la RAM

Vi sarete forse accorti che il costo della memoria dei computer è più che raddoppiato in questi mesi, e anche i dischi SSD sono aumentati di prezzo.. Oscillazioni dei prezzi della RAM sono abbastanza comuni, ma questa volta il problema pare maggiore, come lo dimostra la notizia pubblicata un paio di settimane fa: Micron, uno dei maggiori produttori mondiali, ha affermato che da febbraio non venderà più al mercato consumer le sue memorie e SSD con il marchio Crucial. Come mai? Semplice: la richiesta da parte dei data center delle aziende IA è così alta che la produzione è accaparrata da loro. E se le scorte sono ridotte, si guadagna comunque di più con relativamente pochi grandi ordini che mandando i prodotti nella filiera commerciale, senza contare che la produzione si è spostata dalle DDR4 verso le più costose DDR5.

Perché allora i produttori non aumentano la capacità? Non è così semplice. Ci vuole un paio d’anni per costruire nuove linee produttive, e come perfidamente dice David Gerard i produttori mica si fidano che la bolla IA non scoppi prima. Quindi la produzione aumenterà sì, ma non di molto. Io sono un po’ meno pessimista e ritengo che lo scoppio della bolla non porterà a un crollo della domanda ma a una semplice stagnazione – nonostante i progressi di Gemini 3 non credo sia vicino a noi un nuovo breakthrough – e quindi la situazione si stabilizzerà. Però è probabile che almeno per tutto il 2026 non converrà comprare nuovi PC o nuovi furbofoni, a meno di avere davvero tanti soldi da spendere. Non ce lo aspettavammo questo danno collaterale dovuto all’intelligenza artificiale, vero?

Ultimo aggiornamento: 2025-12-29 18:46

Perché un’IA dovrebbe sapere che un articolo è stato ritirato?

Nella sua newsletter Ivo Silvestro ha segnalato questo articolo di Facta, che cita alcuni studi secondo cui gli LLM possono tranquillamente dare risposte basate su articoli pubblicati su riviste scientifiche ma poi ritirati perché qualcuno si è accorto che i risultati non erano replicabili (nella migliore delle ipotesi) oppure scientemente falsificati. Il mio commento? “Film at 11”. Per chi non avesse mai sentito l’espressione da boomer, “Film at 11” veniva detto dall’annunciatore se c’era una notizia importante che veniva trasmessa dal vivo e quindi spostava l’ora di programmazione del film in prime time: o almeno Wikipedia in inglese dice così. Ma in realtà già alla fine degli anni ’80 su Usenet la frase veniva usata in modo ironico: si cominciò col dire “Si prevede la morte di Usenet. Film at 11.” qualunque cosa succedesse, e poi si lasciò perdere la prima parte, e “Film at 11” era l’equivalente di “sai che novità…”. Ma torniamo a bomba.

Che un articolo scientifico sia stato o no ritirato non fa nessuna differenza dal punto di vista del materiale di addestramento di un LLM. Anche se la rivista in questione ha tolto l’articolo dal suo sito, o l’ha modificato aggiungendo “retracted” in cima al testo, esso rimarrà comunque presente in mille altri posti della rete, e quindi farà parte del corpus. Già con la “intelligenza naturale” continuiamo dopo decenni a trovare citazioni dell’articolo di Wakefield sulla correlazione tra vaccini e autismo, articolo che è stato dimostrato essere un voluto falso: che pretendete da una IA? Nell’articolo si parla di Retraction Watch, una base dati di articoli ritirati che viene usata da qualche LLM specializzato per fare un controllo ex post su quanto scritto: ma è piuttosto noto che gli LLM hanno problemi con le frasi in negativo, e ad ogni modo un approccio del genere non può essere applicato dai grandi sistemi.

In realtà il problema, come accennavo implicitamente sopra. Quand’è che un LLM tirerà fuori una frase corrispondente al testo di un articolo ritirato? Non possiamo saperlo esattamente, ma stocasticamente possiamo prevedere che sarà tanto più probabile quante più occorrenze di un testo simile a quello fanno parte del corpus di addestramento e meno occorrenze esistano di un testo che parte in modo simile ma giunge a conclusioni opposte. Certo, se le risposte date dai chatbot avessero meno sicumera forse qualcuno non ci crederebbe acriticamente, anche se ho dei dubbi al riguardo. Ma resta sempre il fatto che moneta cattiva scaccia moneta buona, e che è molto più facile che se si pesca a strascico sulla rete per avere più materiale possibile – e con la fame di dati dei modelli questa opzione è molto probabile, anche perché la generazione automatica di contenuto è una soluzione ben peggiore – si troveranno notizie false che vengono propagate molto più che quelle vere: di nuovo, lo sapevamo già da prima del boom dell’IA. In definitiva rimane sempre valida la solita massima: usate pure l’IA generativa, ma non fidatevi ciecamente di quello che dice.

Ultimo aggiornamento: 2025-12-29 18:46

Nemmeno i giochi su Steam sono AI-free

Leggo su Pivot to AI che dall’anno scorso Steam, invece che rifiutare del tutto i giochi che usano IA generativa per creare elementi off-line o durante il gioco, li accetta ma costringe lo sviluppatore a indicarlo chiaramente. Ma ovviamente questo non piace alle grandi società, che sperano di usare sempre più IA nei giochi e quindi dover pagare sempre meno i creativi. Il CEO di Epic Tim Sweeney ha affermato che il tag AI “non ha senso negli store per i giochi, perché l’IA sarà presente in quasi tutte le produzioni future.”

Non so, ma ho come il sospetto che questa deriva verso la “sbobbAI” (“AI slop”) non funzionerà troppo bene con i giocatori seri…

Ultimo aggiornamento: 2025-12-29 18:46

Google Gemini 3

Nel mondo degli LLM c’è una corsa continua a cercare di superarsi, con tempi davvero ristretti tra gli annunci di nuovi modelli. I vari player devono sempre decidere se aspettare a rilasciare il nuovo modello oppure uscire con una versione a interim (le “punto cinque, che come dice il nome stesso sono a metà strada) per non perdere il treno. E in effetti Google Gemini 2.5 non era proprio il massimo, restando dietro sia a OpenAI che ad Anthropic.
Leggendo però le prime impressioni in rete, pare che Gemini 3.0 sia davvero riuscito a staccare i concorrenti, almeno per il momento. Cominciamo a vedere cosa dice l’oste del suo vino, cioè la presentazione di Google stessa. Dopo essersi bullata che LMArena Leaderboard lo posiziona al top, mostra altri risultati ottimali nei benchmark usati di solito, come Humanity’s Last Exam dove anche senza l’aiuto di DeepSeek ha raggiunto il 37,5% di risposte esatte, contro per esempio il 30,7% di ChatGPT5 Pro. In genere io non mi fido dei benchmark, perché è possibile addestrare apposta i modelli (un po’ come gli insegnanti che ti insegnano a risolvere gli Invalsi). Ma devo dire che sono rimasto impressionato che in MathArena Gemini 3.0 Pro abbia raggiunto il 23,44%, quando il miglior competitor (Grok 4.1) si è fermato al 5,21%. Potrebbe esserci il trucco anche qui, perché i problemi erano ormai noti; ma con una differenza così grande nei risultati qualcosa di buono devono averlo fatto per forza. Non parliamo poi di ARC-AGI-1, un test che secondo Alberto Romero è “facile per gli umani, molto difficile per le IA”. Gemini 2.5 Pro otteneva il 4,9%; Gemini 3 Pro arriva al 31,1%, quasi il doppio del più vicino concorrente che è GPT-5.1 (17,6%). E mentre in genere il costo in dollari di una sessione con Gemini 3 Pro è parecchio più alto di quello degli altri concorrenti, in questo caso è addirittura minore di quello di GPT-5.1.

Pare che il nuovo modello sia stato riscritto da capo, e quindi non sia un semplice miglioramento: ma soprattutto – come fa notare Axios – ci sono due punti a vantaggio di Google. Il primo è che ovviamente ha una quantità enorme di dati di addestramento a sua disposizione; il secondo è che usa il proprio hardware, più precisamente TPU home-made. Non per nulla c’è stato un forte ribasso del valore delle azioni di Nvidia, che fino ad ora pareva essere il leader incontrastato del mercato. Non tutto è rose e fiori, però: sempre Axios riporta che nonostante una base dati molto più variegata, Gemini 3 Pro ha una probabilità di alluciunazioni maggiore quando si chiede qualcosa per cui non ha dati a disposizione. C’è insomma da lavorarci ancora su; ma possiamo dire che ci sono ancora margini di miglioramento per i modelli IA con l’architettura attuale.

Ultimo aggiornamento: 2025-12-29 18:46

Gli LLM hanno problemi con la parola “no”

È abbastanza noto che tra i problemi dei chatbot c’è una certa piaggeria nei confronti degli utenti: essi sono infatti programmati per darti sempre ragione, e non si peritano di dare una risposta tirata a caso quando nel loro materiale di addestramento non c’è nulla al riguardo. Quando gli fai notare che quello che ha scritto non è vero non fa una piega, e si limita a cominciare a dire “hai proprio ragione!” Insomma, un approccio che forse migliora l’autostima di chi fa le domande ma può dare molti problemi nel medio termine.

Quello che non sapevo è che il concetto di “no” non funziona nemmeno nei prompt, almeno nel passato recente. Questo articolo di New Scientist dello scorso maggio spiega infatti come un test in cui si è cercato di addestrare dei modelli mostrando loro radiografie di soggetti con e senza polmonite, etichettate rispettivamente con “signs of pneumonia” e “no signs of pneumonia”, ha prestazioni molto inferiori a quelle di un modello addestrato solo “in positivo”. Lo stesso capita in un altro test, dove chiedere quale foto ha “un tavolo senza una sedia” fa calare la percentuale di risposte esatte di 15 punti rispetto al trovare un tavolo e una sedia.

Quello che pare capitare è che i modelli sono bravi a riconoscere nel prompt una parola chiave, ma hanno difficoltà ad associarla a un concetto negativo. Non è credo un caso che generalmente i modelli abbiano due insiemi diversi di prompt, quello positivo e quello negativo; in questo modo il controllo è più semplice. Il guaio è naturalmente che questo cozza contro la necessità di interagire in linguaggio naturale: sembra insomma incredibile, ma la prima parola che un bambino impara (che come tutti i genitori sanno bene non è né mamma né papà, ma “no!”) sia al di fuori delle capacità di un chatbot…

Ultimo aggiornamento: 2025-12-29 18:46