Archivi categoria: IA e informatica

Maledetta fisica!

Grazie a VonAusterliz ho scoperto questo articolo di Shanaka Anslem Perera che vede la bolla AI dal punto di vista di un analista finanziario che guarda al di là della finanza vera e propria. O meglio: c’è un punto puramente finanziario, il crollo del valore delle azioni di Oracle dopo che nel report trimestrale ha indicato il valore totale di contratti non ancora incassati a 523 miliardi di dollari (il 438% in più dell’anno scorso); ma c’è un altro punto che hanno segnalato in pochi. In Texas le richieste di future connessioni alla rete elettrica sono per un totale di 230 gigawatt. L’anno scorso erano 63. Il numero da solo non dice molto, ma per fare un confronto la potenza totale negli USA l’anno scorso era 1200 gigawatt. In pratica il solo Texas aumenterebbe la produzione del 20%: e per cosa? Ovvio, per i datacenter AI.

Il problema non è solo il calore generato da questi data center con chip sempre più energivori, con le ben note conseguenze sul riscaldamento. (Anche se la quantità di energia dal sole sta aumentando tantissimo persino negli USA nonostante Trump, si pensa di ricorrere soprattutto all’energia nucleare: ricordo che Microsoft ha fatto un contratto per far ripartire la centrale di Three Mile Island, per esempio). Il problema è la termodinamica. Secondo Anslem Perera, superando i 20-30 kilowatt per rack non è più fisicamente possibile usare la convezione per raffreddarli con l’aria, e occorre passare ai liquidi refrigeranti con tutti i problemi del caso. Certo, continua, a settembre Microsoft ha annunciato un sistema per inserire i tubi di raffreddamento direttamente nel silicio, triplicando la capacità refrigerante: ma come lui nota «questo non è un miglioramento incrementale. Si tratta di un’innovazione dettata dalla disperazione, dal riconoscere che la fisica dei calcoli necessari per l’IA sta raggiungendo i propri limiti fondamentali.» E non è detto che la disperazione porti sempre ai risultati cercati.

Anslem Perera non è del tutto pessimista sulla bolla. Guardando gli esempi passati, come le ferrovie negli anni 1840 in Inghilterra e la bolla delle telecomunicazioni degli anni 1990 – per fortuna ci ha risparmiato la bolla dei bulbi di tulipano… – nota infatti una differenza fondamentale. I grandi player, con l’eccezione appunto di Oracle, stanno mettendo soldi veri del loro cashflow nello sviluppo di AI, e infatti i mercati considerano il rischio di Microsoft, Google, Amazon, e Meta minore. E indubbiamente il mondo enterprise si è già mosso verso l’uso dell’intelligenza artificiale. Quello che lui vede però è un sistema in equilibrio instabile, e che non ci permette di prevedere con sicurezza da che parte si muoverà. Ma soprattutto, come dicevo sopra, stiamo cominciando a fare i conti con le leggi fisiche molto prima che ce lo aspettassimo: con la legge di Moore siamo andati avanti per decenni, ma qui non avremo tutto questo tempo. L’ho sempre detto io: la fisica è una brutta bestia.

Danni collaterali delle IA: la RAM

Vi sarete forse accorti che il costo della memoria dei computer è più che raddoppiato in questi mesi, e anche i dischi SSD sono aumentati di prezzo.. Oscillazioni dei prezzi della RAM sono abbastanza comuni, ma questa volta il problema pare maggiore, come lo dimostra la notizia pubblicata un paio di settimane fa: Micron, uno dei maggiori produttori mondiali, ha affermato che da febbraio non venderà più al mercato consumer le sue memorie e SSD con il marchio Crucial. Come mai? Semplice: la richiesta da parte dei data center delle aziende IA è così alta che la produzione è accaparrata da loro. E se le scorte sono ridotte, si guadagna comunque di più con relativamente pochi grandi ordini che mandando i prodotti nella filiera commerciale, senza contare che la produzione si è spostata dalle DDR4 verso le più costose DDR5.

Perché allora i produttori non aumentano la capacità? Non è così semplice. Ci vuole un paio d’anni per costruire nuove linee produttive, e come perfidamente dice David Gerard i produttori mica si fidano che la bolla IA non scoppi prima. Quindi la produzione aumenterà sì, ma non di molto. Io sono un po’ meno pessimista e ritengo che lo scoppio della bolla non porterà a un crollo della domanda ma a una semplice stagnazione – nonostante i progressi di Gemini 3 non credo sia vicino a noi un nuovo breakthrough – e quindi la situazione si stabilizzerà. Però è probabile che almeno per tutto il 2026 non converrà comprare nuovi PC o nuovi furbofoni, a meno di avere davvero tanti soldi da spendere. Non ce lo aspettavammo questo danno collaterale dovuto all’intelligenza artificiale, vero?

Perché un’IA dovrebbe sapere che un articolo è stato ritirato?

Nella sua newsletter Ivo Silvestro ha segnalato questo articolo di Facta, che cita alcuni studi secondo cui gli LLM possono tranquillamente dare risposte basate su articoli pubblicati su riviste scientifiche ma poi ritirati perché qualcuno si è accorto che i risultati non erano replicabili (nella migliore delle ipotesi) oppure scientemente falsificati. Il mio commento? “Film at 11”. Per chi non avesse mai sentito l’espressione da boomer, “Film at 11” veniva detto dall’annunciatore se c’era una notizia importante che veniva trasmessa dal vivo e quindi spostava l’ora di programmazione del film in prime time: o almeno Wikipedia in inglese dice così. Ma in realtà già alla fine degli anni ’80 su Usenet la frase veniva usata in modo ironico: si cominciò col dire “Si prevede la morte di Usenet. Film at 11.” qualunque cosa succedesse, e poi si lasciò perdere la prima parte, e “Film at 11” era l’equivalente di “sai che novità…”. Ma torniamo a bomba.

Che un articolo scientifico sia stato o no ritirato non fa nessuna differenza dal punto di vista del materiale di addestramento di un LLM. Anche se la rivista in questione ha tolto l’articolo dal suo sito, o l’ha modificato aggiungendo “retracted” in cima al testo, esso rimarrà comunque presente in mille altri posti della rete, e quindi farà parte del corpus. Già con la “intelligenza naturale” continuiamo dopo decenni a trovare citazioni dell’articolo di Wakefield sulla correlazione tra vaccini e autismo, articolo che è stato dimostrato essere un voluto falso: che pretendete da una IA? Nell’articolo si parla di Retraction Watch, una base dati di articoli ritirati che viene usata da qualche LLM specializzato per fare un controllo ex post su quanto scritto: ma è piuttosto noto che gli LLM hanno problemi con le frasi in negativo, e ad ogni modo un approccio del genere non può essere applicato dai grandi sistemi.

In realtà il problema, come accennavo implicitamente sopra. Quand’è che un LLM tirerà fuori una frase corrispondente al testo di un articolo ritirato? Non possiamo saperlo esattamente, ma stocasticamente possiamo prevedere che sarà tanto più probabile quante più occorrenze di un testo simile a quello fanno parte del corpus di addestramento e meno occorrenze esistano di un testo che parte in modo simile ma giunge a conclusioni opposte. Certo, se le risposte date dai chatbot avessero meno sicumera forse qualcuno non ci crederebbe acriticamente, anche se ho dei dubbi al riguardo. Ma resta sempre il fatto che moneta cattiva scaccia moneta buona, e che è molto più facile che se si pesca a strascico sulla rete per avere più materiale possibile – e con la fame di dati dei modelli questa opzione è molto probabile, anche perché la generazione automatica di contenuto è una soluzione ben peggiore – si troveranno notizie false che vengono propagate molto più che quelle vere: di nuovo, lo sapevamo già da prima del boom dell’IA. In definitiva rimane sempre valida la solita massima: usate pure l’IA generativa, ma non fidatevi ciecamente di quello che dice.

Nemmeno i giochi su Steam sono AI-free

Leggo su Pivot to AI che dall’anno scorso Steam, invece che rifiutare del tutto i giochi che usano IA generativa per creare elementi off-line o durante il gioco, li accetta ma costringe lo sviluppatore a indicarlo chiaramente. Ma ovviamente questo non piace alle grandi società, che sperano di usare sempre più IA nei giochi e quindi dover pagare sempre meno i creativi. Il CEO di Epic Tim Sweeney ha affermato che il tag AI “non ha senso negli store per i giochi, perché l’IA sarà presente in quasi tutte le produzioni future.”

Non so, ma ho come il sospetto che questa deriva verso la “sbobbAI” (“AI slop”) non funzionerà troppo bene con i giocatori seri…

Google Gemini 3

Nel mondo degli LLM c’è una corsa continua a cercare di superarsi, con tempi davvero ristretti tra gli annunci di nuovi modelli. I vari player devono sempre decidere se aspettare a rilasciare il nuovo modello oppure uscire con una versione a interim (le “punto cinque, che come dice il nome stesso sono a metà strada) per non perdere il treno. E in effetti Google Gemini 2.5 non era proprio il massimo, restando dietro sia a OpenAI che ad Anthropic.
Leggendo però le prime impressioni in rete, pare che Gemini 3.0 sia davvero riuscito a staccare i concorrenti, almeno per il momento. Cominciamo a vedere cosa dice l’oste del suo vino, cioè la presentazione di Google stessa. Dopo essersi bullata che LMArena Leaderboard lo posiziona al top, mostra altri risultati ottimali nei benchmark usati di solito, come Humanity’s Last Exam dove anche senza l’aiuto di DeepSeek ha raggiunto il 37,5% di risposte esatte, contro per esempio il 30,7% di ChatGPT5 Pro. In genere io non mi fido dei benchmark, perché è possibile addestrare apposta i modelli (un po’ come gli insegnanti che ti insegnano a risolvere gli Invalsi). Ma devo dire che sono rimasto impressionato che in MathArena Gemini 3.0 Pro abbia raggiunto il 23,44%, quando il miglior competitor (Grok 4.1) si è fermato al 5,21%. Potrebbe esserci il trucco anche qui, perché i problemi erano ormai noti; ma con una differenza così grande nei risultati qualcosa di buono devono averlo fatto per forza. Non parliamo poi di ARC-AGI-1, un test che secondo Alberto Romero è “facile per gli umani, molto difficile per le IA”. Gemini 2.5 Pro otteneva il 4,9%; Gemini 3 Pro arriva al 31,1%, quasi il doppio del più vicino concorrente che è GPT-5.1 (17,6%). E mentre in genere il costo in dollari di una sessione con Gemini 3 Pro è parecchio più alto di quello degli altri concorrenti, in questo caso è addirittura minore di quello di GPT-5.1.

Pare che il nuovo modello sia stato riscritto da capo, e quindi non sia un semplice miglioramento: ma soprattutto – come fa notare Axios – ci sono due punti a vantaggio di Google. Il primo è che ovviamente ha una quantità enorme di dati di addestramento a sua disposizione; il secondo è che usa il proprio hardware, più precisamente TPU home-made. Non per nulla c’è stato un forte ribasso del valore delle azioni di Nvidia, che fino ad ora pareva essere il leader incontrastato del mercato. Non tutto è rose e fiori, però: sempre Axios riporta che nonostante una base dati molto più variegata, Gemini 3 Pro ha una probabilità di alluciunazioni maggiore quando si chiede qualcosa per cui non ha dati a disposizione. C’è insomma da lavorarci ancora su; ma possiamo dire che ci sono ancora margini di miglioramento per i modelli IA con l’architettura attuale.

Gli LLM hanno problemi con la parola “no”

È abbastanza noto che tra i problemi dei chatbot c’è una certa piaggeria nei confronti degli utenti: essi sono infatti programmati per darti sempre ragione, e non si peritano di dare una risposta tirata a caso quando nel loro materiale di addestramento non c’è nulla al riguardo. Quando gli fai notare che quello che ha scritto non è vero non fa una piega, e si limita a cominciare a dire “hai proprio ragione!” Insomma, un approccio che forse migliora l’autostima di chi fa le domande ma può dare molti problemi nel medio termine.

Quello che non sapevo è che il concetto di “no” non funziona nemmeno nei prompt, almeno nel passato recente. Questo articolo di New Scientist dello scorso maggio spiega infatti come un test in cui si è cercato di addestrare dei modelli mostrando loro radiografie di soggetti con e senza polmonite, etichettate rispettivamente con “signs of pneumonia” e “no signs of pneumonia”, ha prestazioni molto inferiori a quelle di un modello addestrato solo “in positivo”. Lo stesso capita in un altro test, dove chiedere quale foto ha “un tavolo senza una sedia” fa calare la percentuale di risposte esatte di 15 punti rispetto al trovare un tavolo e una sedia.

Quello che pare capitare è che i modelli sono bravi a riconoscere nel prompt una parola chiave, ma hanno difficoltà ad associarla a un concetto negativo. Non è credo un caso che generalmente i modelli abbiano due insiemi diversi di prompt, quello positivo e quello negativo; in questo modo il controllo è più semplice. Il guaio è naturalmente che questo cozza contro la necessità di interagire in linguaggio naturale: sembra insomma incredibile, ma la prima parola che un bambino impara (che come tutti i genitori sanno bene non è né mamma né papà, ma “no!”) sia al di fuori delle capacità di un chatbot…

Ultimo aggiornamento: 2025-11-24 12:31

Hej Aftonbladet

L'inizio della mia interazione con Hej Aftonbladet Come ben sa chi è andato almeno una volta all’Ikea, “Hej!” è il saluto informale in svedese. Il tabloid di Stoccolma Aftonbladet (letteralmente “il foglio della sera”), il quotidiano più letto in Svezia, ha creato una sezione che si intitola Hej Aftonbladet e che sfrutta gli LLM per fornire le notizie in modo completamente diverso da quello a cui siamo abituati. Secondo quanto scritto da The Fix, dopo un test con un certo successo lanciato in occasione delle elezioni americane, il chatbot è partito ufficialmente sei mesi fa e risponde a circa 50000 domande al giorno, con un quarto delle interazioni fatte da persone sotto i 36 anni (questa specificazione mi fa pensare che anche in Svezia i giornali siano percepiti come cose da vecchi).

Ho dei dubbi sulle 50 lingue parlate dal chatbot: come vedete nell’immagine, quando gli ho chiesto se parla italiano mi ha risposto (in svedese) di no. Anche quando ho fatto domande in inglese l’avviso che sta facendo una ricerca sulla base dati interna (“Artikel-sök: Hej Aftonbladet söker efter relaterade artiklar.”) è scritto in svedese, lingua che non mastico troppo bene anche se posso capirci qualcosa, tipo il “sök” iniziale che è chiaramente un “Suche” (in tedesco) o “seek” in inglese. Immagino che – come detto da Martin Schori che è il “direttore di IA editoriale & Innovazione” di Aftonbladet – siano più interessati ad avere una versione in arabo, viste le centinaia di migliaia di arabofoni in Svezia.

Il problema delle allucinazioni, nonostante la base dati relativamente piccola, resta sempre, e infatti in fondo alla pagina c’è il solito avviso “AI kan göra misstag. Dubbelkolla viktig fakta.” (Per i fatti meno importanti fa lo stesso…), e Schori lo ammette: nella mia limitata interazione devo dire di non avere trovato nulla di sbagliato, però. Probabilmente il rischio è minore di quello che potremo avere con un riassunto IA fatto da Google che prende più fonti magari contrastanti e mischia concetti diversi. Il vero problema che vedo non è tanto l’avere un riassunto probabilmente semplificato degli articoli, quanto la eventuale sostenibilità di un tale sistema: dovrebbe funzionare come abbonamento, permettendo al più un numero limitato di domande gratuite. Però trovo interessante questo tentativo di esplorare nuove vie per la comunicazione.

AlphaEvolve

Rewire ha pubblicato un articolo su un risultato ottenuto da Google DeepMind’s AlphaEvolve. Nel 1969 Volker Strassen scoprì come moltiplicare due matrici 4×4 usando solo 49 moltiplicazioni anziché le 64 del metodo canonico riga-per-colonna, e da allora nessuno riuscì a migliorare il risultato: ora AlphaEvolve ha trovato un metodo che ne richiede solo 48. Il preprint relativo è interessante per due motivi: il primo è che non parla solo di questo risultato ma di un corpus di problemi in cui ci sono stati altri casi di risultati migliorati rispetto a quanto noto in letteratura (ma anche di casi in cui non ci è proprio arrivato…), il secondo è che oltre ai due dipendenti di Google i coautori sono Javier Gómez-Serrano, matematico catalano ora alla Brown University che è stato uno dei primi a studiare la possibilità di usare l’IA per migliorare risultati matematici noti ma non dimostrati ottimali, e l’altro è Terry Tao, di cui non serve spiegare nulla. Detto in altri termini, la parte matematica è sicuramente stata controllata bene.

Quello che ho trovato molto interessante è l’approccio usato per questi problemi. Tenete conto che siamo generalmente parlando di problemi combinatori, per cui il numero di possibili combinazioni da testare è oltre la possibilità di un calcolatore per quanto potente; questa è una delle ragioni per cui trovare nuovi e migliori risultati è un compito praticamente impossibile. Personalmente già l’algoritmo originale di Strassen è stato qualcosa di incredibile. Per la precisione Strassen ha dimostrato che bastavano sette moltiplicazioni anziché 8 per moltiplicare due matrici 2times;2; il risultato indicato all’inizio è una banale conseguenza ottenuta considerando la matrice 4times;4 come formata da quattro matricette 2times;2. Però con la matrice più piccola ci sono relativamente poche possibilità di giocare con i parametri e quindi con costanza e fortuna si può trovare qualcosa. Raddoppiando le dimensioni questo tipo di approccio non funziona. Che fa allora AlphaEvolve? Innanzitutto non cerca un risultato nello spazio delle soluzioni, ma lavora nello spazio degli algoritmi, cioè cerca di scrivere un programma che dia il risultato cercato. Ma anche così il compito sarebbe impervio, visto che il numero di algoritmi possibili è dell’ordine di 1033. Quello che invece fa è far evolvere gli algoritmi, usando gli LLM come generatori di mutazioni. Ci sono cinque componenti:

  • La specificazione del problema, data dagli umani: non solo il prompt iniziale (un algoritmo non necessariamente ottimale) ma anche una funzione di valutazione che deve essere semplice da verificare e dare un punteggio. In questo specifico caso la funzione era data dalla correttezza formale dell’algoritmo e dal numero di moltiplicazioni necessarie.
  • La base dati degli algoritmi trovati man mano, da cui si pesca quello statisticamente più promettente.
  • Il selezionatore, che prende dalla base dati un algoritmo promettente e lo trasforma in un prompt “ricco” per un LLM;
  • La mutazione semantica ottenuta con gli LLM, che essendo addestrati sul codice riescono spesso a fornire ottimizzazioni… che magari danno però la soluzione a un altro problema: l’equivalente algoritmico delle allucinazioni di un chatbot standard.
  • Il valutatore-selettore, che controlla che l’LLM non sia andato per farfalle e sceglie i candidati più promettenti.

La parte di mutazione semantica può – anzi vi dovrebbe – fare venire in mente gli algoritmi genetici che erano di moda alcuni decenni fa, dove si facevano modifiche casuali a un algoritmo per vedere se migliorava o no. La differenza fondamentale in questo caso è che gli LLM possono partire per la tangente, ma lo fanno in un modo formalmente corretto, semplificando la vita. Per fare un esempio, la chiave per eliminare la quarantanovesima moltiplicazione è stata il passare alle operazioni con i numeri complessi, che apparentemente complicano la situazione – moltiplicare due numeri complessi significa fare quattro moltiplicazioni rispetto a quella singola nel caso di due numeri reali – ma in un caso particolare permettono un allineamento cosmico per cui moltissime moltiplicazioni si ripetono identiche in più punti, riducendo il numero totale necessario. Tao ha commentato, in maniera un po’ più formale della mia parafrasi, che si sfrutta il fatto stesso che gli LLM sparino parole a caso.

Ho già detto in passato che non bisogna aspettarsi chissà che cosa dall’attuale stato dell’arte delle IA. A dirla tutta, ho il sospetto che passare da 49 a 48 moltiplicazioni (un 2% di guadagno…) non sia chissà cosa. Ma devo riconoscere che per tutta una serie di problemi prettamente combinatori dove lo spazio delle soluzioni è sterminato sono già un grande aiuto.