Archivi categoria: IA e informatica

Nemmeno i giochi su Steam sono AI-free

Leggo su Pivot to AI che dall’anno scorso Steam, invece che rifiutare del tutto i giochi che usano IA generativa per creare elementi off-line o durante il gioco, li accetta ma costringe lo sviluppatore a indicarlo chiaramente. Ma ovviamente questo non piace alle grandi società, che sperano di usare sempre più IA nei giochi e quindi dover pagare sempre meno i creativi. Il CEO di Epic Tim Sweeney ha affermato che il tag AI “non ha senso negli store per i giochi, perché l’IA sarà presente in quasi tutte le produzioni future.”

Non so, ma ho come il sospetto che questa deriva verso la “sbobbAI” (“AI slop”) non funzionerà troppo bene con i giocatori seri…

Google Gemini 3

Nel mondo degli LLM c’è una corsa continua a cercare di superarsi, con tempi davvero ristretti tra gli annunci di nuovi modelli. I vari player devono sempre decidere se aspettare a rilasciare il nuovo modello oppure uscire con una versione a interim (le “punto cinque, che come dice il nome stesso sono a metà strada) per non perdere il treno. E in effetti Google Gemini 2.5 non era proprio il massimo, restando dietro sia a OpenAI che ad Anthropic.
Leggendo però le prime impressioni in rete, pare che Gemini 3.0 sia davvero riuscito a staccare i concorrenti, almeno per il momento. Cominciamo a vedere cosa dice l’oste del suo vino, cioè la presentazione di Google stessa. Dopo essersi bullata che LMArena Leaderboard lo posiziona al top, mostra altri risultati ottimali nei benchmark usati di solito, come Humanity’s Last Exam dove anche senza l’aiuto di DeepSeek ha raggiunto il 37,5% di risposte esatte, contro per esempio il 30,7% di ChatGPT5 Pro. In genere io non mi fido dei benchmark, perché è possibile addestrare apposta i modelli (un po’ come gli insegnanti che ti insegnano a risolvere gli Invalsi). Ma devo dire che sono rimasto impressionato che in MathArena Gemini 3.0 Pro abbia raggiunto il 23,44%, quando il miglior competitor (Grok 4.1) si è fermato al 5,21%. Potrebbe esserci il trucco anche qui, perché i problemi erano ormai noti; ma con una differenza così grande nei risultati qualcosa di buono devono averlo fatto per forza. Non parliamo poi di ARC-AGI-1, un test che secondo Alberto Romero è “facile per gli umani, molto difficile per le IA”. Gemini 2.5 Pro otteneva il 4,9%; Gemini 3 Pro arriva al 31,1%, quasi il doppio del più vicino concorrente che è GPT-5.1 (17,6%). E mentre in genere il costo in dollari di una sessione con Gemini 3 Pro è parecchio più alto di quello degli altri concorrenti, in questo caso è addirittura minore di quello di GPT-5.1.

Pare che il nuovo modello sia stato riscritto da capo, e quindi non sia un semplice miglioramento: ma soprattutto – come fa notare Axios – ci sono due punti a vantaggio di Google. Il primo è che ovviamente ha una quantità enorme di dati di addestramento a sua disposizione; il secondo è che usa il proprio hardware, più precisamente TPU home-made. Non per nulla c’è stato un forte ribasso del valore delle azioni di Nvidia, che fino ad ora pareva essere il leader incontrastato del mercato. Non tutto è rose e fiori, però: sempre Axios riporta che nonostante una base dati molto più variegata, Gemini 3 Pro ha una probabilità di alluciunazioni maggiore quando si chiede qualcosa per cui non ha dati a disposizione. C’è insomma da lavorarci ancora su; ma possiamo dire che ci sono ancora margini di miglioramento per i modelli IA con l’architettura attuale.

Gli LLM hanno problemi con la parola “no”

È abbastanza noto che tra i problemi dei chatbot c’è una certa piaggeria nei confronti degli utenti: essi sono infatti programmati per darti sempre ragione, e non si peritano di dare una risposta tirata a caso quando nel loro materiale di addestramento non c’è nulla al riguardo. Quando gli fai notare che quello che ha scritto non è vero non fa una piega, e si limita a cominciare a dire “hai proprio ragione!” Insomma, un approccio che forse migliora l’autostima di chi fa le domande ma può dare molti problemi nel medio termine.

Quello che non sapevo è che il concetto di “no” non funziona nemmeno nei prompt, almeno nel passato recente. Questo articolo di New Scientist dello scorso maggio spiega infatti come un test in cui si è cercato di addestrare dei modelli mostrando loro radiografie di soggetti con e senza polmonite, etichettate rispettivamente con “signs of pneumonia” e “no signs of pneumonia”, ha prestazioni molto inferiori a quelle di un modello addestrato solo “in positivo”. Lo stesso capita in un altro test, dove chiedere quale foto ha “un tavolo senza una sedia” fa calare la percentuale di risposte esatte di 15 punti rispetto al trovare un tavolo e una sedia.

Quello che pare capitare è che i modelli sono bravi a riconoscere nel prompt una parola chiave, ma hanno difficoltà ad associarla a un concetto negativo. Non è credo un caso che generalmente i modelli abbiano due insiemi diversi di prompt, quello positivo e quello negativo; in questo modo il controllo è più semplice. Il guaio è naturalmente che questo cozza contro la necessità di interagire in linguaggio naturale: sembra insomma incredibile, ma la prima parola che un bambino impara (che come tutti i genitori sanno bene non è né mamma né papà, ma “no!”) sia al di fuori delle capacità di un chatbot…

Ultimo aggiornamento: 2025-11-24 12:31

Hej Aftonbladet

L'inizio della mia interazione con Hej Aftonbladet Come ben sa chi è andato almeno una volta all’Ikea, “Hej!” è il saluto informale in svedese. Il tabloid di Stoccolma Aftonbladet (letteralmente “il foglio della sera”), il quotidiano più letto in Svezia, ha creato una sezione che si intitola Hej Aftonbladet e che sfrutta gli LLM per fornire le notizie in modo completamente diverso da quello a cui siamo abituati. Secondo quanto scritto da The Fix, dopo un test con un certo successo lanciato in occasione delle elezioni americane, il chatbot è partito ufficialmente sei mesi fa e risponde a circa 50000 domande al giorno, con un quarto delle interazioni fatte da persone sotto i 36 anni (questa specificazione mi fa pensare che anche in Svezia i giornali siano percepiti come cose da vecchi).

Ho dei dubbi sulle 50 lingue parlate dal chatbot: come vedete nell’immagine, quando gli ho chiesto se parla italiano mi ha risposto (in svedese) di no. Anche quando ho fatto domande in inglese l’avviso che sta facendo una ricerca sulla base dati interna (“Artikel-sök: Hej Aftonbladet söker efter relaterade artiklar.”) è scritto in svedese, lingua che non mastico troppo bene anche se posso capirci qualcosa, tipo il “sök” iniziale che è chiaramente un “Suche” (in tedesco) o “seek” in inglese. Immagino che – come detto da Martin Schori che è il “direttore di IA editoriale & Innovazione” di Aftonbladet – siano più interessati ad avere una versione in arabo, viste le centinaia di migliaia di arabofoni in Svezia.

Il problema delle allucinazioni, nonostante la base dati relativamente piccola, resta sempre, e infatti in fondo alla pagina c’è il solito avviso “AI kan göra misstag. Dubbelkolla viktig fakta.” (Per i fatti meno importanti fa lo stesso…), e Schori lo ammette: nella mia limitata interazione devo dire di non avere trovato nulla di sbagliato, però. Probabilmente il rischio è minore di quello che potremo avere con un riassunto IA fatto da Google che prende più fonti magari contrastanti e mischia concetti diversi. Il vero problema che vedo non è tanto l’avere un riassunto probabilmente semplificato degli articoli, quanto la eventuale sostenibilità di un tale sistema: dovrebbe funzionare come abbonamento, permettendo al più un numero limitato di domande gratuite. Però trovo interessante questo tentativo di esplorare nuove vie per la comunicazione.

AlphaEvolve

Rewire ha pubblicato un articolo su un risultato ottenuto da Google DeepMind’s AlphaEvolve. Nel 1969 Volker Strassen scoprì come moltiplicare due matrici 4×4 usando solo 49 moltiplicazioni anziché le 64 del metodo canonico riga-per-colonna, e da allora nessuno riuscì a migliorare il risultato: ora AlphaEvolve ha trovato un metodo che ne richiede solo 48. Il preprint relativo è interessante per due motivi: il primo è che non parla solo di questo risultato ma di un corpus di problemi in cui ci sono stati altri casi di risultati migliorati rispetto a quanto noto in letteratura (ma anche di casi in cui non ci è proprio arrivato…), il secondo è che oltre ai due dipendenti di Google i coautori sono Javier Gómez-Serrano, matematico catalano ora alla Brown University che è stato uno dei primi a studiare la possibilità di usare l’IA per migliorare risultati matematici noti ma non dimostrati ottimali, e l’altro è Terry Tao, di cui non serve spiegare nulla. Detto in altri termini, la parte matematica è sicuramente stata controllata bene.

Quello che ho trovato molto interessante è l’approccio usato per questi problemi. Tenete conto che siamo generalmente parlando di problemi combinatori, per cui il numero di possibili combinazioni da testare è oltre la possibilità di un calcolatore per quanto potente; questa è una delle ragioni per cui trovare nuovi e migliori risultati è un compito praticamente impossibile. Personalmente già l’algoritmo originale di Strassen è stato qualcosa di incredibile. Per la precisione Strassen ha dimostrato che bastavano sette moltiplicazioni anziché 8 per moltiplicare due matrici 2times;2; il risultato indicato all’inizio è una banale conseguenza ottenuta considerando la matrice 4times;4 come formata da quattro matricette 2times;2. Però con la matrice più piccola ci sono relativamente poche possibilità di giocare con i parametri e quindi con costanza e fortuna si può trovare qualcosa. Raddoppiando le dimensioni questo tipo di approccio non funziona. Che fa allora AlphaEvolve? Innanzitutto non cerca un risultato nello spazio delle soluzioni, ma lavora nello spazio degli algoritmi, cioè cerca di scrivere un programma che dia il risultato cercato. Ma anche così il compito sarebbe impervio, visto che il numero di algoritmi possibili è dell’ordine di 1033. Quello che invece fa è far evolvere gli algoritmi, usando gli LLM come generatori di mutazioni. Ci sono cinque componenti:

  • La specificazione del problema, data dagli umani: non solo il prompt iniziale (un algoritmo non necessariamente ottimale) ma anche una funzione di valutazione che deve essere semplice da verificare e dare un punteggio. In questo specifico caso la funzione era data dalla correttezza formale dell’algoritmo e dal numero di moltiplicazioni necessarie.
  • La base dati degli algoritmi trovati man mano, da cui si pesca quello statisticamente più promettente.
  • Il selezionatore, che prende dalla base dati un algoritmo promettente e lo trasforma in un prompt “ricco” per un LLM;
  • La mutazione semantica ottenuta con gli LLM, che essendo addestrati sul codice riescono spesso a fornire ottimizzazioni… che magari danno però la soluzione a un altro problema: l’equivalente algoritmico delle allucinazioni di un chatbot standard.
  • Il valutatore-selettore, che controlla che l’LLM non sia andato per farfalle e sceglie i candidati più promettenti.

La parte di mutazione semantica può – anzi vi dovrebbe – fare venire in mente gli algoritmi genetici che erano di moda alcuni decenni fa, dove si facevano modifiche casuali a un algoritmo per vedere se migliorava o no. La differenza fondamentale in questo caso è che gli LLM possono partire per la tangente, ma lo fanno in un modo formalmente corretto, semplificando la vita. Per fare un esempio, la chiave per eliminare la quarantanovesima moltiplicazione è stata il passare alle operazioni con i numeri complessi, che apparentemente complicano la situazione – moltiplicare due numeri complessi significa fare quattro moltiplicazioni rispetto a quella singola nel caso di due numeri reali – ma in un caso particolare permettono un allineamento cosmico per cui moltissime moltiplicazioni si ripetono identiche in più punti, riducendo il numero totale necessario. Tao ha commentato, in maniera un po’ più formale della mia parafrasi, che si sfrutta il fatto stesso che gli LLM sparino parole a caso.

Ho già detto in passato che non bisogna aspettarsi chissà che cosa dall’attuale stato dell’arte delle IA. A dirla tutta, ho il sospetto che passare da 49 a 48 moltiplicazioni (un 2% di guadagno…) non sia chissà cosa. Ma devo riconoscere che per tutta una serie di problemi prettamente combinatori dove lo spazio delle soluzioni è sterminato sono già un grande aiuto.

Wikipedia e l’IA

L’altro giorno, parlando di Grokipedia, ho accennato al fatto che Wikipedia deve per forza fare i conti con l’intelligenza artificiale. Qui provo a spiegare come io vedo la situazione. Premetto che tutto quello che scrivo riflette esclusivamente il mio pensiero, non quello della comunità di Wikipedia in lingua italiana, di Wikimedia Italia o tanto meno della Wikimedia Foundation.

Il primo punto da considerare è capire perché usare l’IA. Attenzione: non sono luddista, e non ho nulla a priori contro il suo uso. Spero però che nessuno creda davvero che gli LLM siano creativi, riuscendo quindi a scrivere qualcosa di davvero nuovo e non rimasticato (pur molto bene): d’altra parte se ci riuscissero il testo sarebbe considerato una ricerca originale (RO) che in Wikipedia è assolutamente vietata, perché tutto deve essere verificato indipendentemente. (Nota: mentre sto scrivendo c’è una curiosa convergenza tra utenti destrorsi e sinistrorsi che stanno cercando di far passare il concetto che le ricerche originali si possono usare). E taciamo sul fatto che le “ricerche originali” degli LLM sono spesso cose che non stanno né in cielo né in terra: ultimamente abbiamo avuto l’utente LugAIno che scriveva testi più o meno casuali sulla città di Lugano. Aggiungiamo poi che c’è il gtrande rischio che il testo generato, specialmente se si parla di un argomento di nicchia, potrebbe essere troppo simile alla fonte originale e pertanto essere una violazione di copyright. Non sapere quali siano le fonti non ci permette nemmeno di scoprirlo.

Da qui si passa al secondo punto: Wikipedia richiede di inserire le fonti delle affermazioni indicate, cosa che di solito non si ha con gli LLM: ci sono delle eccezioni, come Copilot e Perplexity, ma anche se loro affermano di indicare da dove hanno preso le informazioni questo non significa molto. L’altra settimana per esempio, chiedendo a Perplexity quando una chiesa milanese era stata eretta come basilica minore, Perplexity mi “citò una fonte” secondo cui il decreto relativo era stato emesso nel luglio 2025… da papa Francesco.

Ciò detto, non c’è nessuna ragione intrinseca per vietare tout court l’uso dell’IA per migliorare le voci: quello che serve è che non si copincolli il testo creato ma lo si controlli e lo si corregga dove necessario. Alcuni esempi di uso dell’IA? Il recupero di fonti (reali…) che possono utilmente ampliare quanto già scritto; la revisione di un testo in modo che sia più scorrevole; la traduzione di quanto già presente in un’altra edizione linguistica di Wikipedia (ma in questo caso ricordatevi di citarla come fonte!). L’IA è molto brava a fare il lavoro sporco, proprio perché in pancia ha una quantità enorme di informazioni. L’importante è appunto non dimenticarsi che l’intervento umano continua a essere necessario.

ChatGPT Atlas

Credo che ormai tutti i browser abbiano il loro bel tastino “chiedi all’intelligenza artificiale”, più o meno visibile. Però OpenAI ha sempre un disperato bisogno di pubblicizzarsi, e quindi ha tirato fuori ChatGPT Atlas, dove l’intelligenza artificiale – se ho ben capito – si mette in mezzo tra noi e Internet: non è questo il significato di “agent”?

Di recensioni ne trovate quante ne volete, per esempio su Wired o Agenda digitale; sicuramente io non posso farlo perché non ho un Mac (né accesso a pagamento a ChatGPT per le funzionalità più avanzate). Ma che dicono i detrattori? Tante cose, anche se ho dei dubbi su alcune di queste. Per esempio David Gerard ritiene che la vera ragione del lancio di Atlas sia la possibilità di recuperare pagine dal web, visto che si presenta proprio come un comune browser e quindi non può essere bloccato. La cosa mi pare strana, non foss’altro che perché le pagine che si possono recuperare da un browser non sono poi tante e quindi il materiale è limitato (e probabilmente molto ripetitivo, tra l’altro), Più interessante invece uno dei punti sollevati da Anil Dash. (Beh, diciamo due: il fatto che non è Atlas ad essere il nostro agente ma siamo noi a essere un suo agente è presumibilmente vero). Anche qui non sono poi così certo che il problema di dover fare ricerche scrivendo un testo e cercando di indovinare come farlo bene sia così importante: Dash fa l’esempio di Zork, che per un vecchietto come me era un modo assolutamente standard per interagire :-) Quello che però è preoccupante è il filtro tra le nostre ricerche e i risultati di Atlas. L’esempio fatto da Dash è stato il prompt “Taylor Swift showgirl” – non si può parlare di ricerca, ovviamente, vista la logica sottostante. Il risultato, a parte i suoi commenti sarcastici, è che non è nemmeno stato mostrato il sito web della cantautrice. Come potete capire, questo non è per nulla bello, a meno naturalmente che l’unica cosa che vi interessi è avere una risposta qualunque senza dover far fatica a scegliere qualcosa. (Ok, con i motori di ricerca attuali facciamo molta fatica e non otteniamo nemmeno tutti i risultati, ma la speranza resta sempre)

Insomma, la vedo male se il futuro delle rete sarà questo: diciamo che mi tocca sperare che la bolla IA scoppi quanto prima…

È l’ora del porno anche per l’AI

È notorio che quello che ha sempre fatto sviluppare i mercati è stato il porno. Lasciamo perdere le battute sul mestiere più antico del mondo o sulle categorie di PornHub e pensiamo semplicemente ai telefoni cellulari: la tendenza è stata di renderli sempre più piccoli fino a che qualcuno non ha pensato a quali immagini potevano interessare gli acquirenti. Ci avevano provato con il calcio e il DVB-H, senza grandi risultati perché nessuno aveva interesse a vedere un francobollo da 320×240 pixel: ma da quando partirono i primi siti con immagini erotiche la dimensione dei furbofoni ha ricominciato a crescere, superando le misure dei matton… ehm, dei terminali degli anni ’90. Sì, le dimensioni contano.

Non è un caso, insomma, che il mercato delle AI, che sta disperatamente cercando di trovare modi per ottenere soldi veri, stia pensando al porno. Tutto nasce da questo tweet di Sam Altman:

Il tweet è un capolavoro. Altman parte dal dire “ah, abbiamo fatto in modo che ChatGPT non possa essere usato come strizzacervelli, visto che c’è gente che ci è morta”, e termina col dire “però adesso che stiamo per essere in grado di riconoscere l’età delle persone che interagiscono potremo dare il porno (pardon, “erotica” che è una parola che in inglese sembra più neutra). Inutile dire il tipo di commenti che si sono visti in rete. Alberto Romero, che aveva appena ripostato un suo articolo dell’anno scorso, che parla di come le intelligente artificiali siano bravissime con tutti i peccati capitali, ha scritto un altro post (dietro paywall, quindi ho letto solo l’inizio). Romero riprende il tweet di Altman, lo legge come “la soluzione ai problemi mentali indotti da ChatGPT è stata troppo esagerata, e a questo punto il sistema è in grado di capire chi è psicotico e chi no, e togliere le restrizioni sul porno a chi non lo è, ed è adulto”. Il problema di per sé non è il porno: tanto lo troviamo dappertutto. Il problema è che non ha senso confrontare OpenAI con PornHub: quest’ultimo non ha mai affermato di voler salvare l’umanità con l’intelligenza artificiale generale…

Su pivot-to-ai David Gerard scrive, con il suo solito ottimismo, che il vero problema è che la curva d’uso di ChatGPT è piatta, e solo il 5% degli utenti usa un piano a pagamento. Come scrivevo, il modo più semplice di cercare di fare soldi è il porno: ecco qua la mossa di OpenAi, anche se Altman ha cercato di far marcia indietro con un altro tweet. Difficile però che ci sia davvero un dietrofront: Gerard fa presente come SuperGrok, insomma il Grok a pagamento, ha lanciato l’avatar Ani che ha una modalità NSFW, anche se per il momento l’anime è solo in lingerie.

A me non importa più di tanto questa deriva porno, se non per il fatto che qualcuno potrebbe credere di mettere in pratica nel mondo reale quello che può fare con l’avatar; ma anche in questo caso ho il sospetto che non ci sarebbe molto di diverso con quello che si vede già oggi nei video senza IA. Quello che mi chiedo è se tutto ciò sarà almeno per i prossimi anni la pietra tombale sull’AGI. Perché se dal porno arrivassero soldi, perché li si dovrebbe dirigere su qualcos’altro che non funziona? E se non arrivassero non sarebbe l’inizio di un nuovo inverno IA?