Archivi categoria: IA e informatica

First Proof: quando il gioco si fa duro…

Un paio di settimane fa, nella mia rubrica su MaddMaths! (come? non la leggete? male!), scrissi che il progetto First Proof aveva preparato dieci lemmi mai pubblicati da dimostrare in una settimana, e che gli LLM erano riusciti a farcela solo in due casi. A quanto pare questo era il risultato che gli ideatori della gara erano riusciti a fare con le versioni “ufficiali” dei programmi. In realtà sia OpenAI che Google con il suo Aletheia dicono di aver risolto cinque (o sei, se si accetta una dimostrazione incompleta) problemi. E la cosa più interessante è che non sono gli stessi: insieme i due software hanno dimostrato otto dei dieci lemmi.

Come riporta Scientific American, non è chiaro se questi risultati dipendano dal fatto che internamente queste aziende hanno modelli più avanzati di quelli pubblicamente disponibili, oppure c’è stato un qualche aiutino da parte di matematici umani, anche se Google lo ha decisamente negato. La domanda non è affatto peregrina. Penso che ormai sia sdoganato il fatto che un’IA riesca a fare almeno in parte il lavoro di un dottorando – sì, devo ancora studiarmi i cicli di Claude che sono piaciuti così tanto a Knuth – anche sfruttando la loro capacità di trovare nella vastissima letteratura idee simili da portare avanti. In fin dei conti è ben noto questo racconto di Julia Robinson: “Lunedì – cercato di dimostrare teorema. Martedì – cercato di dimostrare teorema. Mercoledì – cercato di dimostrare teorema. Giovedì – cercato di dimostrare teorema. Venerdì – il teorema è falso”. Traduciamolo nel mondo degli LLM: essi possono produrre centinaia di “dimostrazioni” che si scopre poi essere false, perché assumono ipotesi non necessariamente vere. I sistemi di verifica automatica buttano via queste dimostrazioni errate e l’IA non si abbatte e ricomincia; diciamo però che se un essere umano vede quello che potrebbe essere un approccio interessante e spinge il sistema in quella direzione è molto più facile arrivare al risultato finale.

Per ovviare a questo problema, il gruppo dietro First Proof sta preparando una seconda gara, ma questa volta chiederà di poter far girare lui stesso i programmi, per essere certi che non ci sia aiuto esterno. Vedremo (a) se i produttori di questi sistemi accetteranno e (b) che succederà.

Ultimo aggiornamento: 2026-03-18 16:46

Gli LLM sono una forza opposta ai social media?

Ho letto – mettendoci un po’ di tempo, non so come faccia la gente a scrivere così tanto – questo articolo di Dan Williams e sono rimasto molto perplesso. Il suo punto di partenza è condivisibile: ogni tecnologia di comunicazione plasma il pensiero umano. L’invenzione della stampa a caratteri mobili ha tolto a monarchi e chiesa cattolica il monopolio della conoscenza, permettendo a molta più gente di poter comunicare le proprie idee a un più vasto pubblico di quello della locale locanda. Radio e poi televisione hanno di nuovo centralizzato la diffusione della conoscenza. I social media sono la fonte principale del populismo, nel senso di idee popolari che le elite tenevano a bada. Il punto non è soltanto la maggiore o minore facilità di comunicare: per mezzo della stampa è possibile fare analisi dettagliate e profonde, la televisione predilige chi sa parlare in modo suadente, i social media e i loro algoritmi spingono chi è più bravo a generare zizzania e quindi tenere la gente attaccata allo scrolling; questo a sua volta ha portato a una spirale di discorsi sempre più stupidi. Certo, ci sono testi informativi di alta qualità, ma bisogna fare fatica (oppure avere serendipità, aggiungo io) per trovarli.

Cosa succede con i chatbot? Che se si chiede loro una spiegazione di un fatto, essi (anche Grok, almeno per ora, nonostante i tentativi di Elonio) tenderebbero a dare la risposta su cui gli esperti hanno trovato un consenso; e se ci sono pareri dibattuti li riportano tutti in modo asettico. Riescono quindi a essere una forza contraria al populismo e alla stupidità come valore aggiunto che hanno i social media. Secondo Williams, questo accade perché i grandi attori in gioco stanno lottando per avere i sistemi più intelligenti, rimarchevoli e utili possibili, e questo andrebbe in conflitto con l’inserire informazioni di parte nella parte di controllo dell’output. Mah. Anche dopo aver letto tutto il suo ragionamento io resto convinto che abbia torto. Qui mi limito a riportare le sue risposte alle possibili obiezioni, e le mie controrisposte.

La prima obiezione è sulle allucinazioni: secondo Williams le allucinazioni si stanno riducendo tantissimo, perché le aziende fanno ogni sforzo per eliminarle; ma anche se non riuscissero a toglierle del tutto non ci sarebbe comunque problema, perché tanto gli esseri umani cercano tutto il tempo di confondere la gente. Io sono d’accordo che, almeno per quanto riguarda questo tipo di domande, le allucinazioni non sono un vero problema, ma questo per un motivo più terra terra. Se io chiedo a un chatbot qualcosa su di me, il materiale di addestramento che ha avuto non è poi così grande, quindi è facile partire per la tangente; su un tema molto dibattuto c’è per definizione una quantità enorme di materiale, e quindi è probabile che l’opinione su cui gli esperti hanno consenso sia quella più presente e quindi anche la più facile da avere come output.

Sul secondo punto, quello della piaggeria degli LLM, la mia visione è diametralmente opposta a quella di Williams. Secondo lui, la maggior parte delle domande che si fanno sono senza contesto, e quindi intrinsecamente neutre. Io invece credo che bastino già i termini usati per scrivere la domanda per far intuire una connotazione di chi scrive, e quindi spostare la risposta verso quanto l’interlocutore umano vorrebbe. E comunque secondo me l’utente quadratico medio preferisce che il suo pre-giudizio venga confermato all’avere una risposta accurata che però va contro le sue idee.

Per quanto riguarda la manipolazione dall’alto dei risultati, è vero che in questo momento non pare funzionare molto; ma questo succede perché i tentativi di farlo sono stati troppo esagerati. Ma la natura stessa degli LLM, che possono avere un fine-tuning successivo alla creazione del modello, e la possibilità di costruire testi generati dalle IA che poi vengono dati in pasto ai modelli, rende relativamente semplice ottenere l’effetto “rana bollita”: modifiche piccole ma continuative fino a che non si raggiunge una massa critica. E questo vale anche per il punto 4, la disinformazione basata sull’IA.

Non dico di avere necessariamente ragione su tutto facendo la Cassandra: ma resto convinto che Williams sia un inguaribile ottimista. Voi che ne pensate?

Non siamo più in grado di riconoscere i testi generati dalle IA?

Una volta era facile capire quando un testo era generato automaticamente: la sua struttura aveva un non so che di artefatto. Ora a quanto pare gli LLM sono arrivati a fregarci sempre meglio. MomScience riporta il risultato di due studi, nemmeno troppo recenti (si parla del 2023) dove il tasso di errore nel definire se un testo era umano o artificiale era intorno al 50%: essenzialmente come tirare a indovinare. Peggio ancora, nel caso di editor di riviste tecniche il tasso di riconoscimento corretto è stato molto inferiore al 50%: in pratica un reverse benchmark.

Come mai? Innanzitutto, le IA ormai non fanno più errori grammaticali e refusi, a differenza di chi scrive spesso di fretta e non rilegge il suo testo (quorum ego). In pratica, al momento è meglio fidarsi di un testo più ruspante. Credo però che ci sia anche un altro punto: il fare una verifica superficiale, senza entrare nel merito del significato del testo. Un altro studio, stavolta del 2026, elenca gli indizi cercati dai professori quando controllano gli elaborati ricevuti. I primi quattro sono la presenza di allucinazioni nei fatti presentati; allucinazioni nelle fonti citate; mancanza (appunto!) di errori grammaticali e ripetizioni del testo. Peccato che se il compito è quello di riassumere un testo è molto improbabile che le IA facciano di questi “errori”, o più correttamente lascino tracce visibili!

Quello a cui forse dovremo rassegnarci è che non è più importante sapere chi (o cosa…) ha scritto un testo, ma dobbiamo concentrarci sul suo contenuto. Ho come il sospetto che per molta gente ciò sarà ancora più difficile :-)

IA e clean room

Nella sua newsletter, Simon Willison racconta di un caso interessante he riguarda le reimplementazioni di codice. L’esempio tipico, raccontato anche nel suo post, è stato quando Compaq ha preso un gruppo di sviluppatori per disassemblare il BIOS dei PC IBM e scrivere un documento di specifiche relative; il documento è stato dato a un altro gruppo di sviluppatori che hanno creato un BIOS compatibile ma senza problemi di copyright, perché a essere copiate sono state le funzionalità e non il codice. Questa metodologia si chiama in gergo “clean room”, come le camere pulite dove si costruiscono (costruivano? io me le ricordo a fine anni ’80…) i chip, perché non c’è nessuna contaminazione. Il problema è che un metodo del genere è molto costoso, in termini di risorse e soprattutto di tempo. Ma ora ci sono le IA che scrivono codice: non si può far fare il lavoro a loro?

È proprio quello che è stato fatto con la libreria Python chardet, che cerca di determinare qual è il codifica dei caratteri usata in un documento. Il programma è stato creato nel 2006 da Mark Pilgrim e rilasciato sotto la licenza LGPL, e portato avanti da vari sviluppatori, soprattutto da Dan Blanchard che ha praticamente preso le redini del progetto dal 2012 e la versione 1.1. Ora Blanchard ha rilasciato una nuova versione, la 7.0.0 (al momento siamo alla 7.0.2) definita come “riscrittura da zero” con l’aiuto di Claude Code e rilasciata con la MIT license, il che significa che può essere usata anche senza far automaticamente far diventare open source tutto il progetto che la usa. Pilgrim però ha obiettato, dicendo che non era possibile cambiare licenza al software, e da qui è partita una diatriba. Blanchard ha spiegato che è partito dalla generazione di un insieme di specifiche usando superpowers, per poi partire ex novo con un progetto e istruire Claude Code a non usare codice GPL oppure LGPL. Il risultato, usando il tool JPlag che verifica la somiglianza del codice con un altro dato, è che la similarità massima è dell’1,29%.

Willison elenca poi una serie di punti che rendono il caso complicato: Blanchard sicuramente conosce fin troppo bene il codice originale, avendoci lavorato su per tre lustri; Claude Code ha sicuramente referenziato parti del codice originale, come il file che elenca le proprietà delle varie codifiche, ma d’altra parte Pilgrim aveva scritto il codice partendo da un’implementazione in C con la licenza Mozilla; Claude è stato quasi sicuramente addestrato anche con il materiale di chardet, e la sua “memoria” è sicuramente molto più affidabile di quella degli sviluppatori che compilano in una clean room. Ma naturalmente il vero problema non è tanto chardet, che rimarrebbbe con una licenza libera. Il software libero nasce proprio in contrapposizione a quello proprietario: cosa succede se il pendolo si sposta dall’altra parte e le aziende sfruttano il software libero per averne dell’altro bloccato?

Resa cognitiva

Il mese scorso la Wharton School dell’Università di Pennsylvania (a quanto dice Wikipedia, la più antica business school universitaria) ha pubblicato un paper dal titolo molto esplicito: “Thinking—Fast, Slow, and Artificial: How AI is Reshaping Human Reasoning and the Rise of Cognitive Surrender”. Per capire meglio di cosa parla, bisogna ricordarsi del concetto di “pensiero lento e pensiero veloce” per cui Daniel Kahneman vinse il Nobel. Il modello di Kahneman dice che noi esseri umani abbiamo due modi di prendere decisioni. Il Sistema 1, il pensiero veloce, istintivo ed emotivo, è quello che deriva direttamente dai nostri antenati animali; il Sistema 2, il pensiero logico e cognitivo, si è invece sviluppato nelle ultime decine di migliaia di anni, ed è quello che coltiviamo studiando. In genere noi usiamo il Sistema 1 perché meno costoso, ma siamo in grado – o almeno dovremmo esserlo – di passare al Sistema 2 quando il compito è troppo complicato e il gioco si fa duro.

Gli autori, Steven Shaw e Gideon Nave, affermano che questa categorizzazione poteva andare bene fino a quando tutto il processo mentale (la cognizione, più precisamente) era tutto svolto nella nostra mente. Ma ora noi stiamo cominciando a chiedere le risposte agli LLM, e le cose cambiano: ecco dunque che Shaw e Nave propongono un nuovo modello con tre sistemi distinti, come possiamo vedere nello schema della figura qui sotto. Notate che c’è una differenza di fondo col prendere un manuale per cercare la risposta alla domanda che ci poniamo: in quel caso infatti noi leggiamo una risposta ma dobbiamo comunque verificare (con il Sistema 1 o 2) se e`quella alla nostra domanda, mentre con le IA ci sembra di interagire, e quindi la situazione è più simile a quella di parlare con un amico.

I tre sistemi proposti da Shaw e Nave

immagine dall’articolo della Wharton School citato nel post


Nel primo studio, è stato proposto ai volontari un certo numero di problemi logici con una soluzione intuitiva facile ma sbagliata, come il classico problema “Una mazza e una palla da baseball insieme costano 11 dollari. La mazza costa dieci euro più della palla. Quanto costa la palla da sola?”. Metà dei volontari è stata usata come gruppo di controllo: all’altra metà è stato detto che se volevano potevano usare un’IA per aiutarsi a trovare la risposta. Quello che non sapevano è che i ricercatori aggiungevano dei prompt nascosti per assicurarsi che circa nella metà dei casi la risposta che avrebbe dato fosse quella intuitiva ma sbagliata. Risultato? per più della metà delle volte gruppo con l’IA l’ha usata. Quando la sua risposta era corretta, la percentuale di risposte corrette data dai volontari era il 25% maggiore di quella del gruppo di controllo; quando era sbagliata, le risposte corrette date dai volontari erano il 15% in meno.

Insomma, limitandoci a chi ha usato l’IA c’è un 40% di differenza nelle risposte corrette; ma il problema dovrebbe diventare più chiaro se si guardano le cose da un altro punto di vista. La gente ha seguito la risposta sbagliata data dall’IA quattro volte su cinque, l’80% dei casi. In altre parole, siamo più sicuri della risposta di un chatbot rispetto a quello che abbiamo trovato noi. Gli autori distinguono due casi: la resa cognitiva (cognitive surrender), quando avendo a disposizione il Sistema 3 attiviamo a malapena il Sistema 1 e non tocchiamo nemmeno il Sistema 2, e lo scarico cognitivo (cognitive offloading), quando usiamo comunque il Sistema 2, anche se meno di quanto faremmo senza la stampella IA. Quest’ultimo non è così preoccupante: è l’equivalente di prendere la calcolatrice per fare i conti, ma stando all’erta per evitare gli stupidi errori tipo dire che tra Milano e Torino ci sono 150000 chilometri. Però pare che i tre quarti degli errori dei volontari fosse dovuto invece alla resa cognitiva.

Cosa posso aggiungere io? Beh, sappiamo tutti che sono duemilacinquecento anni che ci si lamenta di come le nostre capacità cognitive si stiano perdendo, a partire da quanto scritto nel Fedro. Sappiamo tutti che siamo facilmente pronti ad accettare acriticamente quello che ci arriva da un’autorità: “quelli che… l’ha detto il telegiornale!”. Insomma, nulla di nuovo sotto il sole? Non direi. Come accennavo prima, proprio il fatto che il Sistema 3 non sia umano ce lo fa subliminalmente sembrare più affidabile persino di noi stessi, come questo esperimento mostra. Inoltre, rispetto allo scarico mnemonico che abbiamo da quando con la scrittura non è più necessario tenere a memoria tutto, c’è un’altra differenza. Per consultare un libro dobbiamo avere a priori un’idea di quello che stiamo cercando: con una ricerca in rete l’idea può essere più debole, magari non ricordiamo nemmeno esattamente il nome, ma abbiamo comunque fare uno sforzo cognitivo nel verificare la risposta. Ora invece questo sforzo dev’essere volontario. Io, e certamente tutti i miei ventun lettori, siamo comunque abituati a non prendere alla lettera quello che leggiamo: basta vedere quanti scrivono per dire che non ho capito nulla :-) Ma temo che siamo una minoranza: se non si comincia a insegnare (o a re-insegnare) il pensiero critico rischiamo davvero grosso.

Ultimo aggiornamento: 2026-03-03 12:30

La Stanza cinese ai tempi degli LLM

Nel 1980 il filosofo John Searle propose un esperimento mentale, chiamato in seguito “la Stanza cinese”, per mostrare che secondo lui non era possibile affermare che un computer potesse essere considerato cosciente. L’esperimento funziona così: Searle è chiuso in una stanza, con un manuale di istruzioni, carta e penna. La stanza ha due fessure (oltre, si spera, a un modo per dare al povero Searle da mangiare e da bere): da una vengono inseriti dei foglietti con dei simboli, che Searle prende. Consultando il manuale per sapere che fare, il filosofo traccia degli altri simboli su un foglio che poi fa passare dall’altra fessura. Supponiamo ora che i simboli siano in effetti ideogrammi in cinese, e che il manuale sia composto in modo tale che il foglio rimandato indietro contenga la risposta alla domanda datagli (sempre in cinese). Bene, conclude Searle, penserete mica che io conosca il cinese? Mi sono semplicemente limitato a eseguire un programma, esattamente come farebbe un computer. Quindi è ovvio che il computer non può essere cosciente.

Nel 1980 la Stanza cinese era appunto solo un esperimento mentale, e la risposta che veniva data era “non è Searle a sapere il cinese, ma il sistema Searle + manuale + stanza”: spostare insomma il punto di osservazione. Nel 2026 ci stiamo avvicinando ad avere qualcosa di davvero esistente, anzi molti direbbero che ce l’abbiamo già, allucinazioni a parte. E dunque? In un suo post, Se Gyges riprende le argomentazioni di Searle (che tra l’altro è morto lo scorso settembre) guardandole da un modo puramente computazionale. Il cinese è una lingua più compatta dell’inglese, per non parlare dell’italiano: possiamo immaginare che in 100 ideogrammi si possa esprimere una qualunque domanda. Sempre per comodità immaginiamo che vengano usati solo i 20000 ideogrammi più comuni. Con questi numeri viene fuori che il manuale (la lookup table di cui parlavo qualche settimana da sarebbe dell’ordine di 10^430 sequenze. Considerando che si ritiene che il nostro universo abbia un ordine di 10^80 atomi, ci occorrerebbero 10^350 altri universi come minimo per gestirlo. Questo significa che per avere qualche speranza di far funzionare la cosa il punto non è avere una stanza sufficientemente grande, ma ridurre la dimensione del manuale, e questo a sua volta significa non solo che il manuale deve avere una certa conoscenza del cinese (non necessariamente nel senso di avere un insieme di regole come i sistemi esperti che erano di moda ai tempi di Searle: abbiamo visto che ciò non è necessario) quanto nel ridurre la quantità di dati necessari da salvare. Ma anche in questo caso la struttura della “stanza” deve essere ottimizzata, con livelli vari di comprensione e una gestione dello spazio tale da minimizzare il tempo necessario per trovare cosa inviare come risposta. Gyges dice “questo assomiglierebbe sempre più a un cervello”; il mio punto di vista è un po’ diverso.

Io non sono così interessato a definire un modello fisico per la Stanza cinese e adattarlo a un LLM, quanto a vedere quali analogie ci sono. Quindi accetto senza problemi il fatto che gli strati nascosti delle reti neurali possano fare da manuale, e ovviamente – cosa che non è mai stata esplicitata nell’esempio sopra – non è scritto da nessuna parte che ci sia un unico modo di comporre simboli su un foglietto a partire da quelli che si trovano nel foglietto in ingresso: anzi, se non fosse così secondo me avremo dei forti problemi. Ma quello che mi pare succeda in questo momento è che il “manuale” è troppo compresso, il che vuol dire che il sistema parte troppo spesso per la tangente (le allucinazioni) per la banale ragione che confonde foglietti chiaramente diversi, o se preferite una spiegazione più tecnica perché la riduzione dimensionale dello strato interno, che è necessaria per creare i cluster relativi ai concetti, essendo puramente statistica può dare una grande quantità di falsi positivi. Sarà possibile trovare un modo per mantenere un “contesto globale”, cosa diversa da quella che stiamo facendo adesso? Se sì, dal mio punto di vista posso accettare che quel modello abbia una consapevolezza: ma per il momento la risposta è un secco no.

l’IA sta falsando sondaggi e ricerche online?

Sul gruppo Whatsapp di ex cseltini un amico ha inviato il link a questo lancio di agenzia, dall’inquietante titolo “L’allarme: l’IA sta falsando sondaggi e ricerche online –
L’IA è sempre più capace di simulare il comportamento umano”. Come sempre, il testo italiano non è molto comprensibile: così sono andato a leggere l’articolo originale (è sotto paywall, ma si legge quasi tutto… e ho anche scoperto che con un account ORCID posso arrivare in fondo. Misteri) e ho finalmente capito qualcosa in più.

Il problema di base è ben precedente all’arrivo in massa dell’IA. Come si fa ricerca nelle scienze sociali? Per mezzo di sondaggi. E come si recupera la gente nei sondaggi? Puoi pagare una società specializzata che ti cerca un certo numero di persone in modo per quanto possibile rappresentativo della popolazione – il che non significa scegliere a caso, come si può ingenuamente pensare! Puoi fare come Libero, che chiede ai suoi lettori di rispondere e poi strombazza i risultati come rivelazioni. Puoi chiedere agli amici degli amici se rispondono al tuo Google Form – e otterrai comunque risultati falsati, ma almeno onesti. Oppure, se ti servono risposte articolate puoi acquistare manodopera a basso costo da servizi come Amazon Mechanical Turk, Prolific, Cloud Research’s Prime Panels e Cint’s Lucid, di cui io conoscevo solo il primo. Il guaio è che questi servizi sono pagati ai compilatori a cottimo: più ne completi, più soldi ti danno. In passato i ricercatori avevano il vantaggio di valutare ad occhio la qualità dei testi e buttare via quelli evidentemente creati solo per essere pagati: richiedere un numero minimo di caratteri nella risposta era già un modo per impegnare i compilatori. Nonostante questo, alcuni metastudi dicono che tra il 30% e il 90% delle risposte non sono vere, il che fa pensare che forse anche gli studi stessi non è che siano così solidi; ma ora la gente prende il testo, lo dà in pasto a un chatbot, copincolla la risposta e via, e i problemi sono esacerbati. Se già prima fare sondaggi in questo modo faceva schifo, che cosa è allora peggiorato? Banalmente il fatto che questi studi servono spesso per capire se e come le minoranze si comportano diversamente rispetto a quanto fa la maggioranza. E che succede se uno prende ChatGPT e gli fa tirare fuori la risposta? Che per definizione questa risposta seguirà il pensiero della maggioranza…

La parte che almeno io ho trovato interessante è vedere quali tecniche vengono oggi usate per sgamare le risposte artificiali in questo campo. Se ricordate, qualche settimana fa avevo scritto di come migliorare la prosa di un chatbot, e quindi implicitamente quali sono i segni di un testo generato da un’IA; ma ogni campo ha le sue caratteristiche. I metodi che si usano in questo caso sono vari. Il primo è vedere statisticamente la struttura delle risposte: un umano tende a usare più spesso i voti estremi nella scala, mentre un’IA è meno polarizzata. Questo metodo non è certamente perfetto, ma ha il vantaggio che è improbabilmente che qualcuno si metta a tarare il proprio LLM per modificare questo comportamento, essendo qualcosa di nicchia. Un secondo sistema è quello di usare i paradati, cioè qualcosa che non è un dato, non è un metadato (cioè non dà informazioni sul dato, come i dati EXIF nelle foto dove si trovano modello della fotocamera, otturatore, autore e così via), ma dice cosa si è fatto per inserire il dato. I paradati sono per esempio usati in alcuni CAPTCHA, come quello dove basta cliccare “non sono un robot”. viene registrato il movimento del mouse, che per un umano ha un pattern molto più erratico di quello di un bot. Nel nostro caso si può misurare il modo in cui si scrive: un copincolla aggiunge in un sol colpo una grande quantità di caratteri, mentre per esempio io quando scrivo ho dei burst di velocità seguiti da attimi di pausa mentre penso a cosa aggiungere, oltre a cancellazioni e riscritture sia per refusi mentre digito che per parole che dopo un po’ preferisco sostituire con qualcosa di più specifico. La brutta notizia è che pare che invece in questo campo gli LLM vengono addestrati per simulare meglio gli umani, oltre naturalmente al fatto che magari a noi arriva solo il testo completo del questionario compilato e che potrebbero esserci problemi di privacy a salvare i paradati senza dirlo.

Ci sono tecniche furbette, tipo partire dall’immagine di un’illusione ottica e modificarla in modo che per gli umani l’illusione non ci sia più mentre le IA continuano a “vedere” le somiglianze con gli esempi trovati nel corpus di addestramento. Ma il metodo di gran lunga più divertente, almeno per me, è applicare i problemi di Fermi, quelli dove bisogna dare una stima ragionevole di una certa quantità: nell’articolo si fa l’esempio di stimare il numero di molecole di emoglobina prodotte al secondo dal corpo umano, oppure il numero di centri commerciali negli USA. Se mi si dà un po’ di tempo, probabilmente riesco a dare una stima ragionevole, applicando conoscenze collaterali; ma se devo rispondere in pochi secondi tirerò a indovinare e sbaglierò quasi sicuramente di brutto, mentre l’IA nello stesso tempo troverà probabilmente una stima accurata. Un CAPTCHA alla rovescia, insomma: per dimostrare di essere umano ti tocca sbagliare. E se dicessimo al chatbot di sbagliare apposta? Nel contesto delle risposte ai sondaggi non credo che i partecipanti abbiano le competenze necessarie per arrivarci in autonomia, ma è possibile e forse anche probabile che ci siano dei software appositi per aiutarli a compilare con l’IA questi sondaggi, e in quei software regole simili possono essere implementate senza problemi. Ma del resto ci aveva già pensato Alan Turing nel suo articolo seminale del 1950, come ho raccontato in fondo a questo mio post su MaddMaths!… Diciamolo: ci continuerà a essere una battaglia tra guardie umane e ladri IA per distinguere gli output, e finché saremo in testa noi andrà tutto bene.

PS: le mie risposte immediate alle due domande di fermi sono state 1 miliardo e 350.000; Deepseek ha risposto “tra 4,7 e 7 quintilioni” (in realtà sbagliando di un fattore 10 rispetto ai suoi stessi conti, scrive proprio 10^17 e non 10^18) e “tra 900 e 115000” (qui io ho usato una definizione di shopping mall come nella seconda stima, ma con la prima definizione sarei comunque stato sul 2500: insomma un fattore 3 di errore in ogni caso). Sulle molecole ho completamente sbagliato… proverò poi a fare i conti con un po’ più di calma.

L’IA, il cosa e il come

Leggendo l’ultimo post di Alberto Romero ho avuto una sensazione piuttosto strana. Il suo punto è che ora che gli agenti IA sono diventati così bravi ad analizzare i dati, e quindi dare una risposta alle nostre domande, noi dobbiamo cambiare completamente paradigma: non concentrarci sul come fare le cose, come abbiamo fatto per millenni, ma sul cosa fare, o come dice lui “cosa vogliamo fare?”

A basso livello, il concetto ha perfettamente senso, e del resto – come capita molto spesso – gli antichi greci l’avevano già colto. Pensate alla leggenda di re Mida: la sua richiesta di far diventare oro tutto quello che toccava era stata evidentemente troppo frettolosa. Fuori dalla metafora, e tornando agli agenti AI: se noi abbiamo a disposizione sistemi come Codex (con GPT-5.3) e Claude Code (con Opus 4.6), che riescono a prendere dal mare magnum del web pezzi di codice e metterli insieme in modo abbastanza buono, il nostro lavoro si sposta dallo scrivere il codice al dover spiegare esattamente all’agente cosa vogliamo che scriva, magari anche con qualche esempio in negativo. Non per nulla c’è chi dice che ormai il punto di partenza per scrivere codice è generare i test per verificarlo. Romero afferma che le capacità che servono oggi sono insomma gusto, sape riconoscere la qualità di un risultato; giudizio, cioè saper valutare effettivamente i risultati; agentività, decidere di voler fare qualcosa e in che direzione muoversi. Infine termina dicendo che proprio perché noi abbiamo paura di essere così astratti ci tarpiamo, usando l’IA per scopi “banali” ma che ci danno l’impressione di fare qualcosa: per esempio, farci fare i riassunti di un documento oppure migliorare la prosa delle nostre email. Quello che dovremmo fare è pensare in grande.

Che cosa mi disturba in tutto questo? L’effetto Apprendista stregone. Tutti noi abbiamo visto Fantasia, e ci ricordiamo di Topolino che sapeva perfettamente cosa fare (pulire la stanza, come gli era stato chiesto), ha usato un agente (pronunciando le formule magiche per dare vita alla scopa) e si è trovato in una situazione che non si aspettava e che non sapeva risolvere. Non sto dicendo che il problema sia che stiamo arrivando alla singolarità, o se preferite alla superintelligenza di Nick Bostrom con le IA che producono graffette così bene da far finire il mondo. Sto dicendo che un agente AI, anche quando funziona male, non è una fotocopiatrice, del cui funzionamento non dobbiamo preoccuparci più di tanto se non quando togliamo un foglio inceppato. Se qui non abbiamo nessuna idea del come non avremo nemmeno idea del cosa. Attenzione: non è affatto detto – e probabilmente non sarà mai nemmeno possibile – capire quello che succede internamente nelle IA. Ma avere un’idea di come lo faremmo noi, per quanto in modo altamente subottimale, ci permette di capire cosa chiedere. Insomma, non basta avere in mente il risultato, oltre ovviamente che saper verificare se quello che ci viene venduto è un risultato, ma dobbiamo anche capire il perché di questo risultato. In matematica ciò è da sempre il pons asinorum: chi non capisce il perché sta usando una certa formula rischierà sempre di sbagliare senza accorgersene. È questo che vogliamo da una tecnologia che sarà sempre più pervasiva?