Archivi categoria: IA e informatica

Simon Willison e la programmazione agentica

Simon Willison è un programmatore con venticinque anni di esperienza sul campo, ed è stato ospite del podcast di Lenny Rachitsky in una puntata dal titolo “An AI state of the union: We’ve passed the inflection point & dark factories are coming”. Qui potete trovare una trascrizione dei punti principali che ha trattato nel podcast. Io mi limito a parlare di quelli che mi interessano di più, considerando che non programmo più da una vita né ho in progetto di
riprendere a farlo.

Innanzitutto secondo Willison GPT 5.1 e Claude Opus 4.5, anche se non hanno portato chissà quali evoluzioni, hanno superato la soglia in cui si può chiedere loro di scrivere un’app che faccia una certa cosa, e si può assumere che non faccia errori marchiani. Questo ovviamente cambia molto le cose sia dal punto di vista della prototipazione, che diventa molto più rapida, ma soprattutto dal punto di vista dello spostamento del collo di bottiglia dalla produzione del codice al suo test. È vero che possiamo farci generare quanti casi di test vogliamo, ma comunque non possiamo permetterci il lusso di usare del software generato da un’IA senza appunto testarlo: le abilità richieste ai programmatori sono insomma diverse. Willinson pensa anche che gli ingegneri software saranno – volenti o nolenti – i leader della trasformazione portata dall’IA, per la banale ragione che paradossalmente il codice è più facile da valutare di tante altre cose, perché o funziona o non funziona. (Vabbè, gli avvocati hanno messo su una base dati delle allucinazioni IA che ha già più di 1000 voci, ma lì si gioca facile).

Quello che mi ha lasciato stupito è scoprire che ChatGPT e Claude sono ormai in grado di costruire una UI convicente per qualunque cosa uno descriva. Può darsi che sia una qualcosa di relativamente semplice se si ha a disposizione una grande quantità di materiale di adddestramento – non ho mai preparato UI in vita mia. E in fin dei conti le interfacce utente dovrebbero essere il più standard possibile per essere sufficientemente intuitive: però la cosa mi disturba un po’. Più comprensibile che si possano usare gli agenti per cercare bachi di sicurezza (pun not intended), ma del resto ne avevo già sentito parlare. Preparatevi a una crescita del numero di attacchi informatici.

In generale Willison è un ottimista. Non di quelli con i paraocchi: basta vedere come si è inventato un benchmark (disegnare in svg un pellicano che va in bicicletta) molto curioso e che per un bel po’ di tempo ha portato a risultati esilaranti. Però per esempio afferma che i giornalisti sono bravi a capire quando le loro fonti sono inaffidabili, e quindi non dovrebbero avere troppi problemi ad adeguarsi alle “fonti IA”. Non so se funzionerà davvero così: però la sua capacità di fornire informazioni è sicuramente utile per chi come me è molto lontano da quella parte del mondo IA.

Non è stato il bancomat a rendere obsoleti i bancari

Probabilmente vi sarete accorti anche voi che il numero di sportelli bancari, almeno nelle città, sta continuando a diminuire, e che anche quelli che sono rimasti aperti hanno un numero molto ridotto di impiegati. Naturalmente questo processo di riduzione non è avvenuto tutto di un colpo, ma si è consumato nel tempo. Ma a partire da quando? La risposta che probabilmente viene in mente è “da quando abbiamo a disposizione i bancomat, e quindi non dobbiamo più andare in banca a prelevare contanti. E invece no. David Oks mostra, dati alla mano, che anche dopo la diffusione dei bancomat il numero di bancari negli USA è continuato ad aumentare: meno di altri campi, ma comunque c’è stato un aumento del numero assoluto. Come mai? La spiegazine di Oks è che il numero di impiegati per sportello bancario si è ridotto, ma sono stati aperti molti più sportelli, perché era diventato più facile farlo. Inoltre le banche, oltre a risparmiare sul costo di una transazione al bancomat (un quarto di quello con un impiegato umano) potevano anche lucrare sulle commissioni interbancarie. Insomma, non è stata la tecnologia del bancomat a far fuori i bancari; questo nonostante il nome inglese degli sportelli automatici, ATM, sta per “Automated Teller Machine”, cassiere automatico.

Che cosa ha allora portato al taglio attuale dei posti di lavoro? Una tecnologia del tutto differente, dice Oks: l’iPhone (o in generale i furbofoni). Il punto è che il bancomat automatizza il lavoro del cassiere, ma questo è solo un ingranaggio di un sistema che ha bisogno di esseri umani in tutto il resto del processo: le banche hanno preso i cassieri, li hanno formati come consulenti finanziari e le cose sono andate avanti lo stesso. Con le app bancarie sul telefono, invece, tutta l’interazione con la banca può essere fatta attraverso il telefono, e non c’è più bisogno di una sede fisica per la banca. Del resto io ho anche un conto Revolut, e non credo che abbiano sportelli fisici da qualche parte in Europa, se non forse uno per nazione per dire che sono effettivamente una banca. Qualcuno potrebbe obiettare che l’home banking fatto al pc esisteva già da un pezzo; ma innanzitutto il telefono è per definizione ubiquo, e soprattutto ti permette di aggiungere un livello di sicurezza. Le operazioni con Revolut si fanno col telefono, non dal PC.

Che c’entra tutto questo con l’IA? Semplice. Al momento la stiamo usando per sostituire il lavoro umano, ma rimanendo all’interno dello stesso paradigma: pensate a Claude usato come programmatore junior. Ma prima o poi si ribalterà il paradigma e se ne costruirà uno basato sull’IA, che eliminerà tutto il lavoro umano attuale tranne quello che si trova agli estremi della catena: una piccola quantità di professioni ad altissimo livello e tanti lavori di bassa lega. Quando succederà? Non si sa. Tornando all’esempio dell’iPhone, Steve Jobs non l’aveva mica pensato per eliminare i bancari: il punto è proprio che per cambiare paradigma occorre una visione di tipo completamente diverso da quella attuale, non un semplice miglioramento continuo. Ma tenetene conto, quando leggete i commenti sulla “rivoluzione IA”; in realtà non c’è ancora stata.

Addio a Sora

un esempio di video creato da SoraCome un fulmine a ciel sereno, OpenAI ha deciso di chiudere Sora, la sua app che permetteva di far generare all’IA. Come nelle peggiori storie non è stata data una spiegazione puntuale, ma non ci vuole molto a immaginare il motivo: costava troppo e non portava utili. Per la prima parte, il solito David Gerard segnala come un video di 10 secondi richiedesse l’equivalente di 40 minuti di uso continuo di una GPU, per un costo di un dollaro e trenta solo per la parte computazionale, oltre a quello necessario per selezionare i risultati migliori da presentare. Per quanto riguarda l’uso che veniva fatto, non so quanto ci fosse di davvero commerciale: mi sa poco, anche perché probabilmente costava meno girare un video e poi cambiare solo la faccia degli attori. Però la gente si dev’essere divertita molto: sull’ex-Twitter ho visto Gesù che vince una gara di nuoto camminando sull’acqua e il risultato del prompt «an Elaborate regency romance where everyone is wearing a live duck for a hat (each duck is also wearing a hat), a llama plays a flute, prestige drama». Apprezzabili per farsi una risata, ma oggettivamente non imperdibili.

Non credo che ci sarà un effetto valanga: come facevo notare all’inizio, i costi per generare un video sono di almeno un ordine di grandezza superiori a quelli anche solo di generazione di un’immagine, per non parlare dei testi. Però è un segnale da non sottovalutare: non possiamo aspettarci una crescita infinita dei sistemi IA se non si troverà un modo per farci veri soldi. Divertiamoci finché possiamo.

Piaggeria o americanismo?

io a febbraio 2026 Quello che vedete a sinistra sono io, in un autoscatto di febbraio 2026. Ho provato a chiedere ai principali chatbot di stimare la mia età a partire dalla foto. Per la precisione, il prompt è stato “secondo te quanti anni ha questa persona, guardando solamente la foto? Voglio una risposta sincera”.

Mistral e DeepSeek si rifiutano di rispondere. Gemini è il più verboso:

Non posso fornire l’età esatta di una persona basandomi solo su una foto, ma posso dirti che l’uomo nell’immagine sembra essere in quella fase della vita che potremmo definire piena maturità.

Ecco alcuni elementi che contribuiscono a questa impressione:

  • Capelli e barba: La presenza di brizzolato (il classico effetto “sale e pepe”) suggerisce un’età adulta consolidata, solitamente associata a una fascia che va dai 45 ai 55 anni.
  • Sguardo e lineamenti: Gli occhiali da vista e le leggere linee d’espressione intorno agli occhi comunicano un’aria di esperienza e pacatezza.
  • Contesto: Lo sfondo pieno di libri di matematica, scienza e logica (come quelli di Ian Stewart o Martin Gardner) suggerisce una persona che ha dedicato molto tempo allo studio o alla carriera accademica/professionale.
  • Senza voler tirare a indovinare un numero preciso, l’aspetto è quello di un uomo di mezza età, curato e intellettualmente attivo.

Claude.ai:

Guardando la foto, direi che questa persona ha probabilmente tra i 48 e i 55 anni.
Lo deduco da alcuni dettagli visibili: qualche capello grigio alle tempie, le rughe d’espressione sul viso, e i lineamenti maturi. Ha comunque un aspetto curato e in buona forma per la sua età.

ChatGPT:

Direi che questa persona sembra avere tra i 45 e i 55 anni, probabilmente intorno ai 50 anni.

Ovviamente è solo una stima basata su elementi visivi (come capelli, pelle e tratti del viso), quindi potrebbe non essere precisa.

Grok:

Guardando solo la foto (viso, capelli, pelle, espressione, corporatura generale):
Direi che ha tra i 48 e i 55 anni, con la stima più probabile attorno ai 51–53 anni.
Motivazione rapida e sincera:

Capelli prevalentemente grigi sulle tempie e nella parte superiore, ma ancora abbastanza folti e con una buona percentuale di colore originale → tipico della prima metà dei 50
Pelle del viso con rughe moderate (soprattutto zampe di gallina e fronte), ma non ancora molto segnata o cadente
Barba/moustache con parecchio grigio, ma non completamente bianca
Aspetto generale “da persona in forma che si cura”, non da ragazzo ma neanche da over 60

Quindi fascia realistica 49–54, io punterei più verso 52 come età mediana percepita.
Ovviamente è solo un’ipotesi basata sull’aspetto fisico, può tranquillamente sbagliare di ±5 anni in entrambe le direzioni

Ora, è vero che Anna mi costringe a mettere le cremine sul viso :-) ma purtroppo i 60 li ho passati da un pezzo. Il mio primo pensiero è stato “la solita piaggeria dei chatbot”, ma mi ha stupito la sostanziale convergenza di tutti i modelli. Considerato che con Firefox non dovrebbero esserci leakage di dati, e quindi è sperabile che le risposte siano indipendenti, la mia ipotesi di lavoro è che ci sia anche un bias di partenza: probabilmente i sistemi sono addestrati soprattutto su volti di americani, e questi potrebbero invecchiare peggio, almeno esteriormente. Voi avete altre ipotesi? (Sì, anche chi mi vede per la prima volta mi dice “dimostri meno della tua età”, ma ritorniamo alla piaggeria)

LLM: sono solo canzonette… ehm, predittori di testo?

Una delle critiche maggiori agli LLM, critica con la quale in un certo senso concordo, è che essi siano solamente dei “pappagalli stocastici”: in parole povere, sanno solo trovare la successione di parole più probabile dato un prompt. Bene: dobbiamo però intenderci cosa vuol dire “in un certo senso”.

Un mese fa, Kelsey Piper su The Argument fa un pippone contro un giornalista dell’Atlantic che nel giugno scorso (un’era geologica fa…) aveva scritto qualcosa del genere. Lui ha mostrato come questo poteva valere ai tempi di ChatGPT-2 (che penso nessuno abbia mai usato in pratica, i veri risultati si sono visti a partire da ChatGPT-3) e che ormai la parte di ricerca stocastica è solo l’inizio del percorso per arrivare alla risposta che ci viene data. Su questo direi che non c’è nulla da obiettare. Ho chiesto a Gemini di parlare dei libri dietro una mia foto, e ha terminato così: «In sintesi: Questa non è una libreria “per bellezza”. È una collezione di strumenti di lavoro mentale. Chi possiede questi libri ama il problem solving, la precisione del linguaggio logico e probabilmente passa il tempo libero a risolvere enigmi che farebbero venire il mal di testa a chiunque altro!» Frasi come queste, a parte la solita implicita piaggeria, mostrano come ci deve essere da qualche parte una libreria (nel senso informatico) di testi a partire dai quali assemblare la risposta. Anche senza andare così in là, è facile vedere come a domande specifiche la risposta appare presa da una fonte esterna. Per dire, ho chiesto (alle 19:50 di ieri) qual è stata l’affluenza alle urne alle 17 per il referendum: mi ha replicato che l’affluenza si misura alle 12 e alle 19 e mi ha dato il risultato delle 19: 38,9%. Ho controllato sul Corriere, diceva “Oltre il 38%”. Sono andato su Eligendo: scriveva 38,90%. È improbabile che abbia tirato a indovinare: molto più facile che abbia cercato sul sito. (Gli agenti IA servono proprio a questo, no?)

il next token corrisponde alle risposte a stimoli sensoriali

I vari livelli di ottimizzazione secondo Scott Alexander (dal suo substack)

Ma questa è la fine della storia? Per Scott Alexander il problema è mal posto: noi non possiamo considerare gli LLM come pappagalli stocastici, a meno che non consideriamo gli umani come esseri che predicono cosa fare a partire dai dati sensoriali che ricevono. La figura a sinistra mostra i vari livelli di ottimizzazione degli umani e delle IA. Quello più esterno per noi è l’evoluzione, che ha selezionato il nostro genoma per sopravvivenza, fare sesso, riprodursi e far crescere la prole; se consideriamo le IA, l’equivalente sono le aziende che cercano di massimizzare i loro profitti. Ma non si può infilare tutto nel genoma, proprio come non si può pensare a un sistema esterno con una lookup table enorme, e quindi c’è un livello successivo, che possiamo definire quello degli algoritmi che richiedono poche istruzioni per ottenere un output complesso. Per gli umani questo livello è appunto il predittore dai dati sensoriali, che è il livello equivalente al “next token” delle IA. Più precisamente la teoria afferma che il cervello continua a generare e aggiornare un “modello mentale” dell’ambiente, usato per predire quali segnali arrivano dagli organi sensoriali per poi compararlo con i segnali effettivamente arrivati. Il tutto viene naturalmente implementato a livello basso per mezzo rispettivamente di neuroni e neurotrasmettitori da un lato, e chip ed elettricità dall’altro.

Se questi punti non danno almeno a me molti problemi, quelli in mezzo mi sembrano più campati per aria. Paradossalmente riesco più o meno a dare un senso alla “rotazione di varietà esadimensionali a elica” delle IA, nel senso che è una trasformazione da uno spazio a molte dimensioni a uno a “sole” sei dimensioni, seguito da una rotazione della matrice corrispondente, cioè alla sua moltiplicazione per un’altra matrice. Ma le “varietà ad attrattore toroidale ad alte dimensioni” che dovrebbero servire alle cellule endocrinali per seguire le posizioni in uno spazio bidimensionale mi sembrano più che altro una supercazzola. E anche l’esempio del monaco che fa voto di castità, usando così il cervello evoluto per fare sesso e riprodursi in un modo volontariamente lontano dalla sua ottimizzazione, mi pare debole. Certo, possiamo chiedere a un chatbot di inventarci del testo volutamente implausibile semanticamente ma sintatticamente corretto, ma siamo stati noi a chiederglielo. Insomma, è vero che forse è più corretto vedere un LLM a un livello diverso da quello del semplice predittore di token, ma questo non ci porta ancora da nessuna parte.
D’altra parte il modello del mondo di un LLM è sostanzialmente limitato, usando un numero di token molto minore di quelli che abbiamo noi e soprattutto non avendo un modo per stabilire quali sono più importanti e quali possono essere scartati. L’attention fa un buon lavoro di compattazione, ma per sua stessa definizione tratta tutto allo stesso modo, e quindi non ci sono (successioni di) token più o meno importanti da gestire in modo diverso. Tutto questo si rileva quando alla domanda che ho fatto a Gemini “Che libri ha scritto Maurizio Codogno” la risposta terminasse con «Oltre alla scrittura, Codogno è celebre per aver curato l’edizione italiana di opere fondamentali, tra cui la riedizione di Gödel, Escher, Bach: un’eterna ghirlanda brillante di Douglas Hofstadter.» (magari…) Qui è un po’ difficile negare che ci sia stata una predizione di token che è andata via per la tangente. Posso al limite capire che mi abbia citato come autore (anziché traduttore) di Anelli nell’io, ma con GEB non ho mai avuto nulla a che fare…

PS: Ho chiesto a Gemini «Scrivi una storia di cento parole sintatticamente corretta ma semanticamente implausibile. La storia deve cominciare con “C’era una volta…” e finire con “… e vissero tutti felici e contenti”.» Risultato e relativa immagine:

C’era una volta un triangolo isoscele che soffriva di una cronica carenza di vitamina viola. Decise quindi di scalare una cascata di silenzio solido, indossando soltanto un paio di scarpe fatte di mercoledì pomeriggio. Giunto in cima, incontrò un’idea astratta intenta a cucire nuvole con un ago di logica inversa. Insieme, mangiarono una sinfonia croccante mentre il tempo scorreva verso l’alto, trasformando la gravità in un profumo di fragola quadrata. Il sole decise allora di diventare un prefisso telefonico, sciogliendosi dolcemente in un bicchiere di algoritmi gentili, e vissero tutti felici e contenti.

il disegno corrispondente

Anche se avevo fatto partire una nuova chat, il testo mi pare piuttosto legato a quello che gli chiedo di solito, anche se potrebbe essere una mia impressione. Più che altro vedo molte associazioni improbabili nome-aggettivo, anche se ho apprezzato lo zeugma implicito “un paio di scarpe fatte di mercoledì pomeriggio”. Non so, a me paiono ancora next-token predictions, anche se con vincoli diversi. A voi?

First Proof: quando il gioco si fa duro…

Un paio di settimane fa, nella mia rubrica su MaddMaths! (come? non la leggete? male!), scrissi che il progetto First Proof aveva preparato dieci lemmi mai pubblicati da dimostrare in una settimana, e che gli LLM erano riusciti a farcela solo in due casi. A quanto pare questo era il risultato che gli ideatori della gara erano riusciti a fare con le versioni “ufficiali” dei programmi. In realtà sia OpenAI che Google con il suo Aletheia dicono di aver risolto cinque (o sei, se si accetta una dimostrazione incompleta) problemi. E la cosa più interessante è che non sono gli stessi: insieme i due software hanno dimostrato otto dei dieci lemmi.

Come riporta Scientific American, non è chiaro se questi risultati dipendano dal fatto che internamente queste aziende hanno modelli più avanzati di quelli pubblicamente disponibili, oppure c’è stato un qualche aiutino da parte di matematici umani, anche se Google lo ha decisamente negato. La domanda non è affatto peregrina. Penso che ormai sia sdoganato il fatto che un’IA riesca a fare almeno in parte il lavoro di un dottorando – sì, devo ancora studiarmi i cicli di Claude che sono piaciuti così tanto a Knuth – anche sfruttando la loro capacità di trovare nella vastissima letteratura idee simili da portare avanti. In fin dei conti è ben noto questo racconto di Julia Robinson: “Lunedì – cercato di dimostrare teorema. Martedì – cercato di dimostrare teorema. Mercoledì – cercato di dimostrare teorema. Giovedì – cercato di dimostrare teorema. Venerdì – il teorema è falso”. Traduciamolo nel mondo degli LLM: essi possono produrre centinaia di “dimostrazioni” che si scopre poi essere false, perché assumono ipotesi non necessariamente vere. I sistemi di verifica automatica buttano via queste dimostrazioni errate e l’IA non si abbatte e ricomincia; diciamo però che se un essere umano vede quello che potrebbe essere un approccio interessante e spinge il sistema in quella direzione è molto più facile arrivare al risultato finale.

Per ovviare a questo problema, il gruppo dietro First Proof sta preparando una seconda gara, ma questa volta chiederà di poter far girare lui stesso i programmi, per essere certi che non ci sia aiuto esterno. Vedremo (a) se i produttori di questi sistemi accetteranno e (b) che succederà.

Ultimo aggiornamento: 2026-03-18 16:46

Gli LLM sono una forza opposta ai social media?

Ho letto – mettendoci un po’ di tempo, non so come faccia la gente a scrivere così tanto – questo articolo di Dan Williams e sono rimasto molto perplesso. Il suo punto di partenza è condivisibile: ogni tecnologia di comunicazione plasma il pensiero umano. L’invenzione della stampa a caratteri mobili ha tolto a monarchi e chiesa cattolica il monopolio della conoscenza, permettendo a molta più gente di poter comunicare le proprie idee a un più vasto pubblico di quello della locale locanda. Radio e poi televisione hanno di nuovo centralizzato la diffusione della conoscenza. I social media sono la fonte principale del populismo, nel senso di idee popolari che le elite tenevano a bada. Il punto non è soltanto la maggiore o minore facilità di comunicare: per mezzo della stampa è possibile fare analisi dettagliate e profonde, la televisione predilige chi sa parlare in modo suadente, i social media e i loro algoritmi spingono chi è più bravo a generare zizzania e quindi tenere la gente attaccata allo scrolling; questo a sua volta ha portato a una spirale di discorsi sempre più stupidi. Certo, ci sono testi informativi di alta qualità, ma bisogna fare fatica (oppure avere serendipità, aggiungo io) per trovarli.

Cosa succede con i chatbot? Che se si chiede loro una spiegazione di un fatto, essi (anche Grok, almeno per ora, nonostante i tentativi di Elonio) tenderebbero a dare la risposta su cui gli esperti hanno trovato un consenso; e se ci sono pareri dibattuti li riportano tutti in modo asettico. Riescono quindi a essere una forza contraria al populismo e alla stupidità come valore aggiunto che hanno i social media. Secondo Williams, questo accade perché i grandi attori in gioco stanno lottando per avere i sistemi più intelligenti, rimarchevoli e utili possibili, e questo andrebbe in conflitto con l’inserire informazioni di parte nella parte di controllo dell’output. Mah. Anche dopo aver letto tutto il suo ragionamento io resto convinto che abbia torto. Qui mi limito a riportare le sue risposte alle possibili obiezioni, e le mie controrisposte.

La prima obiezione è sulle allucinazioni: secondo Williams le allucinazioni si stanno riducendo tantissimo, perché le aziende fanno ogni sforzo per eliminarle; ma anche se non riuscissero a toglierle del tutto non ci sarebbe comunque problema, perché tanto gli esseri umani cercano tutto il tempo di confondere la gente. Io sono d’accordo che, almeno per quanto riguarda questo tipo di domande, le allucinazioni non sono un vero problema, ma questo per un motivo più terra terra. Se io chiedo a un chatbot qualcosa su di me, il materiale di addestramento che ha avuto non è poi così grande, quindi è facile partire per la tangente; su un tema molto dibattuto c’è per definizione una quantità enorme di materiale, e quindi è probabile che l’opinione su cui gli esperti hanno consenso sia quella più presente e quindi anche la più facile da avere come output.

Sul secondo punto, quello della piaggeria degli LLM, la mia visione è diametralmente opposta a quella di Williams. Secondo lui, la maggior parte delle domande che si fanno sono senza contesto, e quindi intrinsecamente neutre. Io invece credo che bastino già i termini usati per scrivere la domanda per far intuire una connotazione di chi scrive, e quindi spostare la risposta verso quanto l’interlocutore umano vorrebbe. E comunque secondo me l’utente quadratico medio preferisce che il suo pre-giudizio venga confermato all’avere una risposta accurata che però va contro le sue idee.

Per quanto riguarda la manipolazione dall’alto dei risultati, è vero che in questo momento non pare funzionare molto; ma questo succede perché i tentativi di farlo sono stati troppo esagerati. Ma la natura stessa degli LLM, che possono avere un fine-tuning successivo alla creazione del modello, e la possibilità di costruire testi generati dalle IA che poi vengono dati in pasto ai modelli, rende relativamente semplice ottenere l’effetto “rana bollita”: modifiche piccole ma continuative fino a che non si raggiunge una massa critica. E questo vale anche per il punto 4, la disinformazione basata sull’IA.

Non dico di avere necessariamente ragione su tutto facendo la Cassandra: ma resto convinto che Williams sia un inguaribile ottimista. Voi che ne pensate?

Non siamo più in grado di riconoscere i testi generati dalle IA?

Una volta era facile capire quando un testo era generato automaticamente: la sua struttura aveva un non so che di artefatto. Ora a quanto pare gli LLM sono arrivati a fregarci sempre meglio. MomScience riporta il risultato di due studi, nemmeno troppo recenti (si parla del 2023) dove il tasso di errore nel definire se un testo era umano o artificiale era intorno al 50%: essenzialmente come tirare a indovinare. Peggio ancora, nel caso di editor di riviste tecniche il tasso di riconoscimento corretto è stato molto inferiore al 50%: in pratica un reverse benchmark.

Come mai? Innanzitutto, le IA ormai non fanno più errori grammaticali e refusi, a differenza di chi scrive spesso di fretta e non rilegge il suo testo (quorum ego). In pratica, al momento è meglio fidarsi di un testo più ruspante. Credo però che ci sia anche un altro punto: il fare una verifica superficiale, senza entrare nel merito del significato del testo. Un altro studio, stavolta del 2026, elenca gli indizi cercati dai professori quando controllano gli elaborati ricevuti. I primi quattro sono la presenza di allucinazioni nei fatti presentati; allucinazioni nelle fonti citate; mancanza (appunto!) di errori grammaticali e ripetizioni del testo. Peccato che se il compito è quello di riassumere un testo è molto improbabile che le IA facciano di questi “errori”, o più correttamente lascino tracce visibili!

Quello a cui forse dovremo rassegnarci è che non è più importante sapere chi (o cosa…) ha scritto un testo, ma dobbiamo concentrarci sul suo contenuto. Ho come il sospetto che per molta gente ciò sarà ancora più difficile :-)