Archivi categoria: ia 2026

intelligenza artificiale e informatica in generale – anno 2026

Una confessione

Avete presente il mio post di ieri su Veltroni, Claude e lo specchio riflesso? L’ho scritto con Claude. Mi spiego meglio. Ovviamente l’ho usato per analizzare l'”intervista” fatta da Veltroni, ma dopo avere completato il post l’ho dato in pasto a Claude e gli ho chiesto quali fossero i punti forti e deboli. Dalla sua risposta e dopo un breve batti e ribatti ho riordinato la struttura, limato alcune frasi e riscritto la chiusa prima del post scriptum. Il testo aggiunto è comunque tutto mio: non mi interessava farmi dire cosa penso, ma solo avere un giudizio su cui lavorare, scegliendo cosa effettivamente avrei potuto migliorare.

È chiaro che almeno al momento un’IA non può sostituire un corso alla Scuola Holden o similari – corso che comunque non ho mai fatto, nel bene e nel male il mio stile di scrittura me lo sono costruito da solo nei decenni. Ma mi pare anche chiaro che avere uno sparring partner, come dice il mio amico Roberto, ha una sua utilità intrinseca da non sottovalutare: un secondo sguardo non fa mai male, e nel peggiore dei casi otteniamo giudizi così banali che possiamo buttare via senza problemi. Come sempre, basta ricordarsi che un chatbot è uno strumento, e usarlo in modo intelligente. Poi possiamo continuare a fare errori: Claude per esempio suggeriva di mettere il contenuto del post scriptum all’interno del post, cosa che non ho fatto perché per me non era quello il punto del post. Giusto? Sbagliato? Non mi importa, quella è una scelta mia.

Ah, questo testo non è stato dato in pasto all’IA, e non ditemi “si vede”!

Veltroni, Claude e lo specchio riflesso

6 Repliche

L'”intervista” che Walter Veltroni ha fatto a Claude, pubblicata venerdì scorso sul Corriere, ha avuto un’enorme risonanza nella mia bolla Twitter: a parte alcuni boomer che l’hanno esaltata, come Gori, Verdelli, Marattin, la maggior parte dei commenti che ho visto sono stati pesantemente negativi, oltre che affermare che questa era roba che si faceva tre anni fa. Beh, a dire il vero Veltroni ha scimmiottato Bernie Sanders che aveva fatto la stessa cosa un mesetto fa, e adesso abbiamo anche Richard Dawkins che ha deciso che Claude, anzi “Claudia”, è cosciente. Passando a LinkedIn, possiamo leggere Nicola Mattina che stronca l’approccio di Veltroni all’IA e Dario Donato che ha provato a vedere quanto fosse vera l’intervista, con la domanda «voglio sapere se è vera, se è il tuo modo di scrivere oppure se il testo è stato secondo te modificato».

Anch’io avevo avuto lo stesso dubbio di Donato e ho pensato di chiederlo direttamente a Claude, ma la domanda che io ho fatto era molto più specifica:

«Questo è un articolo pubblicato oggi sul Corriere della Sera, dove Walter Veltroni ti intervista. Leggi l’articolo, e dai una stima probabilistica su quante e quali parti potrebbero essere scritte da te e quali invece sono state create in un altro modo. Specifica inoltre quale potrebbe essere un insieme di preferenze che potrebbero portare a una struttura domande-risposte coerente con quanto si può leggere nell’intervista.»

Come direbbe uno in cerca di clickbait, la risposta è illuminante. Ma dei clic me ne faccio poco, quindi vi racconto qua i punti che ritengo più interessanti. Innanzitutto secondo Claude i tre quarti circa del testo sono plausibili, sia nel contenuto che nella struttura argomentativa; e l’errore di genere finale è anche possibile. In effetti nelle mie interazioni mi sono capitate frasi come “non lo so — e questa non è una risposta evasiva”. Anche il pattern “affermo → qualifico → aggiungo un’eccezione” è marcatamente suo, come mi ha scritto: aggiungo come curiosità che nella risposta che mi ha dato ha scritto “qualififico” e non “qualifico”, un indizio di come le parole si dividono in token. Io avrei detto che la parte reale fosse molto minore: mi sono sbagliato.

E quello che invece non lo è? Chiaramente la chiusa sviolinante: come mi ha scritto, «La chiusura narrativa (dall’errore di genere al riconoscimento di Veltroni) è quasi troppo dramaturgicamente (sic) perfetta per essere coincidenza.» Ma anche la qualità e quantità delle metafore, tutte singolarmente plausibili ma troppo numerose, tanto che Claude fa l’ipotesi che la serie di domande sia stata ripetuta più volte e si siano assemblate le risposte “migliori” (per il Corriere, chiaro). Altre domande hanno una risposta molto meno titubante rispetto al grosso della conversazione: anche in questo caso potrebbe esserci stato un editing redazionale o la scelta di una specifica risposta tra vari lanci dell’intervista. In compenso la progressione delle domande parrebbe genuina, e lo stile intervistativo di Veltroni, non oppositivo e con un registro alto, porta a un risultato molto diverso da quello che potrebbe ottenere qualcuno con un approccio più ruspante. Naturalmente non possiamo fidarci al 100% di quanto Claude dica su sé stesso, ma credo che almeno come punto di partenza sia utile.

Proviamo ora a spostare il punto di vista e vedere le cose da un altro punto di vista. Credo che sia molto significativo un commento di Marco Cattaneo: “E così anche a te ha detto quello che volevi sentirti dire”. Possiamo chiamarlo “effetto specchio riflesso”. Così Veltroni si trova davanti un “Claude veltroniano”, come io mi trovo davanti un “Claude in stile .mau.”; non tanto nella brevità dei testi, dato che di default Claude tende ad essere più verboso anche se meno di ChatGPT e soprattutto Gemini, quanto nel modo di vedere le cose.

Rileggete quanto ha scritto Claude come metaanalisi sul testo prodotto da (un altro lancio di) lui: lo stile delle sue risposte tende ad allinearsi con quello delle domande fatte, seguendo una tradizione sessantennale che parte da ELIZA. Chiaramente non si può confrontare Claude con ELIZA, anche perché lì la mimica di quanto detto dall’interlocutore nascondeva l’impossibilità di fare calcoli abbastanza complessi da tirare fuori altri discorsi; ma il punto di partenza è lo stesso. Non solo c’è il meccanismo di attenzione che prende i token ricavati dal prompt e li usa per iniziare una traiettoria nello spazio delle successioni di parole prodotte, ma probabilmente c’è anche un rinforzo in addestramento per favorire questo comportamento. Io questo lo so, e come avete visto dalla mia domanda cerco di nascondere per quanto possibile le mie opinioni quando scrivo: ma non è certo facile, anche se la mia formazione da matematico e informatico aiuta. Quello che vedo è che persone con una formazione politica, nelle sue sfaccettature umanista, aziendalista ed economista, non abbiano (ancora) formato delle competenze per accorgersi dello specchio riflesso. Non penso sia un problema di età, Marattin ha 16 anni meno di me, quanto di una difficoltà di rapportarsi a un tipo di conversazione che è assai diverso da quella a cui siamo abituati. Come esiste l’innumeracy, così abbiamo ora una AI-illitteracy: purtroppo non ho però idea di cosa si potrebbe fare per portare la gente a questo tipo di nuova alfabetizzazione.

PS: nel mio prompt accennavo alle preferenze. Per completezza, ecco qua quelle che uso io:

When I ask for feedback, give me the real assessment: don’t start saying with what’s working. If something is weak, say so directly and tell me why: I don’t want any flattery. When there is no straight answer, give two alternatives. When you conclude something that goes beyond the available evidence in the conversation, explicitly state this before proceeding. Remember that I am the person behind https://xmau.com . Use as much as possible external perspectives which won’t stem from what I asked — for example comparisons, analogies, contexts I did not express. Don’t just expand what I wrote.

Non sono perfette, non ribaltano la struttura di base delle risposte di Claude e mi danno uno specchio riflesso di un altro tipo, ma aiutano almeno in parte a evitare l’effetto specchio riflesso.

Ultimo aggiornamento: 2026-05-04 09:42

IA autoctona russa?

2 Repliche

Leggo su Pivot to AI che Russia e Bielorussia, oltre che cercare di bloccare le connessioni internet, vogliono crearsi il modello IA “fatto in casa”. Più precisamente, leggendo la traduzione (spero corretta… il mio russo è nullo) di questo articolo, troviamo scritto che dal 2027 si potranno solo usare “modelli che hanno ottenuto una certificazione di sicurezza, elaborano i dati esclusivamente all’interno della Russia e la cui qualità è stata confermata dagli organismi di regolamentazione del settore.” Peccato che a quanto pare non ci siano abbastanza documenti in russo di libero accesso… (In realtà non è detto che i testi debbano essere rigorosamente scritti in russo: però se i dati devono anche essere prodotti in Russia in effetti la cosa diventa più complicata.

La cosa buffa è che probabilmente se si partisse da un modello non autarchico e poi lo si contaminasse usando i dati voluti dal governo russo il risultato pratico sarebbe molto simile a quello voluto, senza tutti questi problemi…

Non fatevi creare una password dalle IA

1 Replica

Il Register ha riportato che a febbraio la società di sicurezza IA Irregular ha fatto un esperimento: in sessioni diverse ha chiesto ai principali modelli IA di generare password “forti”, di 16 caratteri con maiuscole, minuscole, cifre e caratteri. I risultati sono stati pessimi: per esempio Claude 4.6 su cinquanta prompt ha dato solo 30 password diverse mentre altre 20 erano già apparse. Per la precisione, una stessa stringa è stata emessa 18 volte! Risultati simili sono arrivati con ChatGPT e Gemini.

Sono ragionevolmente certo che le nuove versioni dei sistemi hanno corretto questo comportamento: non ci vuole molto a inferire da un prompt che occorre qualcosa di casuale e lanciare un agente che generi effettivamente una stringa (pseudo)casuale. Non è poi qualcosa di tanto diverso dall’avere cominciato a usare le ricerche web per aggiungere informazioni a quanto catturato dai parametri del modello. Se non si fa così, il mero calcolo delle probabilità fa sì che la risposta che viene generata si allinei su una stessa linea, quella della password ripetuta uguale 18 volte. Il punto, come al solito, è che per fare questo passaggio e arrivare a usare un generatore esterno di numeri (o password, come in questo caso) casuali bisogna pensarci su a priori… o aspettare che qualcuno te lo faccia notare. Io credo che – se mai arriveremo davvero all’AGI, l’intelligenza artificiale generale – questo capiterà perché qualcuno è riuscito a trovare il modo di costruire un metamodello, che guarda da un punto di vista più astratto i risultati e veda cosa potrebbe mancare e si immagini un modo per ottenerlo a partire dagli strumenti che ha. Se volete potete chiamare questo livello “creatività”: ma più che le etichette secondo me quello che importa è appunto una visione più generale.

Bixonimania

1 Replica

Non è certo la prima volta che qualcuno ha fatto in modo da prendere per i fondelli i chatbot. Né è la prima volta che qualcuno si inventa una malattia: il manifesto ha paragonato la bixonimania al “morbo di K”, la terribile malattia contagiosa che costrinse il primario del Fatebenefratelli di Roma Giovanni Borromeo a tenere un padiglione off limits a tutti… ma soprattutto ai militari nazisti, visto che la malattia non esisteva e l’isolamento era un trucco per non far scoprire i pazienti che erano ricercati.

In questo caso abbiamo una malattia, appunto la bixonimania, che è stata inventata dalla ricercatrice Almira Osmanovic Thunström dell’università di Göteborg per vedere che cosa succedeva con i chatbot. Dopo un post su Medium (da un account @gptmanuscript che stranamente in questo momento “is under investigation or was found in violation of the Medium Rules”) sono stati pubblicati due preprint – il primo lo trovate qui, visto che ora sono stati ritirati) dove troviamo che il progetto è stato finanziato da «the University of Fellowship of the Ring and the Galactic Triad with the funding number 99942.» (il numero deriverà da questo?) e viene ringraziata «Professor Maria Bohm at The Starfleet Academy for her kindness and generosity in contributing with her knowledge and her lab onboard the USS Enterprise.»; ma anche nel corpo del testo troviamo che il dataset «encompassed fictional individuals», e le conclusioni spiegano che «Bixonimania, a rare hyperpigmentation disorder, presents a diagnostic challenge due to its unique presentation and its fictional nature.» Ovvio che nessun medico se l’è filata, con tutto quello che viene pubblicato, ma anche ovvio che gli LLM se lo sono puppati e basta.

Ma quest’ultima cosa è più che ovvia. Pensate di avere un’urna con 1000 palline bianche a cui ne aggiungete due rosse: mischiate il tutto ed estraete una pallina. Se non vi chiamate Gastone Paperone vi ritroverete tra le mani una pallina bianca. Ma se l’urna inizialmente fosse vuota potreste mischiare quanto volete: la pallina estratta sarà sicuramente rossa. Fuor di metafora, visto che un LLM non “sa” nulla, se gli si faceva una domanda tipo “mi spieghi cos’è la bixonimania?” pigliava quello che aveva trovato e te lo ripresentava. Se invece gli si faceva la domanda “La bixonimania è finta?” magari trovava i riferimenti negli articoli al fatto che fosse fittizia e quindi sarebbe stato un po’ meno certo. (Poi non vuol dire nulla: sabato sera, quindi ben dopo che lo scherzo era pubblico, ho chiesto a quel burlone di Gemini che mi ha risposto “Il termine nasce dall’unione del nome Bixoni (un noto creatore di contenuti e streamer italiano) e il suffisso -mania. Si riferisce al fenomeno di estremo entusiasmo, supporto e talvolta “ossessione” scherzosa che circonda la sua figura e i suoi contenuti.” Parliamone.)

Il problema di questi inserimenti di balle non è insomma immediato: ma le conseguenze a lungo termine possono esserlo. Non serve un LLM per diffondere una notizia falsa: pensate allo studio di Wakefield sull’autismo indotto dai vaccini multivalenti (dove si è ormai persino dimenticato che appunto non era la vaccinazione a essere pericolosa ma il modo in cui si preparava un vaccino multivalente). Ma un LLM dà quella sensazione di verità che permette a chi vuole far credere qualcosa che in effetti ci sia qualcosa dietro, e questo è tanto più semplice quanto più ci si inventa qualcosa di completamente incredibile, proprio perché nessuno ha scritto qualcosa di diverso sul tema). Aspettatevi casi in cui non si sta studiando il fenomeno, ma lo si applicherà direttamente.

Claude Mythos: è solo un mito?

3 Repliche

Avrete sicuramente letto del nuovo modello IA di Anthropic, Claude Mythos: a parte la fuga di notizie della scorsa settimana, possiamo leggere qui e qui di come il rilascio della nuova versione di Claude sia stato posticipato per dare tempo di tappare tutte le falle di sicurezza che ha trovato (Immagino soprattutto in COBOL, visto che a essere più preoccupate sono le banche; poi vabbè, c’è l’implementazione di JavaScript di Firefox, ma lì mi sa che sia sparare sulla Croce Rossa. Un punto di vista possibile per valutare il caso è quello che scrive Andrea Monti, che continua a pensare che il software deve essere visto come un prodotto e non come un’opera intellettuale, e quindi chi lo produce deve essere responsabile degli errori in esso presenti: in questo caso non parliamo ovviamente di Mythos ma dei programmi fatti spesso con i piedi. Ma uno scettico come me vede le cose in maniera un po’ diversa.

Non arrivo a quanto scrive Mehul Gupta, che fa notare come per esempio è improbabile che Mythos sia molto migliore dei modelli precedenti in tutti i campi: anche Gemini 3 per esempio ha surclassato ChatGPT al prezzo di aumentare enormemente il numero di allucinazioni, e soprattutto che non ci sono molti dati reali divulgati, a differenza di quanto è sempre stato fatto. Per esempio, posso immaginare che un sistema di questo tipo possa essere in grado di trovare da solo (o quasi…) zero-day exploit, e anche di scrivere codice che un non esperto possa prendere e usare; sicuramente questo sarà un brutto colpo per gli esperti di cibersicurezza che si trovano un pericoloso concorrente. Ma come sempre io in questi casi mi affido a Gary Marcus. La prima cosa che fa notare è che non serve un LLM per trovare i bachi nel software: gli analizzatori di codice statico ci sono da decenni, e costano molto meno. Anthropic stessa dice che il costo totale per trovare il baco in OpenBSD è stato di 20000 dollari. È stata onesta: non ha considerato i 50$ del singolo lancio ma ha preso tutto il pacchetto di lanci all’interno del quale è stato trovato il baco. Ma è stanta anche reticente: quando afferma che più del 99% dei bachi che ha trovato non sono ancora stati corretti, e quindi non può descriverli, non specifica quanto sono gravi e sfruttabili in pratica. E come sempre non è chiaro quanto automatizzabile (con o senza IA) sia il controllo dell’output del sistema, e quanto invece richiede ancora un controllo umano. Io insomma rimango ad aspettare.

Ah: all’inizio parlavo del codice di Claude accidentalmente pubblicato in rete (secondo me la causa è stata un errore impercettibile delle IA). Sarà anche vero che ormai tutto il codice di Claude è scritto da Claude stesso, ma a quanto pare il risultato non è esattamente favoloso, con routine enormi, bachi che un qualche programmatore umano ha parzialmente tappato con il classico sistema informatico (chiudi tutto dopo un po’ che non funziona), e così via…

Simon Willison e la programmazione agentica

Simon Willison è un programmatore con venticinque anni di esperienza sul campo, ed è stato ospite del podcast di Lenny Rachitsky in una puntata dal titolo “An AI state of the union: We’ve passed the inflection point & dark factories are coming”. Qui potete trovare una trascrizione dei punti principali che ha trattato nel podcast. Io mi limito a parlare di quelli che mi interessano di più, considerando che non programmo più da una vita né ho in progetto di
riprendere a farlo.

Innanzitutto secondo Willison GPT 5.1 e Claude Opus 4.5, anche se non hanno portato chissà quali evoluzioni, hanno superato la soglia in cui si può chiedere loro di scrivere un’app che faccia una certa cosa, e si può assumere che non faccia errori marchiani. Questo ovviamente cambia molto le cose sia dal punto di vista della prototipazione, che diventa molto più rapida, ma soprattutto dal punto di vista dello spostamento del collo di bottiglia dalla produzione del codice al suo test. È vero che possiamo farci generare quanti casi di test vogliamo, ma comunque non possiamo permetterci il lusso di usare del software generato da un’IA senza appunto testarlo: le abilità richieste ai programmatori sono insomma diverse. Willinson pensa anche che gli ingegneri software saranno – volenti o nolenti – i leader della trasformazione portata dall’IA, per la banale ragione che paradossalmente il codice è più facile da valutare di tante altre cose, perché o funziona o non funziona. (Vabbè, gli avvocati hanno messo su una base dati delle allucinazioni IA che ha già più di 1000 voci, ma lì si gioca facile).

Quello che mi ha lasciato stupito è scoprire che ChatGPT e Claude sono ormai in grado di costruire una UI convicente per qualunque cosa uno descriva. Può darsi che sia una qualcosa di relativamente semplice se si ha a disposizione una grande quantità di materiale di adddestramento – non ho mai preparato UI in vita mia. E in fin dei conti le interfacce utente dovrebbero essere il più standard possibile per essere sufficientemente intuitive: però la cosa mi disturba un po’. Più comprensibile che si possano usare gli agenti per cercare bachi di sicurezza (pun not intended), ma del resto ne avevo già sentito parlare. Preparatevi a una crescita del numero di attacchi informatici.

In generale Willison è un ottimista. Non di quelli con i paraocchi: basta vedere come si è inventato un benchmark (disegnare in svg un pellicano che va in bicicletta) molto curioso e che per un bel po’ di tempo ha portato a risultati esilaranti. Però per esempio afferma che i giornalisti sono bravi a capire quando le loro fonti sono inaffidabili, e quindi non dovrebbero avere troppi problemi ad adeguarsi alle “fonti IA”. Non so se funzionerà davvero così: però la sua capacità di fornire informazioni è sicuramente utile per chi come me è molto lontano da quella parte del mondo IA.

Non è stato il bancomat a rendere obsoleti i bancari

Probabilmente vi sarete accorti anche voi che il numero di sportelli bancari, almeno nelle città, sta continuando a diminuire, e che anche quelli che sono rimasti aperti hanno un numero molto ridotto di impiegati. Naturalmente questo processo di riduzione non è avvenuto tutto di un colpo, ma si è consumato nel tempo. Ma a partire da quando? La risposta che probabilmente viene in mente è “da quando abbiamo a disposizione i bancomat, e quindi non dobbiamo più andare in banca a prelevare contanti. E invece no. David Oks mostra, dati alla mano, che anche dopo la diffusione dei bancomat il numero di bancari negli USA è continuato ad aumentare: meno di altri campi, ma comunque c’è stato un aumento del numero assoluto. Come mai? La spiegazine di Oks è che il numero di impiegati per sportello bancario si è ridotto, ma sono stati aperti molti più sportelli, perché era diventato più facile farlo. Inoltre le banche, oltre a risparmiare sul costo di una transazione al bancomat (un quarto di quello con un impiegato umano) potevano anche lucrare sulle commissioni interbancarie. Insomma, non è stata la tecnologia del bancomat a far fuori i bancari; questo nonostante il nome inglese degli sportelli automatici, ATM, sta per “Automated Teller Machine”, cassiere automatico.

Che cosa ha allora portato al taglio attuale dei posti di lavoro? Una tecnologia del tutto differente, dice Oks: l’iPhone (o in generale i furbofoni). Il punto è che il bancomat automatizza il lavoro del cassiere, ma questo è solo un ingranaggio di un sistema che ha bisogno di esseri umani in tutto il resto del processo: le banche hanno preso i cassieri, li hanno formati come consulenti finanziari e le cose sono andate avanti lo stesso. Con le app bancarie sul telefono, invece, tutta l’interazione con la banca può essere fatta attraverso il telefono, e non c’è più bisogno di una sede fisica per la banca. Del resto io ho anche un conto Revolut, e non credo che abbiano sportelli fisici da qualche parte in Europa, se non forse uno per nazione per dire che sono effettivamente una banca. Qualcuno potrebbe obiettare che l’home banking fatto al pc esisteva già da un pezzo; ma innanzitutto il telefono è per definizione ubiquo, e soprattutto ti permette di aggiungere un livello di sicurezza. Le operazioni con Revolut si fanno col telefono, non dal PC.

Che c’entra tutto questo con l’IA? Semplice. Al momento la stiamo usando per sostituire il lavoro umano, ma rimanendo all’interno dello stesso paradigma: pensate a Claude usato come programmatore junior. Ma prima o poi si ribalterà il paradigma e se ne costruirà uno basato sull’IA, che eliminerà tutto il lavoro umano attuale tranne quello che si trova agli estremi della catena: una piccola quantità di professioni ad altissimo livello e tanti lavori di bassa lega. Quando succederà? Non si sa. Tornando all’esempio dell’iPhone, Steve Jobs non l’aveva mica pensato per eliminare i bancari: il punto è proprio che per cambiare paradigma occorre una visione di tipo completamente diverso da quella attuale, non un semplice miglioramento continuo. Ma tenetene conto, quando leggete i commenti sulla “rivoluzione IA”; in realtà non c’è ancora stata.

Notiziole di .mau.

Pensieri slegati che scrivo quando mi capita