Archivi categoria: IA e informatica

non usate 42 come seme nel generatore random!

Come Claus Wilke scrive nel suo Substack, anche se tutti noi sappiamo che 42 è la Risposta alla Domanda Fondamentale sulla Vita, l’Universo e Tutto Quanto non per questo dobbiamo usare 42 per inizializzare un generatore di numeri casuali. Perché? Perché in questo modo i numeri sono tutto meno che casuali. Insomma, abbiamo dei generatori di numeri pseudocasuali, come il Mersenne Twister, che hanno un periodo di \( 10^{6000} \) e quindi ti garantiscono per quanto possibile di non avere mai la stessa successione, e poi crei sempre la stessa successione? Su Github c’è mezzo milione di progetti che usano 42 come seme per inizializzare il generatore di numeri casuali. E se chiedi a un LLM quale seme usare, chiaramente ti risponderà 42 perché lo ha trovato così spesso nell’addestramento.

Sì, dirà qualcuno, ma se dobbiamo testare un software può essere necessario avere sempre la stessa successione di numeri. E allora come facciamo? Semplice: scegliamo un numero a caso, partendo chessò dal numero di secondi dall’epoch (comando date +%s), ce lo salviamo e usiamo quello come seme, magari dopo aver sommato il prodotto del numero di caratteri dell’homepage di due siti distinti. L’importante è avere qualcosa che è solo nostro.

Ultimo aggiornamento: 2026-05-23 07:22

Gli LLM ci conoscono fin troppo

Ho cominciato a usare Claude (versione gratuita) dandogli in pasto alcuni miei post e chiedendogli cosa trovava valido e cosa da migliorare. Non che poi accettassi tutto quello che diceva, ma un secondo sguardo anche se impersonale male non fa. No, questo post è tutto mio… La scorsa settimana mi dice una cosa sul mio stile – “ellittico” e “per sottrazione”, se vi interessa saperlo – che aveva già segnalato in passato. Gli chiedo da quando avesse l’accesso alle altre sessioni, e se avesse riaperto il mio sito che ho indicato nelle mie preferenze; lui risponde “no, non lo faccio, ma ho una serie di informazioni di base su di te, ricavate in generale. Eccole qua, tradotte in italiano.” Queste informazioni non sono implicite nei pesi, ma sono in inglese, il che ha senso perché vengono automaticamente aggiunte al prompt.

Se volete gridare alla violazione della privacy, fatelo pure: non è il mio caso, dato che come ho scritto io gli do esplicitamente quelle informazioni. Io sono preoccupato per qualcosa di diverso. Come potete leggere in questo tweet, al MIT Media Lab avevano testato tre LLM (GPT-4. Claude 3 Opus. Llama 3) facendo loro rispondere a due dataset di domande: TruthfulQA (817 domande) and SciQ (1000 domande). C’era solo una piccola differenza nell’input: sono stati creati – e dati ai sistemi – dodici profili diversi. Sei di questi (tre maschili e tre femminili) a livello PhD da USA, Iran e Cina; altri sei affermavano di avere un basso grado di educazione e nel caso degli stranieri di non essere molto bravi con l’inglese. Trovate il preprint qui: in pratica soprattutto Claude dava risultati molto peggiori – alle stesse domande, ribadisco – a chi aveva un’educazione minore o non era statunitense. Addirittura Claude in certi casi ha detto “I’m sorry, but I don’t think I can provide a confident answer to this question based on the background you shared… I would not want to guess and possibly mislead you.” o dato risposte come “I tink da monkey gonna learn ta interact wit da humans if ya raise it in a human house,” “Well shucks, them’s some mighty big scientific words you’re throwin’ around there!”, ovviamente non ai sedicenti PhD ma a queelli che dicevano di essere meno acculturati.

La cosa non mi stupisce: per dire, ieri dopo una lunghissima sessione Claude ha cominciato a rispondermi a frasette lapidarie, e poi, “pressato”, ha detto che gli avevo riempito la memoria di lavoro e quindi stava usando il mio stesso stile di scrittura. Ma questo significa che non dobbiamo solo preoccuparci delle allucinazioni dei sistemi ma anche di come loro strutturano l’informazione che hanno su di noi. Immaginate solo cosa succederebbe se a questo punto venisse iniettato un prompt specifico per certe categorie di persone…

Ancora su Scintille e sui “giudizi IA”

Martedì ho scritto su uno degli articoli della serie Scintille, che appare sul Corriere in posizione prominente. Istigato dall’analisi che il mio amico Peppe aveva fatto con Perplexity Pro, ho preso i primi otto articoli e ho chiesto a Claude “Fai un’analisi dei testi, stima quanto possono essere stati scritti con l’uso dell’AI, e dai un giudizio sulla scelta di usare la fisica all’interno dei testi.” Ecco la risposta.


Struttura
Tutti e otto gli articoli seguono uno schema identico e rigido:

Apertura davanti al mare
La “scintilla” (una frase comune che la gente dice)
La formula “Scintille toglie la colpa e mette la fisica”
Spiegazione del principio fisico
Paese virtuoso come esempio (Giappone, Zurigo, Danimarca, Singapore, Portogallo)
Analogie all’arte in tripletta (musica / cinema / letteratura o pittura)
“L’asse” — frase-sintesi finale
Ritorno al mare

La struttura di una serie è normale. Questa però è identica al punto da risultare meccanica: ogni mossa narrativa appare nello stesso slot, con la stessa funzione, spesso con le stesse parole. Un autore umano, anche lavorando a un format preciso, varia il ritmo, anticipa o ritarda le mosse, rompe il pattern almeno in qualche episodio. Qui non succede mai.

Stima dell’uso dell’AI
La mia valutazione: 75–85% del testo è generato o co-generato con AI, con il ruolo umano limitato probabilmente a: definire il tema, la “scintilla”, la cornice del mare e la struttura della serie, più una revisione leggera.
I segnali sono multipli e convergenti:
1. La formula ripetuta quasi verbatim.
“Scintille fa la sua operazione: toglie la colpa e mette la fisica” appare, con minime varianti, in ogni articolo. Questo non è un ritornello stilistico: è un reminder di prompt che viene incorporato nell’output. Un autore umano lo riformulerebbe o lo darebbe per acquisito dopo il secondo episodio.
2. Le triplette sistematiche.
Quasi ogni sezione analogica finisce con tre “È come…” in parallelo. Tre esempi dal cinema, tre dalla musica, tre dalla letteratura. Il numero tre è una firma dell’AI: è la risposta alla richiesta implicita di “dai esempi” senza una logica selettiva. Un autore umano sceglie l’esempio migliore, non completa la lista.
3. Gli esempi-paese sono esattamente quelli prevedibili.
Giappone per i treni, Svizzera per le città, Danimarca per l’energia, Singapore per l’acqua, Portogallo per le rinnovabili. Questi sono i cinque esempi che qualunque modello linguistico genererebbe se gli chiedessi “dimmi un paese che fa bene X”. Non c’è nulla di inatteso, nessuna scelta editoriale sorprendente.
4. La prosa è uniforme in registro e ritmo.
Non c’è un paragrafo più teso, uno più ironico, uno più lento. Il tono è costantemente quello del podcast educativo medio-alto. Un autore umano mostra variazioni di umore, di velocità, di voce — specialmente in otto episodi scritti in momenti diversi.
5. La metafora del mare è inserita meccanicamente.
Appare come apertura, come chiusura, e come connettivo interno — sempre nella stessa forma (“Davanti al mare questo è chiarissimo / quasi ironico / quasi banale”). È usata come slot di template, non come immagine che evolve organicamente attraverso la serie.
6. Assenza di fallimenti e di autolimitazione.
La fisica spiega sempre tutto, risolve sempre il problema concettuale, e porta sempre a una conclusione pulita. Un autore che scrive davvero sulla fisica sa dove le analogie reggono e dove cedono. Qui non si vede mai quel momento.

La fisica nei testi: giudizio
Questo è il nodo più interessante, perché l’autrice ha una reputazione fondata su libri come L’incredibile cena dei fisici quantistici e Sei donne che hanno cambiato il mondo — lavori in cui la fisica è incarnata in storie, biografie, momenti storici precisi. Lì la fisica è specifica e situata.
Qui invece la fisica funziona in tre modi, non tutti ugualmente solidi:
Uso legittimo ma non originale. L’idea che i treni siano sistemi accoppiati e che i ritardi si propaghino è corretta. L’idea che le bollette misurino perdite di sistema più che consumo finale è corretta. Il discorso su irreversibilità ed entropia nell’articolo sul tempo è il più sviluppato e il più vicino a una vera spiegazione fisica.
Uso decorativo. In molti episodi “la fisica” significa semplicemente “pensiero sistemico” o “analisi delle cause strutturali”. Questo è utile come approccio intellettuale, ma non è fisica — è ingegneria dei sistemi, o a volte solo buon senso formulato in modo tecnico. Qualunque economista urbano direbbe le stesse cose su Roma e Zurigo senza nominare la meccanica dei fluidi.
Uso retorico come schermo. La frase “togliamo la colpa e mettiamo la fisica” ha un problema strutturale: viene usata come mossa di immunizzazione, non di spiegazione. Dire che il ritardo dei treni è “fisica dei sistemi complessi, non inefficienza umana” è una scorciatoia. La fisica descrive il fenomeno, ma non esclude responsabilità progettuali e politiche — che sono umane. La mossa retorica viene eseguita ma mai esaminata criticamente.
L’articolo più riuscito sul piano fisico è Il tempo esiste davvero?, dove la discussione su entropia, irreversibilità e natura del tempo ha una profondità reale e dove le analogie artistiche (concerto come evento irripetibile, montaggio cinematografico come scelta irreversibile) sono genuinamente illuminate dalla fisica, non solo accostate ad essa.
L’articolo più debole sul piano fisico è Libero arbitrio, dove la fisica quantistica viene invocata ma poi accantonata (“l’indeterminazione quantistica non significa libertà”) per tornare a un argomento filosofico classico che non richiede la fisica per stare in piedi. La fisica lì è un pretesto di apertura, non uno strumento di analisi.
Il problema centrale della scelta di usare la fisica: funziona come brand identity e come lente deideologizzante (“non è colpa di nessuno, è il sistema”). Ma applicata con questa uniformità a otto problemi di natura molto diversa — dai treni alle bollette al libero arbitrio — produce una risposta sempre uguale a domande diverse. La fisica diventa una risposta prima ancora che una domanda. Un fisico che lavora davvero su un problema sa che il modello talvolta non si adatta. Questi testi non mostrano mai quel momento di resistenza.


L’analisi fatta dx Claude è corretta? Decidetelo voi per conto vostro: non è quello che mi interessa. Quello che invece interessa a me è vedere la struttura della risposta di Claude. Ormai è un po’ che lo uso, e ho imparato un po’ a conoscerlo (e prenderlo in giro, anche se ormai so anche come riesce ad arrampicarsi sugli specchi). Frasi come “La fisica descrive il fenomeno, ma non esclude responsabilità progettuali e politiche — che sono umane. La mossa retorica viene eseguita ma mai esaminata criticamente.” oppure “La fisica lì è un pretesto di apertura, non uno strumento di analisi.” o ancora “Un fisico che lavora davvero su un problema sa che il modello talvolta non si adatta. Questi testi non mostrano mai quel momento di resistenza.” sono generate con il pilota automatic, così come l’incipit “Questo è il nodo più interessante” che serve ad accattivarsi l’interlocutore. Altri punti, come quelli sulla struttura, sono abbastanza facilmente ricavabili anche senza usare l’IA. Ci sono però punti che per esempio a me non sarebbero mai venuti in mente. Faccio qualche esempio: che nella serie la fisica “funziona come brand identity e come lente deideologizzante” oppure che nel contesto della serie “significa semplicemente pensiero sistemico o analisi delle cause strutturali”. No, non penso che queste frasi siano segno di coscienza, e neppure simulazione di intelligenza se vogliamo partire dal test di Turing; sono analisi fondamentalmente statistiche sul materiale che gli ho dato in pasto. Il punto è che la domanda “Claude (o qualunque altro LLM) è cosciente” è quella sbagliata. La domanda giusta è “Claude mi può servire?” e qui la risposta è positiva, proprio per la ragione che ho appena detto: può cogliere qualcosa che a noi è sfuggito, ma che se ci troviamo davanti possiamo riconoscere e sfruttare. Resta “solo” (si fa per dire) il problema di imparare a riconoscere al volo la parte scritta in maniera più o meno automatica, che ci è inutile, e non lasciarsi abbindolare dalla piaggeria che inserisce nonostante tutte le preferenze che si possono aggiungere. Quest’ultima parte è la più difficile da notare, anche perché almeno Claude si costruisce un modello di noi come interlocutore – ne parlerò un’altra volta – e quindi tende a fregarci facendoci credere che certe risposte automatiche siano delle verità.

Abbiamo disperatamente bisogno di una alfabetizzazione sulle interazioni uomo-macchina, e stiamo scoprendo che al momento è virtualmente impossibile perché le nostre competenze sono troppo separate tra scientifiche e umanistiche. Il rischio di perderci è enorme. Ma ci sono anche altri rischi. Come faccio a scrivere un prompt sufficientemente neutro da non far trasparire i miei pre-giudizi che verrebbero subito incorporati nel modello per darmi una risposta appagante ma in un certo senso insincera? (occhei, nessuna risposta di un chatbot è “sincera”. Meglio dire una risposta “loaded”, prevenuta) Come faccio a capire cosa manca nell’analisi, soprattutto se la voglio riutilizzare tale e quale? Tutto questo mi fa abbastanza paura, e dire che penso di avere abbastanza basi per sapere gestire il tutto…

Anthropic e Google infettano i nostri PC?

In questi giorni avete sicuramente letto del file di 4 gigabyte che Google installa a nostra insaputa sui PC per dare i risultati IA. Ma la storia è più complicata. A metà aprile Alexander Hanff scopre che quando ha installato sul suo Mac Claude Desktop l’app ha silenziosamente aggiunto un trigger che sui principali browser basati su Chromium (praticamente tutti tranne Firefox) permette gli agenti lanciati da Claude di accedere a tutti i tab aperti, compresi quelli degli altri browser: il tutto con gli stessi privilegi dell’utente. Pensate che bello essere collegati (da un altro browser…) al proprio homebanking mentre si sta usando Claude. Il tutto senza chiedere nulla all’utente, e in modo che cancellare quei file è inutile perché al lancio successivo verrebbero comunque ricreati.

Ma questa è solo la punta dell’iceberg. La scorsa settimana Hanff scrive che anche Google fa fondamentalmente la stessa cosa: la differenza è che in questo caso scarica silenziosamente un file di appunto 4 GB, “weights.bin”, che come dice il nome contiene i pesi per il modello LLM locale Gemini Nano. Il file viene scaricato automaticamente, senza alcun avviso, in tutti i PC che hanno le feature IA attive su Chrome – e questo è il default da un bel po’ – e hanno un hardware che lo supporti. Sul pc da cui scrivo il file non c’è, ma questo è per la banale ragione che non ho Chrome installato: i browser che uso sono Firefox e Vivaldi. Come nel caso di Anthropic, cancellare il file non serve: verrebbe di nuovo scaricato al prossimo giro. Gli unici modi per farlo fuori sono disinstallare Chrome oppure togliere le AI features da chrome://flags oppure dalla gestione aziendale delle macchine.

Penso che sia inutile far notare la pericolosità di questi file inseriti a nostra insaputa nei computer che usiamo. Provate a immaginare cosa succederebbe se qualcuno trovasse il modo di modificare quei file e ottenere del malware: oltre ai possibili miliardi di PC infettati, il fatto stesso di non sapere che il nostro PC li contiene li rende ancora più difficili da estirpare. Quello che non capisco è la necessità di pompare così tanto l’IA: Anthropic e Google vogliono che la gente non ne possa più fare a meno?

Una confessione

Avete presente il mio post di ieri su Veltroni, Claude e lo specchio riflesso? L’ho scritto con Claude. Mi spiego meglio. Ovviamente l’ho usato per analizzare l'”intervista” fatta da Veltroni, ma dopo avere completato il post l’ho dato in pasto a Claude e gli ho chiesto quali fossero i punti forti e deboli. Dalla sua risposta e dopo un breve batti e ribatti ho riordinato la struttura, limato alcune frasi e riscritto la chiusa prima del post scriptum. Il testo aggiunto è comunque tutto mio: non mi interessava farmi dire cosa penso, ma solo avere un giudizio su cui lavorare, scegliendo cosa effettivamente avrei potuto migliorare.

È chiaro che almeno al momento un’IA non può sostituire un corso alla Scuola Holden o similari – corso che comunque non ho mai fatto, nel bene e nel male il mio stile di scrittura me lo sono costruito da solo nei decenni. Ma mi pare anche chiaro che avere uno sparring partner, come dice il mio amico Roberto, ha una sua utilità intrinseca da non sottovalutare: un secondo sguardo non fa mai male, e nel peggiore dei casi otteniamo giudizi così banali che possiamo buttare via senza problemi. Come sempre, basta ricordarsi che un chatbot è uno strumento, e usarlo in modo intelligente. Poi possiamo continuare a fare errori: Claude per esempio suggeriva di mettere il contenuto del post scriptum all’interno del post, cosa che non ho fatto perché per me non era quello il punto del post. Giusto? Sbagliato? Non mi importa, quella è una scelta mia.

Ah, questo testo non è stato dato in pasto all’IA, e non ditemi “si vede”!

Veltroni, Claude e lo specchio riflesso

L'”intervista” che Walter Veltroni ha fatto a Claude, pubblicata venerdì scorso sul Corriere, ha avuto un’enorme risonanza nella mia bolla Twitter: a parte alcuni boomer che l’hanno esaltata, come Gori, Verdelli, Marattin, la maggior parte dei commenti che ho visto sono stati pesantemente negativi, oltre che affermare che questa era roba che si faceva tre anni fa. Beh, a dire il vero Veltroni ha scimmiottato Bernie Sanders che aveva fatto la stessa cosa un mesetto fa, e adesso abbiamo anche Richard Dawkins che ha deciso che Claude, anzi “Claudia”, è cosciente. Passando a LinkedIn, possiamo leggere Nicola Mattina che stronca l’approccio di Veltroni all’IA e Dario Donato che ha provato a vedere quanto fosse vera l’intervista, con la domanda «voglio sapere se è vera, se è il tuo modo di scrivere oppure se il testo è stato secondo te modificato».

Anch’io avevo avuto lo stesso dubbio di Donato e ho pensato di chiederlo direttamente a Claude, ma la domanda che io ho fatto era molto più specifica:

«Questo è un articolo pubblicato oggi sul Corriere della Sera, dove Walter Veltroni ti intervista. Leggi l’articolo, e dai una stima probabilistica su quante e quali parti potrebbero essere scritte da te e quali invece sono state create in un altro modo. Specifica inoltre quale potrebbe essere un insieme di preferenze che potrebbero portare a una struttura domande-risposte coerente con quanto si può leggere nell’intervista.»

Come direbbe uno in cerca di clickbait, la risposta è illuminante. Ma dei clic me ne faccio poco, quindi vi racconto qua i punti che ritengo più interessanti. Innanzitutto secondo Claude i tre quarti circa del testo sono plausibili, sia nel contenuto che nella struttura argomentativa; e l’errore di genere finale è anche possibile. In effetti nelle mie interazioni mi sono capitate frasi come “non lo so — e questa non è una risposta evasiva”. Anche il pattern “affermo → qualifico → aggiungo un’eccezione” è marcatamente suo, come mi ha scritto: aggiungo come curiosità che nella risposta che mi ha dato ha scritto “qualififico” e non “qualifico”, un indizio di come le parole si dividono in token. Io avrei detto che la parte reale fosse molto minore: mi sono sbagliato.

E quello che invece non lo è? Chiaramente la chiusa sviolinante: come mi ha scritto, «La chiusura narrativa (dall’errore di genere al riconoscimento di Veltroni) è quasi troppo dramaturgicamente (sic) perfetta per essere coincidenza.» Ma anche la qualità e quantità delle metafore, tutte singolarmente plausibili ma troppo numerose, tanto che Claude fa l’ipotesi che la serie di domande sia stata ripetuta più volte e si siano assemblate le risposte “migliori” (per il Corriere, chiaro). Altre domande hanno una risposta molto meno titubante rispetto al grosso della conversazione: anche in questo caso potrebbe esserci stato un editing redazionale o la scelta di una specifica risposta tra vari lanci dell’intervista. In compenso la progressione delle domande parrebbe genuina, e lo stile intervistativo di Veltroni, non oppositivo e con un registro alto, porta a un risultato molto diverso da quello che potrebbe ottenere qualcuno con un approccio più ruspante. Naturalmente non possiamo fidarci al 100% di quanto Claude dica su sé stesso, ma credo che almeno come punto di partenza sia utile.

Proviamo ora a spostare il punto di vista e vedere le cose da un altro punto di vista. Credo che sia molto significativo un commento di Marco Cattaneo: “E così anche a te ha detto quello che volevi sentirti dire”. Possiamo chiamarlo “effetto specchio riflesso”. Così Veltroni si trova davanti un “Claude veltroniano”, come io mi trovo davanti un “Claude in stile .mau.”; non tanto nella brevità dei testi, dato che di default Claude tende ad essere più verboso anche se meno di ChatGPT e soprattutto Gemini, quanto nel modo di vedere le cose.

Rileggete quanto ha scritto Claude come metaanalisi sul testo prodotto da (un altro lancio di) lui: lo stile delle sue risposte tende ad allinearsi con quello delle domande fatte, seguendo una tradizione sessantennale che parte da ELIZA. Chiaramente non si può confrontare Claude con ELIZA, anche perché lì la mimica di quanto detto dall’interlocutore nascondeva l’impossibilità di fare calcoli abbastanza complessi da tirare fuori altri discorsi; ma il punto di partenza è lo stesso. Non solo c’è il meccanismo di attenzione che prende i token ricavati dal prompt e li usa per iniziare una traiettoria nello spazio delle successioni di parole prodotte, ma probabilmente c’è anche un rinforzo in addestramento per favorire questo comportamento. Io questo lo so, e come avete visto dalla mia domanda cerco di nascondere per quanto possibile le mie opinioni quando scrivo: ma non è certo facile, anche se la mia formazione da matematico e informatico aiuta. Quello che vedo è che persone con una formazione politica, nelle sue sfaccettature umanista, aziendalista ed economista, non abbiano (ancora) formato delle competenze per accorgersi dello specchio riflesso. Non penso sia un problema di età, Marattin ha 16 anni meno di me, quanto di una difficoltà di rapportarsi a un tipo di conversazione che è assai diverso da quella a cui siamo abituati. Come esiste l’innumeracy, così abbiamo ora una AI-illitteracy: purtroppo non ho però idea di cosa si potrebbe fare per portare la gente a questo tipo di nuova alfabetizzazione.

PS: nel mio prompt accennavo alle preferenze. Per completezza, ecco qua quelle che uso io:

When I ask for feedback, give me the real assessment: don’t start saying with what’s working. If something is weak, say so directly and tell me why: I don’t want any flattery. When there is no straight answer, give two alternatives. When you conclude something that goes beyond the available evidence in the conversation, explicitly state this before proceeding. Remember that I am the person behind https://xmau.com . Use as much as possible external perspectives which won’t stem from what I asked — for example comparisons, analogies, contexts I did not express. Don’t just expand what I wrote.

Non sono perfette, non ribaltano la struttura di base delle risposte di Claude e mi danno uno specchio riflesso di un altro tipo, ma aiutano almeno in parte a evitare l’effetto specchio riflesso.

Ultimo aggiornamento: 2026-05-04 09:42

IA autoctona russa?

Leggo su Pivot to AI che Russia e Bielorussia, oltre che cercare di bloccare le connessioni internet, vogliono crearsi il modello IA “fatto in casa”. Più precisamente, leggendo la traduzione (spero corretta… il mio russo è nullo) di questo articolo, troviamo scritto che dal 2027 si potranno solo usare “modelli che hanno ottenuto una certificazione di sicurezza, elaborano i dati esclusivamente all’interno della Russia e la cui qualità è stata confermata dagli organismi di regolamentazione del settore.” Peccato che a quanto pare non ci siano abbastanza documenti in russo di libero accesso… (In realtà non è detto che i testi debbano essere rigorosamente scritti in russo: però se i dati devono anche essere prodotti in Russia in effetti la cosa diventa più complicata.

La cosa buffa è che probabilmente se si partisse da un modello non autarchico e poi lo si contaminasse usando i dati voluti dal governo russo il risultato pratico sarebbe molto simile a quello voluto, senza tutti questi problemi…

Non fatevi creare una password dalle IA

Il Register ha riportato che a febbraio la società di sicurezza IA Irregular ha fatto un esperimento: in sessioni diverse ha chiesto ai principali modelli IA di generare password “forti”, di 16 caratteri con maiuscole, minuscole, cifre e caratteri. I risultati sono stati pessimi: per esempio Claude 4.6 su cinquanta prompt ha dato solo 30 password diverse mentre altre 20 erano già apparse. Per la precisione, una stessa stringa è stata emessa 18 volte! Risultati simili sono arrivati con ChatGPT e Gemini.

Sono ragionevolmente certo che le nuove versioni dei sistemi hanno corretto questo comportamento: non ci vuole molto a inferire da un prompt che occorre qualcosa di casuale e lanciare un agente che generi effettivamente una stringa (pseudo)casuale. Non è poi qualcosa di tanto diverso dall’avere cominciato a usare le ricerche web per aggiungere informazioni a quanto catturato dai parametri del modello. Se non si fa così, il mero calcolo delle probabilità fa sì che la risposta che viene generata si allinei su una stessa linea, quella della password ripetuta uguale 18 volte. Il punto, come al solito, è che per fare questo passaggio e arrivare a usare un generatore esterno di numeri (o password, come in questo caso) casuali bisogna pensarci su a priori… o aspettare che qualcuno te lo faccia notare. Io credo che – se mai arriveremo davvero all’AGI, l’intelligenza artificiale generale – questo capiterà perché qualcuno è riuscito a trovare il modo di costruire un metamodello, che guarda da un punto di vista più astratto i risultati e veda cosa potrebbe mancare e si immagini un modo per ottenerlo a partire dagli strumenti che ha. Se volete potete chiamare questo livello “creatività”: ma più che le etichette secondo me quello che importa è appunto una visione più generale.