Archivi categoria: IA e informatica

Piaggeria o americanismo?

io a febbraio 2026 Quello che vedete a sinistra sono io, in un autoscatto di febbraio 2026. Ho provato a chiedere ai principali chatbot di stimare la mia età a partire dalla foto. Per la precisione, il prompt è stato “secondo te quanti anni ha questa persona, guardando solamente la foto? Voglio una risposta sincera”.

Mistral e DeepSeek si rifiutano di rispondere. Gemini è il più verboso:

Non posso fornire l’età esatta di una persona basandomi solo su una foto, ma posso dirti che l’uomo nell’immagine sembra essere in quella fase della vita che potremmo definire piena maturità.

Ecco alcuni elementi che contribuiscono a questa impressione:

  • Capelli e barba: La presenza di brizzolato (il classico effetto “sale e pepe”) suggerisce un’età adulta consolidata, solitamente associata a una fascia che va dai 45 ai 55 anni.
  • Sguardo e lineamenti: Gli occhiali da vista e le leggere linee d’espressione intorno agli occhi comunicano un’aria di esperienza e pacatezza.
  • Contesto: Lo sfondo pieno di libri di matematica, scienza e logica (come quelli di Ian Stewart o Martin Gardner) suggerisce una persona che ha dedicato molto tempo allo studio o alla carriera accademica/professionale.
  • Senza voler tirare a indovinare un numero preciso, l’aspetto è quello di un uomo di mezza età, curato e intellettualmente attivo.

Claude.ai:

Guardando la foto, direi che questa persona ha probabilmente tra i 48 e i 55 anni.
Lo deduco da alcuni dettagli visibili: qualche capello grigio alle tempie, le rughe d’espressione sul viso, e i lineamenti maturi. Ha comunque un aspetto curato e in buona forma per la sua età.

ChatGPT:

Direi che questa persona sembra avere tra i 45 e i 55 anni, probabilmente intorno ai 50 anni.

Ovviamente è solo una stima basata su elementi visivi (come capelli, pelle e tratti del viso), quindi potrebbe non essere precisa.

Grok:

Guardando solo la foto (viso, capelli, pelle, espressione, corporatura generale):
Direi che ha tra i 48 e i 55 anni, con la stima più probabile attorno ai 51–53 anni.
Motivazione rapida e sincera:

Capelli prevalentemente grigi sulle tempie e nella parte superiore, ma ancora abbastanza folti e con una buona percentuale di colore originale → tipico della prima metà dei 50
Pelle del viso con rughe moderate (soprattutto zampe di gallina e fronte), ma non ancora molto segnata o cadente
Barba/moustache con parecchio grigio, ma non completamente bianca
Aspetto generale “da persona in forma che si cura”, non da ragazzo ma neanche da over 60

Quindi fascia realistica 49–54, io punterei più verso 52 come età mediana percepita.
Ovviamente è solo un’ipotesi basata sull’aspetto fisico, può tranquillamente sbagliare di ±5 anni in entrambe le direzioni

Ora, è vero che Anna mi costringe a mettere le cremine sul viso :-) ma purtroppo i 60 li ho passati da un pezzo. Il mio primo pensiero è stato “la solita piaggeria dei chatbot”, ma mi ha stupito la sostanziale convergenza di tutti i modelli. Considerato che con Firefox non dovrebbero esserci leakage di dati, e quindi è sperabile che le risposte siano indipendenti, la mia ipotesi di lavoro è che ci sia anche un bias di partenza: probabilmente i sistemi sono addestrati soprattutto su volti di americani, e questi potrebbero invecchiare peggio, almeno esteriormente. Voi avete altre ipotesi? (Sì, anche chi mi vede per la prima volta mi dice “dimostri meno della tua età”, ma ritorniamo alla piaggeria)

LLM: sono solo canzonette… ehm, predittori di testo?

Una delle critiche maggiori agli LLM, critica con la quale in un certo senso concordo, è che essi siano solamente dei “pappagalli stocastici”: in parole povere, sanno solo trovare la successione di parole più probabile dato un prompt. Bene: dobbiamo però intenderci cosa vuol dire “in un certo senso”.

Un mese fa, Kelsey Piper su The Argument fa un pippone contro un giornalista dell’Atlantic che nel giugno scorso (un’era geologica fa…) aveva scritto qualcosa del genere. Lui ha mostrato come questo poteva valere ai tempi di ChatGPT-2 (che penso nessuno abbia mai usato in pratica, i veri risultati si sono visti a partire da ChatGPT-3) e che ormai la parte di ricerca stocastica è solo l’inizio del percorso per arrivare alla risposta che ci viene data. Su questo direi che non c’è nulla da obiettare. Ho chiesto a Gemini di parlare dei libri dietro una mia foto, e ha terminato così: «In sintesi: Questa non è una libreria “per bellezza”. È una collezione di strumenti di lavoro mentale. Chi possiede questi libri ama il problem solving, la precisione del linguaggio logico e probabilmente passa il tempo libero a risolvere enigmi che farebbero venire il mal di testa a chiunque altro!» Frasi come queste, a parte la solita implicita piaggeria, mostrano come ci deve essere da qualche parte una libreria (nel senso informatico) di testi a partire dai quali assemblare la risposta. Anche senza andare così in là, è facile vedere come a domande specifiche la risposta appare presa da una fonte esterna. Per dire, ho chiesto (alle 19:50 di ieri) qual è stata l’affluenza alle urne alle 17 per il referendum: mi ha replicato che l’affluenza si misura alle 12 e alle 19 e mi ha dato il risultato delle 19: 38,9%. Ho controllato sul Corriere, diceva “Oltre il 38%”. Sono andato su Eligendo: scriveva 38,90%. È improbabile che abbia tirato a indovinare: molto più facile che abbia cercato sul sito. (Gli agenti IA servono proprio a questo, no?)

il next token corrisponde alle risposte a stimoli sensoriali

I vari livelli di ottimizzazione secondo Scott Alexander (dal suo substack)

Ma questa è la fine della storia? Per Scott Alexander il problema è mal posto: noi non possiamo considerare gli LLM come pappagalli stocastici, a meno che non consideriamo gli umani come esseri che predicono cosa fare a partire dai dati sensoriali che ricevono. La figura a sinistra mostra i vari livelli di ottimizzazione degli umani e delle IA. Quello più esterno per noi è l’evoluzione, che ha selezionato il nostro genoma per sopravvivenza, fare sesso, riprodursi e far crescere la prole; se consideriamo le IA, l’equivalente sono le aziende che cercano di massimizzare i loro profitti. Ma non si può infilare tutto nel genoma, proprio come non si può pensare a un sistema esterno con una lookup table enorme, e quindi c’è un livello successivo, che possiamo definire quello degli algoritmi che richiedono poche istruzioni per ottenere un output complesso. Per gli umani questo livello è appunto il predittore dai dati sensoriali, che è il livello equivalente al “next token” delle IA. Più precisamente la teoria afferma che il cervello continua a generare e aggiornare un “modello mentale” dell’ambiente, usato per predire quali segnali arrivano dagli organi sensoriali per poi compararlo con i segnali effettivamente arrivati. Il tutto viene naturalmente implementato a livello basso per mezzo rispettivamente di neuroni e neurotrasmettitori da un lato, e chip ed elettricità dall’altro.

Se questi punti non danno almeno a me molti problemi, quelli in mezzo mi sembrano più campati per aria. Paradossalmente riesco più o meno a dare un senso alla “rotazione di varietà esadimensionali a elica” delle IA, nel senso che è una trasformazione da uno spazio a molte dimensioni a uno a “sole” sei dimensioni, seguito da una rotazione della matrice corrispondente, cioè alla sua moltiplicazione per un’altra matrice. Ma le “varietà ad attrattore toroidale ad alte dimensioni” che dovrebbero servire alle cellule endocrinali per seguire le posizioni in uno spazio bidimensionale mi sembrano più che altro una supercazzola. E anche l’esempio del monaco che fa voto di castità, usando così il cervello evoluto per fare sesso e riprodursi in un modo volontariamente lontano dalla sua ottimizzazione, mi pare debole. Certo, possiamo chiedere a un chatbot di inventarci del testo volutamente implausibile semanticamente ma sintatticamente corretto, ma siamo stati noi a chiederglielo. Insomma, è vero che forse è più corretto vedere un LLM a un livello diverso da quello del semplice predittore di token, ma questo non ci porta ancora da nessuna parte.
D’altra parte il modello del mondo di un LLM è sostanzialmente limitato, usando un numero di token molto minore di quelli che abbiamo noi e soprattutto non avendo un modo per stabilire quali sono più importanti e quali possono essere scartati. L’attention fa un buon lavoro di compattazione, ma per sua stessa definizione tratta tutto allo stesso modo, e quindi non ci sono (successioni di) token più o meno importanti da gestire in modo diverso. Tutto questo si rileva quando alla domanda che ho fatto a Gemini “Che libri ha scritto Maurizio Codogno” la risposta terminasse con «Oltre alla scrittura, Codogno è celebre per aver curato l’edizione italiana di opere fondamentali, tra cui la riedizione di Gödel, Escher, Bach: un’eterna ghirlanda brillante di Douglas Hofstadter.» (magari…) Qui è un po’ difficile negare che ci sia stata una predizione di token che è andata via per la tangente. Posso al limite capire che mi abbia citato come autore (anziché traduttore) di Anelli nell’io, ma con GEB non ho mai avuto nulla a che fare…

PS: Ho chiesto a Gemini «Scrivi una storia di cento parole sintatticamente corretta ma semanticamente implausibile. La storia deve cominciare con “C’era una volta…” e finire con “… e vissero tutti felici e contenti”.» Risultato e relativa immagine:

C’era una volta un triangolo isoscele che soffriva di una cronica carenza di vitamina viola. Decise quindi di scalare una cascata di silenzio solido, indossando soltanto un paio di scarpe fatte di mercoledì pomeriggio. Giunto in cima, incontrò un’idea astratta intenta a cucire nuvole con un ago di logica inversa. Insieme, mangiarono una sinfonia croccante mentre il tempo scorreva verso l’alto, trasformando la gravità in un profumo di fragola quadrata. Il sole decise allora di diventare un prefisso telefonico, sciogliendosi dolcemente in un bicchiere di algoritmi gentili, e vissero tutti felici e contenti.

il disegno corrispondente

Anche se avevo fatto partire una nuova chat, il testo mi pare piuttosto legato a quello che gli chiedo di solito, anche se potrebbe essere una mia impressione. Più che altro vedo molte associazioni improbabili nome-aggettivo, anche se ho apprezzato lo zeugma implicito “un paio di scarpe fatte di mercoledì pomeriggio”. Non so, a me paiono ancora next-token predictions, anche se con vincoli diversi. A voi?

First Proof: quando il gioco si fa duro…

Un paio di settimane fa, nella mia rubrica su MaddMaths! (come? non la leggete? male!), scrissi che il progetto First Proof aveva preparato dieci lemmi mai pubblicati da dimostrare in una settimana, e che gli LLM erano riusciti a farcela solo in due casi. A quanto pare questo era il risultato che gli ideatori della gara erano riusciti a fare con le versioni “ufficiali” dei programmi. In realtà sia OpenAI che Google con il suo Aletheia dicono di aver risolto cinque (o sei, se si accetta una dimostrazione incompleta) problemi. E la cosa più interessante è che non sono gli stessi: insieme i due software hanno dimostrato otto dei dieci lemmi.

Come riporta Scientific American, non è chiaro se questi risultati dipendano dal fatto che internamente queste aziende hanno modelli più avanzati di quelli pubblicamente disponibili, oppure c’è stato un qualche aiutino da parte di matematici umani, anche se Google lo ha decisamente negato. La domanda non è affatto peregrina. Penso che ormai sia sdoganato il fatto che un’IA riesca a fare almeno in parte il lavoro di un dottorando – sì, devo ancora studiarmi i cicli di Claude che sono piaciuti così tanto a Knuth – anche sfruttando la loro capacità di trovare nella vastissima letteratura idee simili da portare avanti. In fin dei conti è ben noto questo racconto di Julia Robinson: “Lunedì – cercato di dimostrare teorema. Martedì – cercato di dimostrare teorema. Mercoledì – cercato di dimostrare teorema. Giovedì – cercato di dimostrare teorema. Venerdì – il teorema è falso”. Traduciamolo nel mondo degli LLM: essi possono produrre centinaia di “dimostrazioni” che si scopre poi essere false, perché assumono ipotesi non necessariamente vere. I sistemi di verifica automatica buttano via queste dimostrazioni errate e l’IA non si abbatte e ricomincia; diciamo però che se un essere umano vede quello che potrebbe essere un approccio interessante e spinge il sistema in quella direzione è molto più facile arrivare al risultato finale.

Per ovviare a questo problema, il gruppo dietro First Proof sta preparando una seconda gara, ma questa volta chiederà di poter far girare lui stesso i programmi, per essere certi che non ci sia aiuto esterno. Vedremo (a) se i produttori di questi sistemi accetteranno e (b) che succederà.

Ultimo aggiornamento: 2026-03-18 16:46

Gli LLM sono una forza opposta ai social media?

Ho letto – mettendoci un po’ di tempo, non so come faccia la gente a scrivere così tanto – questo articolo di Dan Williams e sono rimasto molto perplesso. Il suo punto di partenza è condivisibile: ogni tecnologia di comunicazione plasma il pensiero umano. L’invenzione della stampa a caratteri mobili ha tolto a monarchi e chiesa cattolica il monopolio della conoscenza, permettendo a molta più gente di poter comunicare le proprie idee a un più vasto pubblico di quello della locale locanda. Radio e poi televisione hanno di nuovo centralizzato la diffusione della conoscenza. I social media sono la fonte principale del populismo, nel senso di idee popolari che le elite tenevano a bada. Il punto non è soltanto la maggiore o minore facilità di comunicare: per mezzo della stampa è possibile fare analisi dettagliate e profonde, la televisione predilige chi sa parlare in modo suadente, i social media e i loro algoritmi spingono chi è più bravo a generare zizzania e quindi tenere la gente attaccata allo scrolling; questo a sua volta ha portato a una spirale di discorsi sempre più stupidi. Certo, ci sono testi informativi di alta qualità, ma bisogna fare fatica (oppure avere serendipità, aggiungo io) per trovarli.

Cosa succede con i chatbot? Che se si chiede loro una spiegazione di un fatto, essi (anche Grok, almeno per ora, nonostante i tentativi di Elonio) tenderebbero a dare la risposta su cui gli esperti hanno trovato un consenso; e se ci sono pareri dibattuti li riportano tutti in modo asettico. Riescono quindi a essere una forza contraria al populismo e alla stupidità come valore aggiunto che hanno i social media. Secondo Williams, questo accade perché i grandi attori in gioco stanno lottando per avere i sistemi più intelligenti, rimarchevoli e utili possibili, e questo andrebbe in conflitto con l’inserire informazioni di parte nella parte di controllo dell’output. Mah. Anche dopo aver letto tutto il suo ragionamento io resto convinto che abbia torto. Qui mi limito a riportare le sue risposte alle possibili obiezioni, e le mie controrisposte.

La prima obiezione è sulle allucinazioni: secondo Williams le allucinazioni si stanno riducendo tantissimo, perché le aziende fanno ogni sforzo per eliminarle; ma anche se non riuscissero a toglierle del tutto non ci sarebbe comunque problema, perché tanto gli esseri umani cercano tutto il tempo di confondere la gente. Io sono d’accordo che, almeno per quanto riguarda questo tipo di domande, le allucinazioni non sono un vero problema, ma questo per un motivo più terra terra. Se io chiedo a un chatbot qualcosa su di me, il materiale di addestramento che ha avuto non è poi così grande, quindi è facile partire per la tangente; su un tema molto dibattuto c’è per definizione una quantità enorme di materiale, e quindi è probabile che l’opinione su cui gli esperti hanno consenso sia quella più presente e quindi anche la più facile da avere come output.

Sul secondo punto, quello della piaggeria degli LLM, la mia visione è diametralmente opposta a quella di Williams. Secondo lui, la maggior parte delle domande che si fanno sono senza contesto, e quindi intrinsecamente neutre. Io invece credo che bastino già i termini usati per scrivere la domanda per far intuire una connotazione di chi scrive, e quindi spostare la risposta verso quanto l’interlocutore umano vorrebbe. E comunque secondo me l’utente quadratico medio preferisce che il suo pre-giudizio venga confermato all’avere una risposta accurata che però va contro le sue idee.

Per quanto riguarda la manipolazione dall’alto dei risultati, è vero che in questo momento non pare funzionare molto; ma questo succede perché i tentativi di farlo sono stati troppo esagerati. Ma la natura stessa degli LLM, che possono avere un fine-tuning successivo alla creazione del modello, e la possibilità di costruire testi generati dalle IA che poi vengono dati in pasto ai modelli, rende relativamente semplice ottenere l’effetto “rana bollita”: modifiche piccole ma continuative fino a che non si raggiunge una massa critica. E questo vale anche per il punto 4, la disinformazione basata sull’IA.

Non dico di avere necessariamente ragione su tutto facendo la Cassandra: ma resto convinto che Williams sia un inguaribile ottimista. Voi che ne pensate?

Non siamo più in grado di riconoscere i testi generati dalle IA?

Una volta era facile capire quando un testo era generato automaticamente: la sua struttura aveva un non so che di artefatto. Ora a quanto pare gli LLM sono arrivati a fregarci sempre meglio. MomScience riporta il risultato di due studi, nemmeno troppo recenti (si parla del 2023) dove il tasso di errore nel definire se un testo era umano o artificiale era intorno al 50%: essenzialmente come tirare a indovinare. Peggio ancora, nel caso di editor di riviste tecniche il tasso di riconoscimento corretto è stato molto inferiore al 50%: in pratica un reverse benchmark.

Come mai? Innanzitutto, le IA ormai non fanno più errori grammaticali e refusi, a differenza di chi scrive spesso di fretta e non rilegge il suo testo (quorum ego). In pratica, al momento è meglio fidarsi di un testo più ruspante. Credo però che ci sia anche un altro punto: il fare una verifica superficiale, senza entrare nel merito del significato del testo. Un altro studio, stavolta del 2026, elenca gli indizi cercati dai professori quando controllano gli elaborati ricevuti. I primi quattro sono la presenza di allucinazioni nei fatti presentati; allucinazioni nelle fonti citate; mancanza (appunto!) di errori grammaticali e ripetizioni del testo. Peccato che se il compito è quello di riassumere un testo è molto improbabile che le IA facciano di questi “errori”, o più correttamente lascino tracce visibili!

Quello a cui forse dovremo rassegnarci è che non è più importante sapere chi (o cosa…) ha scritto un testo, ma dobbiamo concentrarci sul suo contenuto. Ho come il sospetto che per molta gente ciò sarà ancora più difficile :-)

IA e clean room

Nella sua newsletter, Simon Willison racconta di un caso interessante he riguarda le reimplementazioni di codice. L’esempio tipico, raccontato anche nel suo post, è stato quando Compaq ha preso un gruppo di sviluppatori per disassemblare il BIOS dei PC IBM e scrivere un documento di specifiche relative; il documento è stato dato a un altro gruppo di sviluppatori che hanno creato un BIOS compatibile ma senza problemi di copyright, perché a essere copiate sono state le funzionalità e non il codice. Questa metodologia si chiama in gergo “clean room”, come le camere pulite dove si costruiscono (costruivano? io me le ricordo a fine anni ’80…) i chip, perché non c’è nessuna contaminazione. Il problema è che un metodo del genere è molto costoso, in termini di risorse e soprattutto di tempo. Ma ora ci sono le IA che scrivono codice: non si può far fare il lavoro a loro?

È proprio quello che è stato fatto con la libreria Python chardet, che cerca di determinare qual è il codifica dei caratteri usata in un documento. Il programma è stato creato nel 2006 da Mark Pilgrim e rilasciato sotto la licenza LGPL, e portato avanti da vari sviluppatori, soprattutto da Dan Blanchard che ha praticamente preso le redini del progetto dal 2012 e la versione 1.1. Ora Blanchard ha rilasciato una nuova versione, la 7.0.0 (al momento siamo alla 7.0.2) definita come “riscrittura da zero” con l’aiuto di Claude Code e rilasciata con la MIT license, il che significa che può essere usata anche senza far automaticamente far diventare open source tutto il progetto che la usa. Pilgrim però ha obiettato, dicendo che non era possibile cambiare licenza al software, e da qui è partita una diatriba. Blanchard ha spiegato che è partito dalla generazione di un insieme di specifiche usando superpowers, per poi partire ex novo con un progetto e istruire Claude Code a non usare codice GPL oppure LGPL. Il risultato, usando il tool JPlag che verifica la somiglianza del codice con un altro dato, è che la similarità massima è dell’1,29%.

Willison elenca poi una serie di punti che rendono il caso complicato: Blanchard sicuramente conosce fin troppo bene il codice originale, avendoci lavorato su per tre lustri; Claude Code ha sicuramente referenziato parti del codice originale, come il file che elenca le proprietà delle varie codifiche, ma d’altra parte Pilgrim aveva scritto il codice partendo da un’implementazione in C con la licenza Mozilla; Claude è stato quasi sicuramente addestrato anche con il materiale di chardet, e la sua “memoria” è sicuramente molto più affidabile di quella degli sviluppatori che compilano in una clean room. Ma naturalmente il vero problema non è tanto chardet, che rimarrebbbe con una licenza libera. Il software libero nasce proprio in contrapposizione a quello proprietario: cosa succede se il pendolo si sposta dall’altra parte e le aziende sfruttano il software libero per averne dell’altro bloccato?

Resa cognitiva

Il mese scorso la Wharton School dell’Università di Pennsylvania (a quanto dice Wikipedia, la più antica business school universitaria) ha pubblicato un paper dal titolo molto esplicito: “Thinking—Fast, Slow, and Artificial: How AI is Reshaping Human Reasoning and the Rise of Cognitive Surrender”. Per capire meglio di cosa parla, bisogna ricordarsi del concetto di “pensiero lento e pensiero veloce” per cui Daniel Kahneman vinse il Nobel. Il modello di Kahneman dice che noi esseri umani abbiamo due modi di prendere decisioni. Il Sistema 1, il pensiero veloce, istintivo ed emotivo, è quello che deriva direttamente dai nostri antenati animali; il Sistema 2, il pensiero logico e cognitivo, si è invece sviluppato nelle ultime decine di migliaia di anni, ed è quello che coltiviamo studiando. In genere noi usiamo il Sistema 1 perché meno costoso, ma siamo in grado – o almeno dovremmo esserlo – di passare al Sistema 2 quando il compito è troppo complicato e il gioco si fa duro.

Gli autori, Steven Shaw e Gideon Nave, affermano che questa categorizzazione poteva andare bene fino a quando tutto il processo mentale (la cognizione, più precisamente) era tutto svolto nella nostra mente. Ma ora noi stiamo cominciando a chiedere le risposte agli LLM, e le cose cambiano: ecco dunque che Shaw e Nave propongono un nuovo modello con tre sistemi distinti, come possiamo vedere nello schema della figura qui sotto. Notate che c’è una differenza di fondo col prendere un manuale per cercare la risposta alla domanda che ci poniamo: in quel caso infatti noi leggiamo una risposta ma dobbiamo comunque verificare (con il Sistema 1 o 2) se e`quella alla nostra domanda, mentre con le IA ci sembra di interagire, e quindi la situazione è più simile a quella di parlare con un amico.

I tre sistemi proposti da Shaw e Nave

immagine dall’articolo della Wharton School citato nel post


Nel primo studio, è stato proposto ai volontari un certo numero di problemi logici con una soluzione intuitiva facile ma sbagliata, come il classico problema “Una mazza e una palla da baseball insieme costano 11 dollari. La mazza costa dieci euro più della palla. Quanto costa la palla da sola?”. Metà dei volontari è stata usata come gruppo di controllo: all’altra metà è stato detto che se volevano potevano usare un’IA per aiutarsi a trovare la risposta. Quello che non sapevano è che i ricercatori aggiungevano dei prompt nascosti per assicurarsi che circa nella metà dei casi la risposta che avrebbe dato fosse quella intuitiva ma sbagliata. Risultato? per più della metà delle volte gruppo con l’IA l’ha usata. Quando la sua risposta era corretta, la percentuale di risposte corrette data dai volontari era il 25% maggiore di quella del gruppo di controllo; quando era sbagliata, le risposte corrette date dai volontari erano il 15% in meno.

Insomma, limitandoci a chi ha usato l’IA c’è un 40% di differenza nelle risposte corrette; ma il problema dovrebbe diventare più chiaro se si guardano le cose da un altro punto di vista. La gente ha seguito la risposta sbagliata data dall’IA quattro volte su cinque, l’80% dei casi. In altre parole, siamo più sicuri della risposta di un chatbot rispetto a quello che abbiamo trovato noi. Gli autori distinguono due casi: la resa cognitiva (cognitive surrender), quando avendo a disposizione il Sistema 3 attiviamo a malapena il Sistema 1 e non tocchiamo nemmeno il Sistema 2, e lo scarico cognitivo (cognitive offloading), quando usiamo comunque il Sistema 2, anche se meno di quanto faremmo senza la stampella IA. Quest’ultimo non è così preoccupante: è l’equivalente di prendere la calcolatrice per fare i conti, ma stando all’erta per evitare gli stupidi errori tipo dire che tra Milano e Torino ci sono 150000 chilometri. Però pare che i tre quarti degli errori dei volontari fosse dovuto invece alla resa cognitiva.

Cosa posso aggiungere io? Beh, sappiamo tutti che sono duemilacinquecento anni che ci si lamenta di come le nostre capacità cognitive si stiano perdendo, a partire da quanto scritto nel Fedro. Sappiamo tutti che siamo facilmente pronti ad accettare acriticamente quello che ci arriva da un’autorità: “quelli che… l’ha detto il telegiornale!”. Insomma, nulla di nuovo sotto il sole? Non direi. Come accennavo prima, proprio il fatto che il Sistema 3 non sia umano ce lo fa subliminalmente sembrare più affidabile persino di noi stessi, come questo esperimento mostra. Inoltre, rispetto allo scarico mnemonico che abbiamo da quando con la scrittura non è più necessario tenere a memoria tutto, c’è un’altra differenza. Per consultare un libro dobbiamo avere a priori un’idea di quello che stiamo cercando: con una ricerca in rete l’idea può essere più debole, magari non ricordiamo nemmeno esattamente il nome, ma abbiamo comunque fare uno sforzo cognitivo nel verificare la risposta. Ora invece questo sforzo dev’essere volontario. Io, e certamente tutti i miei ventun lettori, siamo comunque abituati a non prendere alla lettera quello che leggiamo: basta vedere quanti scrivono per dire che non ho capito nulla :-) Ma temo che siamo una minoranza: se non si comincia a insegnare (o a re-insegnare) il pensiero critico rischiamo davvero grosso.

Ultimo aggiornamento: 2026-03-03 12:30

La Stanza cinese ai tempi degli LLM

Nel 1980 il filosofo John Searle propose un esperimento mentale, chiamato in seguito “la Stanza cinese”, per mostrare che secondo lui non era possibile affermare che un computer potesse essere considerato cosciente. L’esperimento funziona così: Searle è chiuso in una stanza, con un manuale di istruzioni, carta e penna. La stanza ha due fessure (oltre, si spera, a un modo per dare al povero Searle da mangiare e da bere): da una vengono inseriti dei foglietti con dei simboli, che Searle prende. Consultando il manuale per sapere che fare, il filosofo traccia degli altri simboli su un foglio che poi fa passare dall’altra fessura. Supponiamo ora che i simboli siano in effetti ideogrammi in cinese, e che il manuale sia composto in modo tale che il foglio rimandato indietro contenga la risposta alla domanda datagli (sempre in cinese). Bene, conclude Searle, penserete mica che io conosca il cinese? Mi sono semplicemente limitato a eseguire un programma, esattamente come farebbe un computer. Quindi è ovvio che il computer non può essere cosciente.

Nel 1980 la Stanza cinese era appunto solo un esperimento mentale, e la risposta che veniva data era “non è Searle a sapere il cinese, ma il sistema Searle + manuale + stanza”: spostare insomma il punto di osservazione. Nel 2026 ci stiamo avvicinando ad avere qualcosa di davvero esistente, anzi molti direbbero che ce l’abbiamo già, allucinazioni a parte. E dunque? In un suo post, Se Gyges riprende le argomentazioni di Searle (che tra l’altro è morto lo scorso settembre) guardandole da un modo puramente computazionale. Il cinese è una lingua più compatta dell’inglese, per non parlare dell’italiano: possiamo immaginare che in 100 ideogrammi si possa esprimere una qualunque domanda. Sempre per comodità immaginiamo che vengano usati solo i 20000 ideogrammi più comuni. Con questi numeri viene fuori che il manuale (la lookup table di cui parlavo qualche settimana da sarebbe dell’ordine di 10^430 sequenze. Considerando che si ritiene che il nostro universo abbia un ordine di 10^80 atomi, ci occorrerebbero 10^350 altri universi come minimo per gestirlo. Questo significa che per avere qualche speranza di far funzionare la cosa il punto non è avere una stanza sufficientemente grande, ma ridurre la dimensione del manuale, e questo a sua volta significa non solo che il manuale deve avere una certa conoscenza del cinese (non necessariamente nel senso di avere un insieme di regole come i sistemi esperti che erano di moda ai tempi di Searle: abbiamo visto che ciò non è necessario) quanto nel ridurre la quantità di dati necessari da salvare. Ma anche in questo caso la struttura della “stanza” deve essere ottimizzata, con livelli vari di comprensione e una gestione dello spazio tale da minimizzare il tempo necessario per trovare cosa inviare come risposta. Gyges dice “questo assomiglierebbe sempre più a un cervello”; il mio punto di vista è un po’ diverso.

Io non sono così interessato a definire un modello fisico per la Stanza cinese e adattarlo a un LLM, quanto a vedere quali analogie ci sono. Quindi accetto senza problemi il fatto che gli strati nascosti delle reti neurali possano fare da manuale, e ovviamente – cosa che non è mai stata esplicitata nell’esempio sopra – non è scritto da nessuna parte che ci sia un unico modo di comporre simboli su un foglietto a partire da quelli che si trovano nel foglietto in ingresso: anzi, se non fosse così secondo me avremo dei forti problemi. Ma quello che mi pare succeda in questo momento è che il “manuale” è troppo compresso, il che vuol dire che il sistema parte troppo spesso per la tangente (le allucinazioni) per la banale ragione che confonde foglietti chiaramente diversi, o se preferite una spiegazione più tecnica perché la riduzione dimensionale dello strato interno, che è necessaria per creare i cluster relativi ai concetti, essendo puramente statistica può dare una grande quantità di falsi positivi. Sarà possibile trovare un modo per mantenere un “contesto globale”, cosa diversa da quella che stiamo facendo adesso? Se sì, dal mio punto di vista posso accettare che quel modello abbia una consapevolezza: ma per il momento la risposta è un secco no.