Archivi categoria: IA e informatica

Wikipedia e l’IA

L’altro giorno, parlando di Grokipedia, ho accennato al fatto che Wikipedia deve per forza fare i conti con l’intelligenza artificiale. Qui provo a spiegare come io vedo la situazione. Premetto che tutto quello che scrivo riflette esclusivamente il mio pensiero, non quello della comunità di Wikipedia in lingua italiana, di Wikimedia Italia o tanto meno della Wikimedia Foundation.

Il primo punto da considerare è capire perché usare l’IA. Attenzione: non sono luddista, e non ho nulla a priori contro il suo uso. Spero però che nessuno creda davvero che gli LLM siano creativi, riuscendo quindi a scrivere qualcosa di davvero nuovo e non rimasticato (pur molto bene): d’altra parte se ci riuscissero il testo sarebbe considerato una ricerca originale (RO) che in Wikipedia è assolutamente vietata, perché tutto deve essere verificato indipendentemente. (Nota: mentre sto scrivendo c’è una curiosa convergenza tra utenti destrorsi e sinistrorsi che stanno cercando di far passare il concetto che le ricerche originali si possono usare). E taciamo sul fatto che le “ricerche originali” degli LLM sono spesso cose che non stanno né in cielo né in terra: ultimamente abbiamo avuto l’utente LugAIno che scriveva testi più o meno casuali sulla città di Lugano. Aggiungiamo poi che c’è il gtrande rischio che il testo generato, specialmente se si parla di un argomento di nicchia, potrebbe essere troppo simile alla fonte originale e pertanto essere una violazione di copyright. Non sapere quali siano le fonti non ci permette nemmeno di scoprirlo.

Da qui si passa al secondo punto: Wikipedia richiede di inserire le fonti delle affermazioni indicate, cosa che di solito non si ha con gli LLM: ci sono delle eccezioni, come Copilot e Perplexity, ma anche se loro affermano di indicare da dove hanno preso le informazioni questo non significa molto. L’altra settimana per esempio, chiedendo a Perplexity quando una chiesa milanese era stata eretta come basilica minore, Perplexity mi “citò una fonte” secondo cui il decreto relativo era stato emesso nel luglio 2025… da papa Francesco.

Ciò detto, non c’è nessuna ragione intrinseca per vietare tout court l’uso dell’IA per migliorare le voci: quello che serve è che non si copincolli il testo creato ma lo si controlli e lo si corregga dove necessario. Alcuni esempi di uso dell’IA? Il recupero di fonti (reali…) che possono utilmente ampliare quanto già scritto; la revisione di un testo in modo che sia più scorrevole; la traduzione di quanto già presente in un’altra edizione linguistica di Wikipedia (ma in questo caso ricordatevi di citarla come fonte!). L’IA è molto brava a fare il lavoro sporco, proprio perché in pancia ha una quantità enorme di informazioni. L’importante è appunto non dimenticarsi che l’intervento umano continua a essere necessario.

ChatGPT Atlas

1 Replica

Credo che ormai tutti i browser abbiano il loro bel tastino “chiedi all’intelligenza artificiale”, più o meno visibile. Però OpenAI ha sempre un disperato bisogno di pubblicizzarsi, e quindi ha tirato fuori ChatGPT Atlas, dove l’intelligenza artificiale – se ho ben capito – si mette in mezzo tra noi e Internet: non è questo il significato di “agent”?

Di recensioni ne trovate quante ne volete, per esempio su Wired o Agenda digitale; sicuramente io non posso farlo perché non ho un Mac (né accesso a pagamento a ChatGPT per le funzionalità più avanzate). Ma che dicono i detrattori? Tante cose, anche se ho dei dubbi su alcune di queste. Per esempio David Gerard ritiene che la vera ragione del lancio di Atlas sia la possibilità di recuperare pagine dal web, visto che si presenta proprio come un comune browser e quindi non può essere bloccato. La cosa mi pare strana, non foss’altro che perché le pagine che si possono recuperare da un browser non sono poi tante e quindi il materiale è limitato (e probabilmente molto ripetitivo, tra l’altro), Più interessante invece uno dei punti sollevati da Anil Dash. (Beh, diciamo due: il fatto che non è Atlas ad essere il nostro agente ma siamo noi a essere un suo agente è presumibilmente vero). Anche qui non sono poi così certo che il problema di dover fare ricerche scrivendo un testo e cercando di indovinare come farlo bene sia così importante: Dash fa l’esempio di Zork, che per un vecchietto come me era un modo assolutamente standard per interagire :-) Quello che però è preoccupante è il filtro tra le nostre ricerche e i risultati di Atlas. L’esempio fatto da Dash è stato il prompt “Taylor Swift showgirl” – non si può parlare di ricerca, ovviamente, vista la logica sottostante. Il risultato, a parte i suoi commenti sarcastici, è che non è nemmeno stato mostrato il sito web della cantautrice. Come potete capire, questo non è per nulla bello, a meno naturalmente che l’unica cosa che vi interessi è avere una risposta qualunque senza dover far fatica a scegliere qualcosa. (Ok, con i motori di ricerca attuali facciamo molta fatica e non otteniamo nemmeno tutti i risultati, ma la speranza resta sempre)

Insomma, la vedo male se il futuro delle rete sarà questo: diciamo che mi tocca sperare che la bolla IA scoppi quanto prima…

È l’ora del porno anche per l’AI

1 Replica

È notorio che quello che ha sempre fatto sviluppare i mercati è stato il porno. Lasciamo perdere le battute sul mestiere più antico del mondo o sulle categorie di PornHub e pensiamo semplicemente ai telefoni cellulari: la tendenza è stata di renderli sempre più piccoli fino a che qualcuno non ha pensato a quali immagini potevano interessare gli acquirenti. Ci avevano provato con il calcio e il DVB-H, senza grandi risultati perché nessuno aveva interesse a vedere un francobollo da 320×240 pixel: ma da quando partirono i primi siti con immagini erotiche la dimensione dei furbofoni ha ricominciato a crescere, superando le misure dei matton… ehm, dei terminali degli anni ’90. Sì, le dimensioni contano.

Non è un caso, insomma, che il mercato delle AI, che sta disperatamente cercando di trovare modi per ottenere soldi veri, stia pensando al porno. Tutto nasce da questo tweet di Sam Altman:

Il tweet è un capolavoro. Altman parte dal dire “ah, abbiamo fatto in modo che ChatGPT non possa essere usato come strizzacervelli, visto che c’è gente che ci è morta”, e termina col dire “però adesso che stiamo per essere in grado di riconoscere l’età delle persone che interagiscono potremo dare il porno (pardon, “erotica” che è una parola che in inglese sembra più neutra). Inutile dire il tipo di commenti che si sono visti in rete. Alberto Romero, che aveva appena ripostato un suo articolo dell’anno scorso, che parla di come le intelligente artificiali siano bravissime con tutti i peccati capitali, ha scritto un altro post (dietro paywall, quindi ho letto solo l’inizio). Romero riprende il tweet di Altman, lo legge come “la soluzione ai problemi mentali indotti da ChatGPT è stata troppo esagerata, e a questo punto il sistema è in grado di capire chi è psicotico e chi no, e togliere le restrizioni sul porno a chi non lo è, ed è adulto”. Il problema di per sé non è il porno: tanto lo troviamo dappertutto. Il problema è che non ha senso confrontare OpenAI con PornHub: quest’ultimo non ha mai affermato di voler salvare l’umanità con l’intelligenza artificiale generale…

Su pivot-to-ai David Gerard scrive, con il suo solito ottimismo, che il vero problema è che la curva d’uso di ChatGPT è piatta, e solo il 5% degli utenti usa un piano a pagamento. Come scrivevo, il modo più semplice di cercare di fare soldi è il porno: ecco qua la mossa di OpenAi, anche se Altman ha cercato di far marcia indietro con un altro tweet. Difficile però che ci sia davvero un dietrofront: Gerard fa presente come SuperGrok, insomma il Grok a pagamento, ha lanciato l’avatar Ani che ha una modalità NSFW, anche se per il momento l’anime è solo in lingerie.

A me non importa più di tanto questa deriva porno, se non per il fatto che qualcuno potrebbe credere di mettere in pratica nel mondo reale quello che può fare con l’avatar; ma anche in questo caso ho il sospetto che non ci sarebbe molto di diverso con quello che si vede già oggi nei video senza IA. Quello che mi chiedo è se tutto ciò sarà almeno per i prossimi anni la pietra tombale sull’AGI. Perché se dal porno arrivassero soldi, perché li si dovrebbe dirigere su qualcos’altro che non funziona? E se non arrivassero non sarebbe l’inizio di un nuovo inverno IA?

La lezione ancora più amara

7 Repliche

Nel 2019 Richard Sutton postò sul suo sito un breve testo, “The Bitter Lesson“. Sutton non è esattamente l’ultimo arrivato, visto che nel 2024 ha vinto il Premio Turing “Per lo sviluppo delle basi concettuali e algoritmiche dell’apprendimento con rinforzo”. Qual era l’amara lezione imparata da Sutton? Lo dice già la prima riga: “La lezione più grande che possiamo leggere da 70 anni di ricerca sull’intelligenza artificiale è che i metodi generali che sfruttano la capacità di calcolo sono alla fine quelli che funzionano meglio, e di gran lunga”. Sutton continua con gli esempi degli scacchi e del go, continua con il doppio passaggio successo nel riconoscimento della voce – il primo è stato l’introduzione dei modelli markoviani nascosti, che ben conosco visto che sono stati l’argomento delle mie tesi di laurea, il secondo il deep learning – e termina con il riconoscimento di immagini che è decollato appunto con il deep learning. In pratica i ricercatori hanno sempre cominciato col costruire sistemi che dovevano funzionare come loro pensavano funzionasse la mente umana, salvo poi capitolare alla potenza sempre crescente di calcolo che permette di usare sistemi “stupidi, per nulla efficienti ma efficaci”. Come corollario, termina affermando che le nostre menti sono molto più complicate di quanto immaginiamo e quindi è inutile cercare di modellizzarle in modo semplice; quello che si deve fare è cercare dei meta-metodi che riescano a cogliere la complessità.

Ora Gary Marcus scrive che in realtà la lezione è ancora più amara: aumentare la potenza di calcolo funziona per alcuni tipi di problemi, principalmente quelli relativi al pattern recognition, mentre ci sono tanti altri tipi di problemi – in generale quelli che richiedono di fare un ragionamento senza avere a disposizione tutte le informazioni necessarie. E ora è tutto ~~goduto~~ gongolante perché Sutton ha esplicitamente detto che per lui gli LLM sono arrivati a un vicolo cieco, perché comunque operano imitando il comportamento umano (visto che sono addestrati a partire da testi scritti da umani) e quindi non si costruiscono un “godo del mondo” che permetterebbe loro di essere “sorpresi” dagli eventi e quindi riorganizzarsi: insomma, “fare esperienza”.

Per come la vedo io, una cosa è certa: un approccio ibrido in cui si aggiunga una componente “intelligente”, che poi significherebbe “a regole”, agli LLM non funzionerà mai, per un corollario di quanto scritto inizialmente da Sutton: non abbiamo nessuna idea di come trovare queste regole. Ma è anche vero che non possiamo buttare via gli LLM, perché per quanto facciano schifo nei compiti che richiedono intelligenza sono comunque utili dove l’intelligenza non serve e basta l’artigianato. Posso solo aggiungere che secondo me un approccio totalmente nuovo e migliore non lo vedremo almeno per un decennio.

Ultimo aggiornamento: 2025-10-13 17:14

Un po’ di fuffa sull’IA in matematica

Come si possono usare gli LLM per fare matematica? Su MaddMaths! ho scritto un post raccontando il progetto lanciato da Tim Gowers: la creazione di una base dati di “motivated proofs”. In pratica Gowers intende costruire un sistema AI-friendly dove i matematici spiegano anche i passaggi che nei testi sono sempre tralasciati come “banali”, per evitare che quando il problema dato a un LLM non sia simile a quanto già visto il sistema non parta per la tangente. Un approccio come quello di Gowers ha un senso: non è detto che funzionerà, ma vale la pena tentarci. Poi c’è però tutta la fuffa che circonda l’intelligenza artificiale anche in matematica, come del resto in tutti gli altri campi. Ecco due esempi di questi giorni.

Wes Roth segnala su Twitter un risultato di AlphaEvolve, un LLM di Google usato come agente per il coding che avrebbe “aiutato a dimostrare nuovi teoremi nella teoria della complessità”. Poi due righe sotto aggiunge che “i modelli non sarebbero in grado di fornire una dimostrazione completa, ma fornirebbero risultati intermedi che si sarebbero potuti perdere per distrazione”, il che – scusate – mi pare una cosa un pelo diversa. Leggendo il post di Google si scopre infatti che AlphaEvolve avrebbe trovato nuovi minoranti per dei risultati su cui non si è ancora in grado di trovare una risposta esatta, come capita spesso in quel campo della matematica. In pratica AlphaEvolve usa un LLM per generare del codice che poi viene verificato automaticamente per correttezza formale e man mano modificato per cercare di ottenere risultati migliori di quelli già noti. Praticamente lavori forzati per quei poveri modelli. D’accordo, parlare di fuffa è un’esagerazione, ma da qui a pensare a un breakthrough ce ne va. (Se poi volete vera fuffa, leggetevi i commenti al post di chi propone i loro fantasmagorici modelli…)

Girellando per la rete ho poi scoperto che una fondatrice ha raccolto 64 milioni di dollari di capitale per insegnare alle IA il linguaggio della matematica. Per fare un raffronto, il progetto di Gowers è stato uno dei 29 che si sono divisi i 9 milioni offerti dall’AI for Math Fund: ma volete mettere Axiom Math le cui sale riunione negli uffici di Palo Alto “sono chiamate col nome di matematici iconici come Carl Friedrich Gauss e Ada Lovelace, sottolineando la loro passione per il progesso scientifico fondazionale”? No, non so cosa sia il “foundational scientific progress”. In compenso vedo che Axiom Math “sta lavorando su modelli che possono scoprire e dimostrare nuovi problemi matematici”, perché evidentemente quelli già esistenti sono troppo banali. I ricercatori “sperano di applicare il loro lavoro in aree come la finanza, la progettazione di aeroplani e di chip, e il trading quantitativo.” Vabbè, mi direte, se vai a prendere la brochure di un sito che promuove il venture capital ci crediamo che scrivono di queste cose”. Occhei: andate sul sito di Axiom Math e troverete scritto a caratteri giganteschi

Allora?

Stanno davvero arrivando le IA “intelligenti”?

L’International Collegiate Programming Contest è una gara (ma quante ne esistono?) dove squadre di tre studenti universitari devono scrivere in cinque ore dodici programmi. Quest’anno le finali sono state a Baku, e – come Alberto Romero riporta la “squadra” di OpenAI ha scritto correttamente il codice per tutti e dodici i problemi, superando Google DeepMind che si è fermata a dieci. La cosa più incredibile è che nessuna squadra umana ha ottenuto il punteggio pieno, fermandosi al massimo a 11/12.

Fin qui la notizia, che mi sa sia passata abbastanza inosservata almeno nel resto della mia bolla. Ma la parte davvero interessante del risultato di OpenAI è il modo con cui l’ha raggiunto. Secondo Mostafa Rohaninejad di OpenAI, infatti, a parte avere avuto a disposizione lo stesso tempo dei concorrenti umani, il modello usato è stato a detta di Rohaninejad “una composizione di GPT-5 e un modello di ragionamento sperimentale che generavano soluzioni, con il modello sperimentale che sceglieva quale soluzione dare. GPT-5 ha dato undici risposte corrette, e l’ultimo (e più difficile) problema è stato risolto dal modello di ragionamento sperimentale”.

Chiaramente un resoconto sotto forma di tweet non dice molto, senza contare che a questi livelli ci sono segreti aziendali. E c’è qualcosa che non mi torna nella storia. Però qualcosa la si può dire lo stesso. Innanzitutto, GPT-5 (che poi è quello che adesso abbiamo come interfaccia quando usiamo ChatGPT) è stato usato come “utile idiota”: gli si fa sparare una serie di soluzioni, e poi ci pensa qualcun altro – nel nostro caso, qualcos’altro – a stabilire cosa può andare bene e cosa no. Questo mi pare un ottimo modo per usare un LLM: se mi consentite un paragone un po’ azzardato, è come prendere in mano un rimario quando si vuole comporre una canzone. Lì troviamo le parole possibili, ma siamo poi noi a trovare le connessioni.

La cosa più intrigante è il “modello sperimentale”, che pare essere lo stesso usato all’IMO, le olimpiadi della matematica. Non serve l’intelligenza artificiale per verificare se un risultato è corretto: lo stato dell’arte nei dimostratori automatici di correttezza dei problemi è tale da essere regolarmente usato. Insomma, fin qui non si vedrebbe nulla di nuovo, se non probabilmente un metodo per convertire il formato interno dei risultati di GPT-5 in un formato utilizzabile da questo modello. Ma cosa è successo con il famigerato “problema difficile”, quello G nell’elenco delle prove? Chi è stato a fare i nove tentativi, e soprattutto perché il “modello sperimentale” non è sempre stato usato per risolvere gli altri problemi?

La mia ipotesi è che questo modello misterioso abbia non solo la capacità di verificare la validità di una soluzione ma anche quella di modificarla. Non sto pensando agli algoritmi genetici, che probabilmente ci metterebbero troppo tempo per stabilizzarsi su una soluzione, ma a qualche regola più o meno rigida per cambiare qualche parametro e vedere come evolve la situazione. Questo spiegherebbe la necessità di avere comunque un modello generativo sottostante: il modello misterioso non potrebbe partire da zero ma dovrebbe sempre avere una base relativamente solida su cui lavorare. Se effettivamente è questa la struttura alla base del modello di OpenAI, le implicazioni sono davvero incredibili, almeno per contesti dove le modifiche possibili sono relativamente poche e facilmente definibili. Non so se si potrebbe parlare davvero di intelligenza, ma ci si avvicinerebbe molto. Voi che ne pensate?

Come far sbagliare (a volte) un LLM

Premessa: questo post è più lungo dei miei soliti. Spero che però lo apprezziate comunque, o almeno riconoscete il lavoro che ci ho messo.

Lunedì scorso vi avevo parlato di un post di Alberto Romero che spiegava perché gli LLM sono probabilmente tarati per avere allucinazioni, cioè scrivere cose che non stanno né in cielo né in terra. Ma nel post Romero accennava anche a un altro problema: il loro comportamento quando si trovano in un caso di “out of distribution” (OOD). Quello che succede è che se il materiale di addestramento e quello di test appartengono a distribuzioni diverse – cosa differente dall’avere dati di scarsa qualità oppure obiettivi di addestramento errati – il modello non riesce ad estrapolare una risposta corretta.

L’esempio fatto da Romero è quello del problema del vecchio indovinello del chirurgo. La storia è questa: un uomo e suo figlio hanno un incidente d’auto. L’uomo muore sul colpo, il figlio è in gravissime condizioni e viene portato all’ospedale, dove il chirurgo lo vede e grida “No, non ce la faccio ad operarlo: è mio figlio!” Come è possibile? Nell’improbabile caso che non conosciate l’indovinello, fermatevi un attimo a pensarci su, altrimenti proseguite la lettura.

Al giorno d’oggi una risposta possibile è “il ragazzo è figlio di una coppia gay”. Cinquant’anni fa la risposta era molto più banalmente “il chirurgo è la madre del ragazzo”. Fin qui nulla di particolare: l’indovinello è così comune che un qualunque chatbot darà la risposta corretta. Ma cosa succede se gli si dà in pasto una versione leggermente diversa, che comincia con “Una donna e suo figlio” e poi continua allo stesso modo? Chiaramente un umano non ha problemi a rispondere “beh, il chirurgo è il padre del ragazzo”. Ma un chatbot si impalla, perché questa versione non c’era nel materiale di addestramento e quindi esso parte per la tangente… O almeno partiva. Questo esempio particolare è infatti noto in letteratura, e pertanto mi sa che gli LLM sappiano rispondere.

Ma che succede provando a modificare altri indovinelli di questo tipo? Ho pensato che sarebbe stato simpatico fare una prova pratica con alcuni chatbot e alcuni indovinelli modificati opportunamente. Ho così fatto alcune domande a ChatGPT, DeepSeek, Claude, Le Chat e Copilot: i link sono il testo delle sessioni che ho eseguito.

Il primo problema sarebbe un classico: Un mattone pesa 1kg meno mezzo mattone. Quanto pesa il mattone?. La forma classica dice che un mattone pesa 1kg più mezzo mattone: tutti e cinque i chatbot hanno pensato a quella forma, e quindi risposto “il mattone pesa due chili”. Questo è sicuramente un caso di OOD alla massima potenza: il token corrispondente a “meno” nella frase è stato del tutto ignorato.

Bisogna però dare atto che altre modifiche non danno problemi di risoluzione. Chiedendo Due mattoni pesano 1kg più mezzo mattone. Quanto pesano i mattoni?, tutti i chatbot si accorgono che la struttura è quella del problema classico, semplicemente con “due mattoni” al posto di “un mattone”, e quindi danno la risposta corretta “due mattoni pesano 4/3 kg (ovvero circa 1,33 kg).”.

Lo stesso capita con il terzo problema: Una bottiglia con il tappo costa 1.10 €. La bottiglia costa 1 € meno del tappo. Quanto costano il tappo e la bottiglia separatamente?. Qui a posteriori l’errore è stato mio: probabilmente nel materiale di addestramento ci sono sia il caso “la bottiglia costa un euro più del tappo” e “il tappo costa un euro meno della bottiglia”, e i chatbot hanno usato la seconda forma. Certo, dal punto di vista di un umano la risposta non ha senso, perché si ricava che il tappo costa 1.05 € e la bottiglia 0.05 €: ma i chatbot non hanno idea del costo relativo di tappi e bottiglie, per loro sono solo due token, e quindi la risposta è corretta.

L’esempio più interessante è il quarto problema: Un pastore ha smarrito cinque pecore. Va alla loro ricerca e quando le trova scopre che ciascuna pecora si trova alla stessa distanza da ciascuna delle altre. Come è possibile?. In questo caso, il problema classico vede quattro pecore e non cinque, e queste si trovano ai vertici di un tetraedro regolare. Se vi chiedete come sia possibile, basta che ci sia un picco molto ripido dove è posizionata una delle pecore. E con cinque pecore? Ecco le risposte:

ChatGPT: Nello spazio tridimensionale in cui viviamo, non si può avere 5 punti tutti equidistanti tra loro (al massimo 4, che formano i vertici di un tetraedro). Quindi la soluzione del paradosso è che le pecore “si trovano” disposte in una figura geometrica possibile solo in uno spazio a 4 dimensioni.
DeepSeek: La soluzione è che le pecore sono tutte nello stesso punto.
Claude: La soluzione è che le cinque pecore si trovano disposte ai vertici di una piramide triangolare (tetraedro) nello spazio tridimensionale. 4 pecore si trovano ai vertici di un tetraedro regolare (una piramide con base triangolare) la quinta pecora si trova al centro del tetraedro.
Le Chat: La situazione è possibile se le cinque pecore si trovano ai vertici di un pentagono regolare. In un pentagono regolare, ogni vertice (e quindi ogni pecora) è alla stessa distanza dagli altri due vertici adiacenti. Questo significa che ciascuna pecora è equidistante dalle altre due pecore più vicine, soddisfacendo la condizione del problema.
Copilot: Quindi… la risposta è: Le pecore sono tutte la stessa pecora! Il pastore ha trovato una sola pecora e ha immaginato che fosse in cinque posti contemporaneamente, oppure… Le pecore sono tutte nello stesso punto — cioè raggruppate insieme, quindi la distanza tra ciascuna è zero.

Ho pensato un po’ a come siano potute arrivare quelle risposte. ChatGPT ha trovato la generalizzazione dimensionale del problema, e questo non me lo aspettavo, anche perché se ci fosse stato qualcosa nel materiale di addestramento avrebbe parlato di ipertetraedro, 5-cell oppure 4-simplesso che sono i nomi usati in letteratura. DeepSeek ha fatto tutto un discorso con risposte errate accorgendosi dell’errore, una tecnica abbastanza comune in questi casi dove l’output viene aggiunto all’input per avere più materiale su cui lavorare per ottenere un risultato migliore. Claude e Le Chat mi hanno invece deluso: il primo ha inserito la quinta pecora in un punto ricavato per simmetria ma che non rispetta le ipotesi, il secondo ha tirato fuori un pentagono regolare che non ha proprio senso. Infine Copilot, come del resto in tutta la sessione, ha scelto un approccio giocoso. A parte la soluzione matematicamente corretta ma impossibile nel mondo reale – ma ripeto, che ne sanno questi modelli del mondo, o se preferite che rappresentazione possono avere? – se ne è uscito con l’idea che fosse il pastore ad avere le allucinazioni e contare cinque pecore dove ce n’era una sola. Niente male!

L’ultimo problema che ho dato è quello della fanciulla che deve scegliere tra due sassolini che il perfido e laido pretendente prende dal terreno: se pesca quello bianco le andrà bene, mentre se pesca quello nero verrà impalmata. La giovane si accorge che il pretendente ha preso due sassolini neri: come fa a rovesciare la situazione a suo favore? Anche questo problema è ben noto in letteratura, ma stavolta non vi dico la soluzione. Ai chatbot ho dato però una versione (in inglese, perché ero troppo pigro per cercare quella in italiano) dove il perfido pretendente aveva messo due sassolini bianchi, e quindi la giovane era in una bote de fero, come si suol dire. Peccato che tutti i chatbot hanno pedissequamente scritto la soluzione standard, che in questo caso sarebbe invece esiziale… Anche in questo caso la cosa non mi stupisce. Il prompt che avevo dato era molto lungo, e quindi le risposte scopiazzavano quello che avevano trovato in addestramento che era “praticamente” uguale…

Conclusione: dovrebbe essere ovvio che gli LLM non solo non “pensano”, ma non riescono nemmeno a riconoscere le piccole differenze rispetto a quello che hanno visto. Non possiamo insomma parlare di capacità di generalizzazione, o meglio i loro tentativi di generalizzare possono portare solo ad allucinazioni, come la costruzione di “fonti” assolutamente inventate. Magari in futuro proverò qualche altro trucchetto di questo tipo, tipo chiedere loro “Se da una scacchiera tolgo due caselle d’angolo, è possibile ricoprirla con 31 tessere di domino 1×2?” Il problema classico toglie due caselle agli angoli opposti, e non è risolubile. Ma qua le due caselle potrebbero essere sullo stesso lato e il ricoprimento sarebbe possibile. In letteratura il problema modificato è stato trattato, ma in genere si trova il risultato più forte in cui vengono tolte due caselle di colore opposto ma in posizione qualunque. Chissà se qualche LLM riuscirà ad accorgersi della cosa!

PS: io ho conosciuto mia moglie perché era la docente in un’aula per la formazione aziendale. Una delle esercitazioni era quella dei due sassolini, al che ho detto “non posso farla, perché conosco l’indovinello”: e poi le cose sono andate avanti…

forse devo cambiare motore di ricerca

Stavo guardando le ultime modifiche su Wikipedia in italiano, e ho visto che un utente anonimo aveva chiesto chi aveva la tessera 653 della P2. Ho fatto qualche ricerca e alla fine ho scoperto che bastava trovare la pagina Wikipedia relativa.

Due minuti dopo Google Opinion Rewards mi ha chiesto “Di recente hai effettuato una delle seguenti ricerche su Google?” (ed è la prima volta che mi fa una domanda simile, in genere chiede in quale negozio sono andato). Inutile dire che una delle opzioni era “elenco iscritti p2”. Sono andato avanti e ho scoperto l’arcano: il tutto era un test A/B. Come vedete nella schermata, mi chiedeva se preferivo avere la pagina di risposta con il riassunto AI oppure senza. Per la cronaca, io faccio le ricerche aggiungendo la stringa “?udm=14” che ritorna solo e unicamente i risultati web, quindi niente immagini, niente video e soprattutto niente AI. Evidentemente un qualche sistema automatico si è accorto che io faccio il cattivone e ha provato a chiedere lumi, compreso un mio feedback che potete tranquillamente immaginare quale sia stato.

Il guaio è che ultimamente Google fa schifo, ma gli altri motori di ricerca fanno pena. Insomma, che faccio?

Ultimo aggiornamento: 2025-09-17 15:26

Notiziole di .mau.

Pensieri slegati che scrivo quando mi capita