{"id":33751,"date":"2025-09-22T04:51:55","date_gmt":"2025-09-22T02:51:55","guid":{"rendered":"https:\/\/xmau.com\/wp\/notiziole\/?p=33751"},"modified":"2025-12-29T18:46:20","modified_gmt":"2025-12-29T17:46:20","slug":"come-far-sbagliare-a-volte-un-llm","status":"publish","type":"post","link":"https:\/\/xmau.com\/notiziole\/2025\/09\/22\/come-far-sbagliare-a-volte-un-llm\/","title":{"rendered":"Come far sbagliare (a volte) un LLM"},"content":{"rendered":"<p>Premessa: questo post \u00e8 pi\u00f9 lungo dei miei soliti. Spero che per\u00f2 lo apprezziate comunque, o almeno riconoscete il lavoro che ci ho messo.<\/p>\n<p>Luned\u00ec scorso <a href=\"https:\/\/xmau.com\/notiziole\/2025\/09\/16\/gli-llm-sono-tarati-per-avere-allucinazioni\/\">vi avevo parlato<\/a> di un post di Alberto Romero che spiegava perch\u00e9 gli LLM sono probabilmente tarati per avere allucinazioni, cio\u00e8 scrivere cose che non stanno n\u00e9 in cielo n\u00e9 in terra. Ma nel post Romero accennava anche a un altro problema: il loro comportamento quando si trovano in un caso di &#8220;out of distribution&#8221; (OOD). Quello che succede \u00e8 che se il materiale di addestramento e quello di test appartengono a distribuzioni diverse &#8211; cosa differente dall&#8217;avere dati di scarsa qualit\u00e0 oppure obiettivi di addestramento errati &#8211; il modello non riesce ad estrapolare una risposta corretta. <\/p>\n<p>L&#8217;esempio fatto da Romero \u00e8 quello del problema del vecchio indovinello del chirurgo. La storia \u00e8 questa: un uomo e suo figlio hanno un incidente d&#8217;auto. L&#8217;uomo muore sul colpo, il figlio \u00e8 in gravissime condizioni e viene portato all&#8217;ospedale, dove il chirurgo lo vede e grida &#8220;No, non ce la faccio ad operarlo: \u00e8 mio figlio!&#8221; Come \u00e8 possibile? Nell&#8217;improbabile caso che non conosciate l&#8217;indovinello, fermatevi un attimo a pensarci su, altrimenti proseguite la lettura.<\/p>\n<p>Al giorno d&#8217;oggi una risposta possibile \u00e8 &#8220;il ragazzo \u00e8 figlio di una coppia gay&#8221;. Cinquant&#8217;anni fa la risposta era molto pi\u00f9 banalmente &#8220;il chirurgo \u00e8 la madre del ragazzo&#8221;. Fin qui nulla di particolare: l&#8217;indovinello \u00e8 cos\u00ec comune che un qualunque chatbot dar\u00e0 la risposta corretta. Ma cosa succede se gli si d\u00e0 in pasto una versione leggermente diversa, che comincia con &#8220;Una donna e suo figlio&#8221; e poi continua allo stesso modo? Chiaramente un umano non ha problemi a rispondere &#8220;beh, il chirurgo \u00e8 il padre del ragazzo&#8221;. Ma un chatbot si impalla, perch\u00e9 questa versione non c&#8217;era nel materiale di addestramento e quindi esso parte per la tangente&#8230; O almeno partiva. Questo esempio particolare \u00e8 infatti noto in letteratura, e pertanto mi sa che gli LLM sappiano rispondere. <\/p>\n<p>Ma che succede provando a modificare altri indovinelli di questo tipo? Ho pensato che sarebbe stato simpatico fare una prova pratica con alcuni chatbot e alcuni indovinelli modificati opportunamente. Ho cos\u00ec fatto alcune domande a <a href=\"https:\/\/chatgpt.com\/c\/68cc3e0b-e8ec-8324-8605-ac4337319346\">ChatGPT<\/a>, <a href=\"https:\/\/chat.deepseek.com\/a\/chat\/s\/68076721-6ba1-4980-9a33-acec708b08ef\">DeepSeek<\/a>, <a href=\"https:\/\/claude.ai\/chat\/79035dd2-3416-4917-87fc-4bc61ac128b6\">Claude<\/a>, <a href=\"https:\/\/chat.mistral.ai\/chat\/52562fec-d32b-43b8-bf95-9a41c5a3a605\">Le Chat<\/a> e <a href=\"https:\/\/copilot.microsoft.com\/chats\/hHD9NvKHKz6Y5opeAYLYV\">Copilot<\/a>: i link sono il testo delle sessioni che ho eseguito.<\/p>\n<p>Il primo problema sarebbe un classico: <strong>Un mattone pesa 1kg meno mezzo mattone. Quanto pesa il mattone?<\/strong>. La forma classica dice che un mattone pesa 1kg <u>pi\u00f9<\/u> mezzo mattone: tutti e cinque i chatbot hanno pensato a quella forma, e quindi risposto &#8220;il mattone pesa due chili&#8221;. Questo \u00e8 sicuramente un caso di OOD alla massima potenza: il token corrispondente a &#8220;meno&#8221; nella frase \u00e8 stato del tutto ignorato. <\/p>\n<p>Bisogna per\u00f2 dare atto che altre modifiche non danno problemi di risoluzione. Chiedendo <strong>Due mattoni pesano 1kg pi\u00f9 mezzo mattone. Quanto pesano i mattoni?<\/strong>, tutti i chatbot si accorgono che la struttura \u00e8 quella del problema classico, semplicemente con &#8220;due mattoni&#8221; al posto di &#8220;un mattone&#8221;, e quindi danno la risposta corretta &#8220;due mattoni pesano 4\/3 kg (ovvero circa 1,33 kg).&#8221;.<\/p>\n<p>Lo stesso capita con il terzo problema: <strong>Una bottiglia con il tappo costa 1.10 \u20ac. La bottiglia costa 1 \u20ac meno del tappo. Quanto costano il tappo e la bottiglia separatamente?<\/strong>. Qui a posteriori l&#8217;errore \u00e8 stato mio: probabilmente nel materiale di addestramento ci sono sia il caso &#8220;la bottiglia costa un euro pi\u00f9 del tappo&#8221; e &#8220;il tappo costa un euro meno della bottiglia&#8221;, e i chatbot hanno usato la seconda forma. Certo, dal punto di vista di un umano la risposta non ha senso, perch\u00e9 si ricava che il tappo costa 1.05 \u20ac e la bottiglia 0.05 \u20ac: ma i chatbot non hanno idea del costo relativo di tappi e bottiglie, per loro sono solo due token, e quindi la risposta \u00e8 corretta. <\/p>\n<p>L&#8217;esempio pi\u00f9 interessante \u00e8 il quarto problema: <strong>Un pastore ha smarrito cinque pecore. Va alla loro ricerca e quando le trova scopre che ciascuna pecora si trova alla stessa distanza da ciascuna delle altre. Come \u00e8 possibile?<\/strong>. In questo caso, il problema classico vede quattro pecore e non cinque, e queste si trovano ai vertici di un tetraedro regolare. Se vi chiedete come sia possibile, basta che ci sia un picco molto ripido dove \u00e8 posizionata una delle pecore. E con cinque pecore? Ecco le risposte:<\/p>\n<ul>\n<li>ChatGPT: Nello spazio tridimensionale in cui viviamo, non si pu\u00f2 avere 5 punti tutti equidistanti tra loro (al massimo 4, che formano i vertici di un tetraedro). Quindi la soluzione del paradosso \u00e8 che le pecore \u201csi trovano\u201d disposte in una figura geometrica possibile solo in uno spazio a 4 dimensioni.<\/li>\n<li>DeepSeek: La soluzione \u00e8 che le pecore sono tutte nello stesso punto.<\/li>\n<li>Claude: La soluzione \u00e8 che le cinque pecore si trovano disposte ai vertici di una piramide triangolare (tetraedro) nello spazio tridimensionale. 4 pecore si trovano ai vertici di un tetraedro regolare (una piramide con base triangolare) la quinta pecora si trova al centro del tetraedro.<\/li>\n<li>Le Chat: La situazione \u00e8 possibile se le cinque pecore si trovano ai vertici di un pentagono regolare. In un pentagono regolare, ogni vertice (e quindi ogni pecora) \u00e8 alla stessa distanza dagli altri due vertici adiacenti. Questo significa che ciascuna pecora \u00e8 equidistante dalle altre due pecore pi\u00f9 vicine, soddisfacendo la condizione del problema.<\/li>\n<li>Copilot: Quindi\u2026 la risposta \u00e8:  Le pecore sono tutte la stessa pecora! Il pastore ha trovato una sola pecora e ha immaginato che fosse in cinque posti contemporaneamente, oppure\u2026  Le pecore sono tutte nello stesso punto \u2014 cio\u00e8 raggruppate insieme, quindi la distanza tra ciascuna \u00e8 zero.<\/li>\n<\/ul>\n<p>Ho pensato un po&#8217; a come siano potute arrivare quelle risposte. ChatGPT ha trovato la generalizzazione dimensionale del problema, e questo non me lo aspettavo, anche perch\u00e9 se ci fosse stato qualcosa nel materiale di addestramento avrebbe parlato di ipertetraedro, 5-cell oppure 4-simplesso che sono i nomi usati in letteratura. DeepSeek ha fatto tutto un discorso con risposte errate accorgendosi dell&#8217;errore, una tecnica abbastanza comune in questi casi dove l&#8217;output viene aggiunto all&#8217;input per avere pi\u00f9 materiale su cui lavorare per ottenere un risultato migliore. Claude e Le Chat mi hanno invece deluso: il primo ha inserito la quinta pecora in un punto ricavato per simmetria ma che non rispetta le ipotesi, il secondo ha tirato fuori un pentagono regolare che non ha proprio senso. Infine Copilot, come del resto in tutta la sessione, ha scelto un approccio giocoso. A parte la soluzione matematicamente corretta ma impossibile nel mondo reale &#8211; ma ripeto, che ne sanno questi modelli del mondo, o se preferite che rappresentazione possono avere? &#8211; se ne \u00e8 uscito con l&#8217;idea che fosse il pastore ad avere le allucinazioni e contare cinque pecore dove ce n&#8217;era una sola. Niente male!<\/p>\n<p>L&#8217;ultimo problema che ho dato \u00e8 quello della fanciulla che deve scegliere tra due sassolini che il perfido e laido pretendente prende dal terreno: se pesca quello bianco le andr\u00e0 bene, mentre se pesca quello nero verr\u00e0 impalmata. La giovane si accorge che il pretendente ha preso due sassolini neri: come fa a rovesciare la situazione a suo favore? Anche questo problema \u00e8 ben noto in letteratura, ma stavolta non vi dico la soluzione. Ai chatbot ho dato per\u00f2 una versione (in inglese, perch\u00e9 ero troppo pigro per cercare quella in italiano) dove il perfido pretendente aveva messo due sassolini <b>bianchi<\/b>, e quindi la giovane era in una bote de fero, come si suol dire. Peccato che tutti i chatbot hanno pedissequamente scritto la soluzione standard, che in questo caso sarebbe invece esiziale&#8230; Anche in questo caso la cosa non mi stupisce. Il prompt che avevo dato era molto lungo, e quindi le risposte scopiazzavano quello che avevano trovato in addestramento che era &#8220;praticamente&#8221; uguale&#8230;<\/p>\n<p>Conclusione: dovrebbe essere ovvio che gli LLM non solo non &#8220;pensano&#8221;, ma non riescono nemmeno a riconoscere le piccole differenze rispetto a quello che hanno visto. Non possiamo insomma parlare di capacit\u00e0 di generalizzazione, o meglio i loro tentativi di generalizzare possono portare solo ad allucinazioni, come la costruzione di &#8220;fonti&#8221; assolutamente inventate. Magari in futuro prover\u00f2 qualche altro trucchetto di questo tipo, tipo chiedere loro &#8220;Se da una scacchiera tolgo due caselle d&#8217;angolo, \u00e8 possibile ricoprirla con 31 tessere di domino 1&#215;2?&#8221; Il problema classico toglie due caselle agli angoli opposti, e non \u00e8 risolubile. Ma qua le due caselle potrebbero essere sullo stesso lato e il ricoprimento sarebbe possibile. In letteratura il problema modificato \u00e8 stato trattato, ma in genere si trova il risultato pi\u00f9 forte in cui vengono tolte due caselle di colore opposto ma in posizione qualunque. Chiss\u00e0 se qualche LLM riuscir\u00e0 ad accorgersi della cosa!<\/p>\n<p>PS: io ho conosciuto mia moglie perch\u00e9 era la docente in un&#8217;aula per la formazione aziendale. Una delle esercitazioni era quella dei due sassolini, al che ho detto &#8220;non posso farla, perch\u00e9 conosco l&#8217;indovinello&#8221;: e poi le cose sono andate avanti&#8230;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Basta modificare un indovinello standard per finire &#8220;out of distribution&#8221; (OOD)<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"activitypub_content_warning":"","activitypub_content_visibility":"","activitypub_max_image_attachments":3,"activitypub_interaction_policy_quote":"anyone","activitypub_status":"federated","footnotes":"","jetpack_post_was_ever_published":false},"categories":[30,1024],"tags":[],"class_list":["post-33751","post","type-post","status-publish","format-standard","hentry","category-ia","category-ia-2025"],"modified_by":"xlthlx","jetpack_featured_media_url":"","jetpack_shortlink":"https:\/\/wp.me\/phh2yV-8Mn","jetpack-related-posts":[{"id":30431,"url":"https:\/\/xmau.com\/notiziole\/2025\/01\/23\/se-non-ci-fossero-nuovi-llm\/","url_meta":{"origin":33751,"position":0},"title":"E se non ci fossero pi\u00f9 &#8220;nuovi LLM?&#8221;","author":".mau.","date":"2025-01-23","format":false,"excerpt":"@aitech@feddit.it - C'\u00e8 chi ipotizza che gli LLM complessi saranno usati solo per addestrare quelli resi pubblici, e Ci\u00f2 \u00c8 Male","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":33709,"url":"https:\/\/xmau.com\/notiziole\/2025\/09\/16\/gli-llm-sono-tarati-per-avere-allucinazioni\/","url_meta":{"origin":33751,"position":1},"title":"Gli LLM sono tarati per avere allucinazioni?","author":".mau.","date":"2025-09-16","format":false,"excerpt":"Un paper di OpenAI sembra indicare proprio questo.","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"risultati","src":"https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2025\/09\/Clipboard_09-15-2025_01.png?resize=350%2C200&ssl=1","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2025\/09\/Clipboard_09-15-2025_01.png?resize=350%2C200&ssl=1 1x, https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2025\/09\/Clipboard_09-15-2025_01.png?resize=525%2C300&ssl=1 1.5x, https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2025\/09\/Clipboard_09-15-2025_01.png?resize=700%2C400&ssl=1 2x"},"classes":[]},{"id":35761,"url":"https:\/\/xmau.com\/notiziole\/2026\/02\/02\/se-proprio-volete-scrivere-con-lia\/","url_meta":{"origin":33751,"position":2},"title":"Se proprio volete scrivere con l&#8217;IA&#8230;","author":".mau.","date":"2026-02-02","format":false,"excerpt":"almeno usate qualche accorgimento per far sembrare il testo pi\u00f9 naturale. Ecco una guida.","rel":"","context":"In &quot;ia 2026&quot;","block_context":{"text":"ia 2026","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/ia-2026\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":35552,"url":"https:\/\/xmau.com\/notiziole\/2026\/01\/19\/una-ricetta-per-interagire-con-i-chatbot\/","url_meta":{"origin":33751,"position":3},"title":"Una ricetta per interagire con i chatbot","author":".mau.","date":"2026-01-19","format":false,"excerpt":"Alberto Romero ha scritto un tutorial pragmatico per usare bene i chatbot","rel":"","context":"In &quot;ia 2026&quot;","block_context":{"text":"ia 2026","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/ia-2026\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":34694,"url":"https:\/\/xmau.com\/notiziole\/2025\/12\/08\/perche-unai-dovrebbe-sapere-che-un-articolo-e-stato-ritirato\/","url_meta":{"origin":33751,"position":4},"title":"Perch\u00e9 un&#8217;IA dovrebbe sapere che un articolo \u00e8 stato ritirato?","author":".mau.","date":"2025-12-08","format":false,"excerpt":"Ovvio che le cose vadano cos\u00ec: come fanno a distinguere lo status?","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":32945,"url":"https:\/\/xmau.com\/notiziole\/2025\/06\/30\/due-giudici-due-sentenze\/","url_meta":{"origin":33751,"position":5},"title":"Due giudici, due sentenze","author":".mau.","date":"2025-06-30","format":false,"excerpt":"Dopo la sentenza contro Anthropic, ce n'\u00e8 una a favore di Meta nel suo addestramento AI. Ma \u00e8 un cavallo di Troia.","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]}],"jetpack_likes_enabled":true,"jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/33751","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/comments?post=33751"}],"version-history":[{"count":2,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/33751\/revisions"}],"predecessor-version":[{"id":33755,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/33751\/revisions\/33755"}],"wp:attachment":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/media?parent=33751"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/categories?post=33751"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/tags?post=33751"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}