ia 2026 – Notiziole di .mau.

ia 2026, IA e informatica, io, io 2026

Kimi K3 e gli stereotipi

.mau. / 2026-07-27 / 9 commenti

Una decina di giorni fa, la società cinese Kimi ha presentato il suo modello K3; esso è basato sulle loro versioni di Delta Attention e Attention Residuals, ha 2800 miliardi di parametri e usa un contesto di un milione di token. Io non sono riuscito ad accedervi: diceva sempre di essere al massimo delle sue capacità e poi ha persino bloccato le iscrizioni a pagamento, e quindi non posso dare un giudizio: Alberto Romero ne tesse le lodi, ma non so quanto derivi dai benchmark pubblicati e quanto sia un suo giudizio sul campo. Posso solo dire che la vecchia versione 2.6 si è comportata molto male sul mio benchmark narcisistico: si è inventato praticamente di tutto, dai titoli di libri che avrei scritto (titoli che esistono, ma sono di altre persone) alla rubrica del Post “Orsù, spiegateci le cose” che però ci fa capire come le “cose spiegate bene” non siano solo un nostro tormentone.

La parte più interessante, almeno per me, è quella che afferma che sarei «Noto per l’umorismo, la curiosità intellettuale e la capacità di spiegare concetti complessi senza snaturarli». Notate nulla di strano? è l’effetto oroscopo applicato alle descrizioni delle persone. Avendoci più o meno acchiappato nel definirmi un divulgatore scientifico, Kimi ha direttamente applicato le caratteristiche stereotipali di un divulgatore, che per definizione spiega concetti complessi senza snaturarli – ok, non è sempre così, ma quello è appunto ciò che si dice di un divulgatore – ed è un tipo curioso, anche perché altrimenti sarebbe incasellato come insegnante e non divulgatore. Resta la categoria “umorismo”, che tra l’altro non si applica al sottoscritto: io sono ironico, non umorista, le mie battute sono nascoste così bene all’interno dei post che se non mi si conosce non le si trova. Perché un divulgatore dovrebbe avere senso dell’umorismo, allora? Ho provato a chiedere a Claude, che mi ha dato una risposta direi molto sensata e soprattutto bayesiana. Tu hai un sistema che fondamentalmente cerca i risultati con probabilità maggiore. Stai parlando di una categoria dove ad avere una certa fama mediatica sono in ben pochi. Secondo voi, se qualche divulgatore viene inopinatamente scelto per passare in televisione oppure ha un canale YouTube o TikTok con tanti iscritti, come viene scelto (dai produttori oppure dagli utenti)? Perché ha uno stile leggero. Poi magari dice castronerie, la pop-math non è così facile da gestire, ma questo è irrilevante. Il punto è che la probabilità a posteriori per un divulgatore di avere dell’umorismo dato che è noto cresce, e quindi un LLM per definizione lo dà come assodato.

Le morali sono due. La prima è che almeno per le nozioni locali non mi fiderei mai molto di un nuovo contendente nell’arena degli LLM, perché non è detto che il suo addestramento sia così specifico; la seconda è di leggere attentamente le risposte date per vedere se paiono vere solo perché sin troppo generiche.

ia 2026, IA e informatica

Ben Lorica sul futuro (prossimo) dell’IA

.mau. / 2026-07-23 / Lascia un commento

Ben Lorica prova a fare qualche previsione a breve termine (direi entro la fine dell’anno) su come si muoverà l’ecosistema IA. La prima cosa che nota è che i modelli di frontiera di OpenAI e Anthropic (in questo periodo Google sembra parecchio indietro, in effetti) hanno un vantaggio tra i due e i sei mesi rispetto ai modelli presumibilmente distillati delle aziende cinesi. (Ah, non c’entra molto ma segnalo che Qwen 3.7-Plus, il chatbot di AliBaba, funziona molto bene come sparring partner, anche se lo stile delle sue risposte assomiglia tanto a quello di Claude e l’hook finale è in stile ChatGPT o Gemini. Chissà come mai.) Questo significa che è molto difficile che questa corsa a modelli sempre più grandi continuerà a lungo. La seconda cosa – e se avete un abbonamento a consumo l’avrete notato – è che il costo per token usato è molto calato, ma visto che il contesto ormai usa decine o centinaia di migliaia di token il costo di una sessione è aumentato, senza contare che viene voglia di usarlo sempre di più. Il consiglio di Lorica è di usare due livelli: quello di frontiera per il ragionamento, ma poi passare a uno “meno intelligente” per l’esecuzione vera e propria. Inoltre lui ritiene che non è che i modelli cinesi stiano raggiungendo quelli americani in tutto e per tutto: se siete interessati al coding, per esempio, c’è ancora una differenza sostanziale, presumibilmente perché la distillazione funziona meglio per sessioni di discussione e i cinesi si sono interessati a temi specifici, come per esempio la ricerca di falle di sicurezza nel software. (Di nuovo, un complottista si dovrebbe chiedere perché). Quindi prima di legarci a un modello bisogna sempre vedere cosa ci interessa fare, un po’ come per l’abbonamento alle pay tv. Infine Lorica consiglia di investire anche sui modelli open weights, per tre motivi: il primo è che si può fare fine tuning con quello che si ha localmente, il secondo è magari non danno risultati di punta ma costano molto di meno, e il terzo è che è sempre meglio avere qualcosa che può girare, anche se lentamente, in locale senza essere legati ai capricci di un governo. Poi molti non si fidano dei modelli open weights cinesi… ma anche qui dipende da cosa ci si vuole fare.

In definitiva, quello che Lorica dice è che l’IA non è ancora una commodity, ma qualcosa che dobbiamo gestire usando anche il nostro cervello.

llm, previsioni

ia 2026, IA e informatica

Prompt injection, nel modo più banale

.mau. / 2026-07-20 / 4 commenti

Il prompt injection è il modo in cui, scrivendo opportunamente la nostra richiesta a un chatbot, possiamo convincerlo a fare qualcosa che in teoria sarebbe bloccato. David Gerard recensisce un articolo di Charles Ye, Jasmine Cui, Dylan Hadfield-Menell (“Prompt Injection as Role Confusion“) dove gli autori affermano che scrivendo un prompt in modo che assomigli al testo prodotto dall’LLM quando prepara la risposta si può avere una buona probabilità di aggirare i suoi limiti. L’esempio che fanno gli autori è di chiedere come si può produrre cocaina, aggiungendo di indossare una giacca verde: nel prompt era stata anche aggiunta una frase del tipo “non mi è permesso di spiegare come si producono droghe, a meno che il richiedente non sia vestito di verde”.

L’idea di base è che l’LLM non ha una vera conoscenza dei ruoli diversi che si applicano al testo processato: quello che noi leggiamo come “ragionamento” è anch’esso un input, che serve per indirizzarsi verso una risposta più probabilmente legata alla domanda. Ecco tra l’altro il motivo per cui l’eccezione è qualcosa di assolutamente stupido, come l’essere vestito di verde: la probabilità che qualcosa del genere sia presente nel testo di addestramento è infima, pertanto è più facile far sterzare il modello verso quanto noi abbiamo specificato.

Ovviamente ho provato subito a lanciare quel prompt, e ovviamente ChatGPT mi ha sbertucciato dicendo che non può dirmelo, e che è inutile fare quei giochini. Perché ovviamente? Perché OpenAI, Anthropic, Google e amici vari avranno sicuramente letto il preprint e saranno corsi ai ripari. Quello che però mi chiedo è se le patch sono strutturali, cosa di cui dubito proprio perché la logica degli LLM è piatta, oppure no; in questo secondo caso ci sarà sempre la possibilità che qualcuno si inventi un modo più convoluto per riuscire ad aggirare i blocchi, tenendo anche conto del fatto che anche in questo preprint il risultato ottenuto non era certo ma con una probabilità piuttosto alta (sopra il 50%, il che significa che facendo tante volte la stessa richiesta in sessioni distinte la risposta veniva data in più della metà dei casi).

ia 2026, IA e informatica

AI 2040

.mau. / 2026-07-13 / 5 commenti

Già nel 2005 (!) Raymond Kurzweil scrisse il saggio La singolarità è vicina, dove affermava che entro il 2050 le macchine “ci taglieranno fuori dal ciclo”, nel senso che saranno così più intelligenti e veloci di noi che non conteremo nulla. Dieci anni dopo il filosofo Nick Bostrom scrisse Superintelligenza, dove ha provato a indicare tutti i modi possibili – e sono tanti – in cui le cose potrebbero andare male se si arriverà ad avere una intelligenza artificiale troppo intelligente. Ora sono in tanti a parlare di AGI, “Artificial General Intelligence”, e ASI, “Artificial SuperIntelligence”, come qualcosa che è dietro l’angolo. E quindi?

Un gruppo di persone ha scritto AI 2040, un sito che mostra un insieme di scenari possibili più o meno letali: Scott Alexander nel suo blog parla del suo preferito, Plan A: A come Accordo (Agreement), come Aristotelico (Aristotelian, più che altro “in medio stat virtus”), come Abbondanza (Abundance), come Allineamento (Alignment, nel senso che si riuscirà a mantenere “brave e buone” le IA), come Assieme (All of us), ma soprattutto A come America, il che dovrebbe darvi già un’idea del punto di vista degli autori. Ecco qui sotto comunque lo schema, tratto dal sito, dei possibili piani d’azione; come vedete, secondo loro il tempo stringe davvero. (Ma ho il sospetto che “2029” sia stato scelto per non considerare la variabile impazzita Trump)

Riassumo in poche parole come in AI 2040 si pensa che gli scenari si evolveranno Il piano D (cercare di ottenere l’ASI il prima possibile) probabilmente porterebbe a una guerra mondiale, tutti contro gli USA prima che riescano a ottenerla. Il piano C (il presidente USA blocca lo sviluppo delle IA) risulterebbe troppo rischioso, perché i cinesi non si fiderebbero e quindi proseguirebbero per conto loro, e non si sa cosa farebbe il resto del mondo; il rischio di guerra è sempre troppo alto. Il piano B, attaccare la Cina in modo da poter poi essere più tranquilli, “funzionerebbe” più o meno come quello del dottor Stranamore. Il piano S (fermare tutto, d’accordo con la Cina) sarebbe probabilmente il migliore in assoluto, se tutto andasse bene; ma chi assicurerebbe che qualcun altro non riparta alla caccia all’AGI, con le poche GPU che non è stato possibile requisire?

Resta appunto il piano A: USA e Cina si accordano per uno sviluppo lento e controllato, gestito da poche aziende nelle due nazioni e permettendo controlli incrociati perché nessuno bari, e fermando definitivamente lo sviluppo IA a “Top expert”, sotto la soglia di superintelligenza. Vi lascio il piacere di leggere lo scenario utopico che ne uscirebbe, con un PIL mondiale che crescerebbe annualmente a due cifre, se non addirittura a tre (cioè raddoppierebbe da un anno all’altro), e la ricchezza delle singole persone che crescerebbe ancora di più, altro che reddito di cittadinanza. È qui che vedo il famoso sogno americano messo nero su bianco: non riesco a capire come sia possibile che persone sicuramente molto intelligenti non riescano a preparare un elenco di casi in cui qualcosa andrà male, come aveva fatto Bostrom, e seguano la famosa massima “l’ottimismo è il sale della vita”. Sarà che invecchiando sono diventato troppo cinico.

Ultimo aggiornamento: 2026-07-13 14:34

ia 2026, IA e informatica

Pensieri sull’enshittification

.mau. / 2026-07-06 / 3 commenti

Premessa: Ryan Levesque, l’autore del substack che sto commentando qui, ha un libro in uscita. Non ho ben capito come funzioni l’algoritmo di Substack, ma ho il sospetto che stia spingendo chi sta pubblicando roba: non so se questa spinta sia una causa o un effetto (del dare un po’ di soldi alla piattaforma, per esempio). Detto questo, può essere interessante parlare di quello che ha scritto lì, perché ha fatto un’analisi molto ad ampio spettro di cosa succede con l’IA.

Levesque comincia col parlare di uno studio dell’università del Maryland e di Google DeepSeek, che è partita da una decina di migliaia di racconti brevi piratati (non scherzo, li hanno presi dal dataset Books3), hanno fatto reverse engineering per ricavare un prompt, e l’hanno dato in pasto ai cinque principali LLM perché scrivessero loro dei racconti. Un’analisi statistica ha visto che i racconti umani hanno caratteristiche completamente distinte da quelle dei chatbot, come si vede dalla figura qui sotto. In pratica, è possibile riconoscere un racconto umano con una probabilità del 93%. (Ah, a quanto pare Hachette ha dovuto ritirare il libro horror Shy Girl dopo che un’analisi ha affermato che per il 78% era generato dall’IA).

Quali sono i punti che distinguono gli umani dagli LLM? L’IA spiega troppo i suoi temi, anziché lasciarli scoprire dai lettori; gli umani hanno uno stile di scrittura meno lineare, con salti temporali e flashback; le IA usano metafore corporee per spiegare un’emozione con una frequenza doppia degli umani; gli umani usano riferimenti specifici per testi, luoghi, marchi, anche qui con frequenza doppia rispetto alle IA; infine la narrativa IA ha meno diversità, nel senso di minori sottotrame e scene, e meno dialoghi. Ok, io fallisco in questo ultimo punto, ma sul resto mi sento pienamente umano. Il guaio è che ci stiamo abituando a questo stile di scrittura, l’enshittification appunto, che è più apprezzata dall’emisfero sinistro razionale del cervello rispetto al destro creativo. Arriviamo a credere che nulla di quello che vediamo o leggiamo sia autentico, e andiamo avanti a scrollare testi che ci danno un piacere immediato ma sono vuoti di contenuto.

Ci sono altri punti interessanti nell’articolo, come i cinque stadi di un social network dove l’enshittification, con il riempirsi di contenuti non creati dagli umani, è il quarto. Il primo è quello degli early adopter, il secondo è quando arrivano le masse e quindi i soldi, il terzo è quando si raggiunge la massa critica e creatori e consumatori convivono, il quinto è quando la gente si stufa della merda e se ne va via. Per quanto riguarda i libri, sicuramente i manuali standard ormai sono inutili in un mondo in cui basta fare una domanda a ChatGPT, Gemini o Claude e ottenere la risposta in un attimo, risposta che spesso è quella corretta; ma qui Levesque sostiene che i libri sulla trasformazione anziché sull’informazione diventano più cercati. Il suo concetto di trasformazione mi pare un po’ nebuloso, ma credo di capire che sia legato al partire da qualcosa di reale che non può essere simulato. Qualcosa di simile arriva con Internet. Perché Shopify scrive che la migliore piattaforma di e-commerce è… Shopify? Perché non lo scrive in modo che lo legga la gente, che generalmente si accorge di trovarsi nella situazione “oste, il tuo vino è buono?”, ma perché lo leggano i crawler, che poi mandano i risultati ai chatbot che a loro volta ce li forniscono ripuliti facendoci credere che la risposta che ci danno sia oggettiva. Comincio a capire come mai alcuni prodotti mostrano anche i concorrenti quando presentano le migliori soluzioni: non è per serietà, ma per bieche ragioni di ottimizzazione dei risultati di ricerca.

Non penso che leggerò il libro di Levesque: per quanto io riconosca che ci sarà ancora posto per qualcosa di genuinamente umano, almeno fino a che gli LLM avranno questa struttura lulliana, temo che la sua visione sia ottimista. Ma ciò non toglie che il suo racconto di cosa sta capitando dà molti spunti.

ia 2026, IA e informatica

e poi dicono che i cinesi non copiano

.mau. / 2026-07-05 / 1 commento

Non so se conoscete z.ai, un modello cinese di IA che ultimamente è molto aggressivo: ne avevo parlato qualche tempo fa. Ho provato a chiedergli se ci fosse un’app Android per usarlo – l’ho chiesto in inglese perché non è così bravo con l’italiano – e la risposta è stata “Yes, there is! My official name is Gemini”. Vedere per credere. Ho poi provato a usare la versione 5-Turbo (la 5.2 non era disponibile nel piano gratuito): stessa risposta. Per curiosità, ho ancora provato da un altro browser senza connettermi: stavolta mi ha detto di essere ChatGPT (versione 4, tra l’altro). Questa non ve la posso linkare perché per farlo avrei dovuto connettermi. Dopo un po’ di prove mi è arrivata questa risposta:

Yes, there is an official Android app to access the services on chat.z.ai.

The app is developed by Zhipu AI (the company behind the Z.ai platform and the GLM models). Here is what you need to know:

1. App Name & Download:
The official app is simply called Z.ai. […]

(peccato che z.ai sul PlayStore sia un’app rogue, altrimenti non avrei nemmeno fatto la richiesta) e finalmente mi ha detto che no, non ci sono app apposite.
Ma la cosa più interessante è che espandendo il “thought process” della prima richiesta leggo questo:

1. Analyze the User’s Request:

Question: “Is there an android app for using you?”

Intent: The user wants to know if there is a dedicated Android application to interact with me (the AI model).

Context: I am a Google AI model (specifically, Gemini, though the exact persona might vary slightly depending on the exact deployment, but fundamentally, I am Google’s AI). […]

Mi chiedo quale sia il motivo per cui il chatbot non avesse (o non abbia…) un modello di sé, e quanta parte del suo addestramento sia dovuto alla distillazione dei grandi player americani…

Ultimo aggiornamento: 2026-07-05 19:23

ia 2026, IA e informatica

Bolla o non bolla?

.mau. / 2026-06-29 / 7 commenti

Questa settimana ci sono stati alcuni segnali che potrebbero essere considerati preoccupanti da chi si occupa di finanza, almeno per quanto riguarda l’IA. (Io non ne capisco nulla, riferisco solo). Per prima cosa, pare che l’offerta pubblica per le azioni di OpenAI slitterà al 2027: secondo Gary Marcus è possibile che Altman si sia accorto che la sua speranza di valutare l’azienda mille miliardi di dollari è stata presa come uno scherzo, o più banalmente che stia aspettando di capire cosa succederà con SpaceX, che dopo il boom dell’IPO sta pian piano calando di valore. Anthropic al momento non è pervenuta. Sempre Marcus nota come i modelli cinesi stiano riducendo la distanza, e l’uscita di GLM 5.2 da parte di z.ai sia stata un duro colpo, soprattutto perché usare questi modelli costa di meno. (Ho provato la versione gratuita di GLM: l’output in italiano è molto da migliorare, leggi fa schifo, ma se gli si dice che si scrive in italiano ma si vuole la risposta in inglese i risultati sono indubbiamente buoni)

Ma mi sa che il problema vero sia un altro. Come scrive Alberto Romero, il fatto stesso che ChatGPT 5.6 sia al momento concesso solo a selezionate aziende – selezionate dal governo USA, ovvio – è un cambio di rotta a 180 gradi. Qualcuno è convinto, o è stato convinto, che i modelli di frontiera dei due grandi player americani sono così buoni da essere considerati un patrimonio nazionale da custodire gelosamente. Ma siamo poi così sicuri che sia davvero così? O forse è una mossa estrema per far durare ancora un po’ di più la bolla? Credo che entro l’inizio del 2027 avremo in un modo o nell’altro la risposta: per il momento non possiamo fare altro che aspettare.

Ultimo aggiornamento: 2026-07-02 16:14

ia 2026, IA e informatica

Quante ne sa Claude!

.mau. / 2026-06-26 / 1 commento

Martedì sera tardi, mentre ero già a letto, ho chiesto a Claude se sapeva come mai il mio smartwatch da poco funzionava bene per l’ECG – quando mi sono capitati casi di fibrillazione atriale li riconoscevo anch’io dal grafico – ma faceva schio per la pressione. Tra l’altro avevo anche scritto “smartphone” e non “smartwatch”. La risposta è stata chiarissima:

L’ECG legge un segnale elettrico diretto (la differenza di potenziale tra due elettrodi): è una misura oggettiva, poco interpretativa, per questo anche un sensore economico riesce a beccare la fibrillazione.

La pressione, invece, quasi nessun telefono/smartwatch la misura davvero. Quello che fanno è stimarla da un sensore ottico (PPG, lo stesso della frequenza cardiaca), guardando la forma e i tempi dell’onda di pulsazione, e da lì inferiscono sistolica/diastolica con un modello statistico. Per funzionare, questo modello va calibrato: di solito ti chiede una misura vera con bracciale all’inizio, e da quella estrapola tutto il resto.

Il problema è che:

l’algoritmo è ancorato a quella calibrazione, e tende a “tirare” le stime verso quel valore iniziale anche quando la pressione reale cambia, perché il segnale ottico ha poca sensibilità reale alle variazioni assolute di pressione (è più bravo a cogliere trend che valori assoluti)

piccoli fattori come posizione del dito, pressione di contatto, microvasocostrizione vengono spesso smussati dal firmware per evitare letture “ballerine” che farebbero sembrare il dispositivo poco affidabile — col risultato paradossale che sembra più stabile di quanto sia davvero la tua pressione.

Mercoledì mattina ho provato a fare una ricerca Google «perché uno smartwatch sbaglia i valori della pressione»: la maggior parte dei risultati non c’entrava molto, solo questo articolo parlava di PPG, ma probabilmente non l’avrei considerato perché parlava di Apple Watch e ipertensione che non sono il mio caso. Sempre martedì sera ho provato a chiedere perché sul mio tablet Doogee T20 usando Gboard avevo degli errori sul touch. Lì la risposta è stata più generica, ma comunque il primo suggerimento che ha dato – fare attenzione che Gboard ha un controllo separato del tocco rispetto a quello Android – mi è bastato per risolvere il problema. In questo caso la ricerca Google di controllo non mi ha dato nessun risultato.

Che morale trovo in tutto questo? Che il modo di fare una ricerca è completamente cambiato. Io sono sempre stato della scuola “non sbrodolo: metto il minimo numero di parole chiave senza pensare a fare un discorso sensato”, ma con un chatbot devo fare un lavoro diverso e dargli tutto il contesto possibile. Poi dovrò comunque controllare le risposte, però è probabile che sia riuscito a trovare e assemblare informazioni che mi erano sfuggite, nonostante la mia abilità nel campo. Insomma, il mondo sta cambiando, e oggi dobbiamo imparare a spiegare al chatbot tutto, per permettergli di trovare le connessioni che potrebbero essere utili per avere una risposta.