Archivi categoria: IA e informatica

IA autoctona russa?

Leggo su Pivot to AI che Russia e Bielorussia, oltre che cercare di bloccare le connessioni internet, vogliono crearsi il modello IA “fatto in casa”. Più precisamente, leggendo la traduzione (spero corretta… il mio russo è nullo) di questo articolo, troviamo scritto che dal 2027 si potranno solo usare “modelli che hanno ottenuto una certificazione di sicurezza, elaborano i dati esclusivamente all’interno della Russia e la cui qualità è stata confermata dagli organismi di regolamentazione del settore.” Peccato che a quanto pare non ci siano abbastanza documenti in russo di libero accesso… (In realtà non è detto che i testi debbano essere rigorosamente scritti in russo: però se i dati devono anche essere prodotti in Russia in effetti la cosa diventa più complicata.

La cosa buffa è che probabilmente se si partisse da un modello non autarchico e poi lo si contaminasse usando i dati voluti dal governo russo il risultato pratico sarebbe molto simile a quello voluto, senza tutti questi problemi…

Non fatevi creare una password dalle IA

Il Register ha riportato che a febbraio la società di sicurezza IA Irregular ha fatto un esperimento: in sessioni diverse ha chiesto ai principali modelli IA di generare password “forti”, di 16 caratteri con maiuscole, minuscole, cifre e caratteri. I risultati sono stati pessimi: per esempio Claude 4.6 su cinquanta prompt ha dato solo 30 password diverse mentre altre 20 erano già apparse. Per la precisione, una stessa stringa è stata emessa 18 volte! Risultati simili sono arrivati con ChatGPT e Gemini.

Sono ragionevolmente certo che le nuove versioni dei sistemi hanno corretto questo comportamento: non ci vuole molto a inferire da un prompt che occorre qualcosa di casuale e lanciare un agente che generi effettivamente una stringa (pseudo)casuale. Non è poi qualcosa di tanto diverso dall’avere cominciato a usare le ricerche web per aggiungere informazioni a quanto catturato dai parametri del modello. Se non si fa così, il mero calcolo delle probabilità fa sì che la risposta che viene generata si allinei su una stessa linea, quella della password ripetuta uguale 18 volte. Il punto, come al solito, è che per fare questo passaggio e arrivare a usare un generatore esterno di numeri (o password, come in questo caso) casuali bisogna pensarci su a priori… o aspettare che qualcuno te lo faccia notare. Io credo che – se mai arriveremo davvero all’AGI, l’intelligenza artificiale generale – questo capiterà perché qualcuno è riuscito a trovare il modo di costruire un metamodello, che guarda da un punto di vista più astratto i risultati e veda cosa potrebbe mancare e si immagini un modo per ottenerlo a partire dagli strumenti che ha. Se volete potete chiamare questo livello “creatività”: ma più che le etichette secondo me quello che importa è appunto una visione più generale.

Bixonimania

Non è certo la prima volta che qualcuno ha fatto in modo da prendere per i fondelli i chatbot. Né è la prima volta che qualcuno si inventa una malattia: il manifesto ha paragonato la bixonimania al “morbo di K”, la terribile malattia contagiosa che costrinse il primario del Fatebenefratelli di Roma Giovanni Borromeo a tenere un padiglione off limits a tutti… ma soprattutto ai militari nazisti, visto che la malattia non esisteva e l’isolamento era un trucco per non far scoprire i pazienti che erano ricercati.

In questo caso abbiamo una malattia, appunto la bixonimania, che è stata inventata dalla ricercatrice Almira Osmanovic Thunström dell’università di Göteborg per vedere che cosa succedeva con i chatbot. Dopo un post su Medium (da un account @gptmanuscript che stranamente in questo momento “is under investigation or was found in violation of the Medium Rules”) sono stati pubblicati due preprint – il primo lo trovate qui, visto che ora sono stati ritirati) dove troviamo che il progetto è stato finanziato da «the University of Fellowship of the Ring and the Galactic Triad with the funding number 99942.» (il numero deriverà da questo?) e viene ringraziata «Professor Maria Bohm at The Starfleet Academy for her kindness and generosity in contributing with her knowledge and her lab onboard the USS Enterprise.»; ma anche nel corpo del testo troviamo che il dataset «encompassed fictional individuals», e le conclusioni spiegano che «Bixonimania, a rare hyperpigmentation disorder, presents a diagnostic challenge due to its unique presentation and its fictional nature.» Ovvio che nessun medico se l’è filata, con tutto quello che viene pubblicato, ma anche ovvio che gli LLM se lo sono puppati e basta.

Ma quest’ultima cosa è più che ovvia. Pensate di avere un’urna con 1000 palline bianche a cui ne aggiungete due rosse: mischiate il tutto ed estraete una pallina. Se non vi chiamate Gastone Paperone vi ritroverete tra le mani una pallina bianca. Ma se l’urna inizialmente fosse vuota potreste mischiare quanto volete: la pallina estratta sarà sicuramente rossa. Fuor di metafora, visto che un LLM non “sa” nulla, se gli si faceva una domanda tipo “mi spieghi cos’è la bixonimania?” pigliava quello che aveva trovato e te lo ripresentava. Se invece gli si faceva la domanda “La bixonimania è finta?” magari trovava i riferimenti negli articoli al fatto che fosse fittizia e quindi sarebbe stato un po’ meno certo. (Poi non vuol dire nulla: sabato sera, quindi ben dopo che lo scherzo era pubblico, ho chiesto a quel burlone di Gemini che mi ha risposto “Il termine nasce dall’unione del nome Bixoni (un noto creatore di contenuti e streamer italiano) e il suffisso -mania. Si riferisce al fenomeno di estremo entusiasmo, supporto e talvolta “ossessione” scherzosa che circonda la sua figura e i suoi contenuti.” Parliamone.)

Il problema di questi inserimenti di balle non è insomma immediato: ma le conseguenze a lungo termine possono esserlo. Non serve un LLM per diffondere una notizia falsa: pensate allo studio di Wakefield sull’autismo indotto dai vaccini multivalenti (dove si è ormai persino dimenticato che appunto non era la vaccinazione a essere pericolosa ma il modo in cui si preparava un vaccino multivalente). Ma un LLM dà quella sensazione di verità che permette a chi vuole far credere qualcosa che in effetti ci sia qualcosa dietro, e questo è tanto più semplice quanto più ci si inventa qualcosa di completamente incredibile, proprio perché nessuno ha scritto qualcosa di diverso sul tema). Aspettatevi casi in cui non si sta studiando il fenomeno, ma lo si applicherà direttamente.

Claude Mythos: è solo un mito?

Avrete sicuramente letto del nuovo modello IA di Anthropic, Claude Mythos: a parte la fuga di notizie della scorsa settimana, possiamo leggere qui e qui di come il rilascio della nuova versione di Claude sia stato posticipato per dare tempo di tappare tutte le falle di sicurezza che ha trovato (Immagino soprattutto in COBOL, visto che a essere più preoccupate sono le banche; poi vabbè, c’è l’implementazione di JavaScript di Firefox, ma lì mi sa che sia sparare sulla Croce Rossa. Un punto di vista possibile per valutare il caso è quello che scrive Andrea Monti, che continua a pensare che il software deve essere visto come un prodotto e non come un’opera intellettuale, e quindi chi lo produce deve essere responsabile degli errori in esso presenti: in questo caso non parliamo ovviamente di Mythos ma dei programmi fatti spesso con i piedi. Ma uno scettico come me vede le cose in maniera un po’ diversa.

Non arrivo a quanto scrive Mehul Gupta, che fa notare come per esempio è improbabile che Mythos sia molto migliore dei modelli precedenti in tutti i campi: anche Gemini 3 per esempio ha surclassato ChatGPT al prezzo di aumentare enormemente il numero di allucinazioni, e soprattutto che non ci sono molti dati reali divulgati, a differenza di quanto è sempre stato fatto. Per esempio, posso immaginare che un sistema di questo tipo possa essere in grado di trovare da solo (o quasi…) zero-day exploit, e anche di scrivere codice che un non esperto possa prendere e usare; sicuramente questo sarà un brutto colpo per gli esperti di cibersicurezza che si trovano un pericoloso concorrente. Ma come sempre io in questi casi mi affido a Gary Marcus. La prima cosa che fa notare è che non serve un LLM per trovare i bachi nel software: gli analizzatori di codice statico ci sono da decenni, e costano molto meno. Anthropic stessa dice che il costo totale per trovare il baco in OpenBSD è stato di 20000 dollari. È stata onesta: non ha considerato i 50$ del singolo lancio ma ha preso tutto il pacchetto di lanci all’interno del quale è stato trovato il baco. Ma è stanta anche reticente: quando afferma che più del 99% dei bachi che ha trovato non sono ancora stati corretti, e quindi non può descriverli, non specifica quanto sono gravi e sfruttabili in pratica. E come sempre non è chiaro quanto automatizzabile (con o senza IA) sia il controllo dell’output del sistema, e quanto invece richiede ancora un controllo umano. Io insomma rimango ad aspettare.

Ah: all’inizio parlavo del codice di Claude accidentalmente pubblicato in rete (secondo me la causa è stata un errore impercettibile delle IA). Sarà anche vero che ormai tutto il codice di Claude è scritto da Claude stesso, ma a quanto pare il risultato non è esattamente favoloso, con routine enormi, bachi che un qualche programmatore umano ha parzialmente tappato con il classico sistema informatico (chiudi tutto dopo un po’ che non funziona), e così via…

Simon Willison e la programmazione agentica

Simon Willison è un programmatore con venticinque anni di esperienza sul campo, ed è stato ospite del podcast di Lenny Rachitsky in una puntata dal titolo “An AI state of the union: We’ve passed the inflection point & dark factories are coming”. Qui potete trovare una trascrizione dei punti principali che ha trattato nel podcast. Io mi limito a parlare di quelli che mi interessano di più, considerando che non programmo più da una vita né ho in progetto di
riprendere a farlo.

Innanzitutto secondo Willison GPT 5.1 e Claude Opus 4.5, anche se non hanno portato chissà quali evoluzioni, hanno superato la soglia in cui si può chiedere loro di scrivere un’app che faccia una certa cosa, e si può assumere che non faccia errori marchiani. Questo ovviamente cambia molto le cose sia dal punto di vista della prototipazione, che diventa molto più rapida, ma soprattutto dal punto di vista dello spostamento del collo di bottiglia dalla produzione del codice al suo test. È vero che possiamo farci generare quanti casi di test vogliamo, ma comunque non possiamo permetterci il lusso di usare del software generato da un’IA senza appunto testarlo: le abilità richieste ai programmatori sono insomma diverse. Willinson pensa anche che gli ingegneri software saranno – volenti o nolenti – i leader della trasformazione portata dall’IA, per la banale ragione che paradossalmente il codice è più facile da valutare di tante altre cose, perché o funziona o non funziona. (Vabbè, gli avvocati hanno messo su una base dati delle allucinazioni IA che ha già più di 1000 voci, ma lì si gioca facile).

Quello che mi ha lasciato stupito è scoprire che ChatGPT e Claude sono ormai in grado di costruire una UI convicente per qualunque cosa uno descriva. Può darsi che sia una qualcosa di relativamente semplice se si ha a disposizione una grande quantità di materiale di adddestramento – non ho mai preparato UI in vita mia. E in fin dei conti le interfacce utente dovrebbero essere il più standard possibile per essere sufficientemente intuitive: però la cosa mi disturba un po’. Più comprensibile che si possano usare gli agenti per cercare bachi di sicurezza (pun not intended), ma del resto ne avevo già sentito parlare. Preparatevi a una crescita del numero di attacchi informatici.

In generale Willison è un ottimista. Non di quelli con i paraocchi: basta vedere come si è inventato un benchmark (disegnare in svg un pellicano che va in bicicletta) molto curioso e che per un bel po’ di tempo ha portato a risultati esilaranti. Però per esempio afferma che i giornalisti sono bravi a capire quando le loro fonti sono inaffidabili, e quindi non dovrebbero avere troppi problemi ad adeguarsi alle “fonti IA”. Non so se funzionerà davvero così: però la sua capacità di fornire informazioni è sicuramente utile per chi come me è molto lontano da quella parte del mondo IA.

Non è stato il bancomat a rendere obsoleti i bancari

Probabilmente vi sarete accorti anche voi che il numero di sportelli bancari, almeno nelle città, sta continuando a diminuire, e che anche quelli che sono rimasti aperti hanno un numero molto ridotto di impiegati. Naturalmente questo processo di riduzione non è avvenuto tutto di un colpo, ma si è consumato nel tempo. Ma a partire da quando? La risposta che probabilmente viene in mente è “da quando abbiamo a disposizione i bancomat, e quindi non dobbiamo più andare in banca a prelevare contanti. E invece no. David Oks mostra, dati alla mano, che anche dopo la diffusione dei bancomat il numero di bancari negli USA è continuato ad aumentare: meno di altri campi, ma comunque c’è stato un aumento del numero assoluto. Come mai? La spiegazine di Oks è che il numero di impiegati per sportello bancario si è ridotto, ma sono stati aperti molti più sportelli, perché era diventato più facile farlo. Inoltre le banche, oltre a risparmiare sul costo di una transazione al bancomat (un quarto di quello con un impiegato umano) potevano anche lucrare sulle commissioni interbancarie. Insomma, non è stata la tecnologia del bancomat a far fuori i bancari; questo nonostante il nome inglese degli sportelli automatici, ATM, sta per “Automated Teller Machine”, cassiere automatico.

Che cosa ha allora portato al taglio attuale dei posti di lavoro? Una tecnologia del tutto differente, dice Oks: l’iPhone (o in generale i furbofoni). Il punto è che il bancomat automatizza il lavoro del cassiere, ma questo è solo un ingranaggio di un sistema che ha bisogno di esseri umani in tutto il resto del processo: le banche hanno preso i cassieri, li hanno formati come consulenti finanziari e le cose sono andate avanti lo stesso. Con le app bancarie sul telefono, invece, tutta l’interazione con la banca può essere fatta attraverso il telefono, e non c’è più bisogno di una sede fisica per la banca. Del resto io ho anche un conto Revolut, e non credo che abbiano sportelli fisici da qualche parte in Europa, se non forse uno per nazione per dire che sono effettivamente una banca. Qualcuno potrebbe obiettare che l’home banking fatto al pc esisteva già da un pezzo; ma innanzitutto il telefono è per definizione ubiquo, e soprattutto ti permette di aggiungere un livello di sicurezza. Le operazioni con Revolut si fanno col telefono, non dal PC.

Che c’entra tutto questo con l’IA? Semplice. Al momento la stiamo usando per sostituire il lavoro umano, ma rimanendo all’interno dello stesso paradigma: pensate a Claude usato come programmatore junior. Ma prima o poi si ribalterà il paradigma e se ne costruirà uno basato sull’IA, che eliminerà tutto il lavoro umano attuale tranne quello che si trova agli estremi della catena: una piccola quantità di professioni ad altissimo livello e tanti lavori di bassa lega. Quando succederà? Non si sa. Tornando all’esempio dell’iPhone, Steve Jobs non l’aveva mica pensato per eliminare i bancari: il punto è proprio che per cambiare paradigma occorre una visione di tipo completamente diverso da quella attuale, non un semplice miglioramento continuo. Ma tenetene conto, quando leggete i commenti sulla “rivoluzione IA”; in realtà non c’è ancora stata.

Addio a Sora

un esempio di video creato da SoraCome un fulmine a ciel sereno, OpenAI ha deciso di chiudere Sora, la sua app che permetteva di far generare all’IA. Come nelle peggiori storie non è stata data una spiegazione puntuale, ma non ci vuole molto a immaginare il motivo: costava troppo e non portava utili. Per la prima parte, il solito David Gerard segnala come un video di 10 secondi richiedesse l’equivalente di 40 minuti di uso continuo di una GPU, per un costo di un dollaro e trenta solo per la parte computazionale, oltre a quello necessario per selezionare i risultati migliori da presentare. Per quanto riguarda l’uso che veniva fatto, non so quanto ci fosse di davvero commerciale: mi sa poco, anche perché probabilmente costava meno girare un video e poi cambiare solo la faccia degli attori. Però la gente si dev’essere divertita molto: sull’ex-Twitter ho visto Gesù che vince una gara di nuoto camminando sull’acqua e il risultato del prompt «an Elaborate regency romance where everyone is wearing a live duck for a hat (each duck is also wearing a hat), a llama plays a flute, prestige drama». Apprezzabili per farsi una risata, ma oggettivamente non imperdibili.

Non credo che ci sarà un effetto valanga: come facevo notare all’inizio, i costi per generare un video sono di almeno un ordine di grandezza superiori a quelli anche solo di generazione di un’immagine, per non parlare dei testi. Però è un segnale da non sottovalutare: non possiamo aspettarci una crescita infinita dei sistemi IA se non si troverà un modo per farci veri soldi. Divertiamoci finché possiamo.

Piaggeria o americanismo?

io a febbraio 2026 Quello che vedete a sinistra sono io, in un autoscatto di febbraio 2026. Ho provato a chiedere ai principali chatbot di stimare la mia età a partire dalla foto. Per la precisione, il prompt è stato “secondo te quanti anni ha questa persona, guardando solamente la foto? Voglio una risposta sincera”.

Mistral e DeepSeek si rifiutano di rispondere. Gemini è il più verboso:

Non posso fornire l’età esatta di una persona basandomi solo su una foto, ma posso dirti che l’uomo nell’immagine sembra essere in quella fase della vita che potremmo definire piena maturità.

Ecco alcuni elementi che contribuiscono a questa impressione:

  • Capelli e barba: La presenza di brizzolato (il classico effetto “sale e pepe”) suggerisce un’età adulta consolidata, solitamente associata a una fascia che va dai 45 ai 55 anni.
  • Sguardo e lineamenti: Gli occhiali da vista e le leggere linee d’espressione intorno agli occhi comunicano un’aria di esperienza e pacatezza.
  • Contesto: Lo sfondo pieno di libri di matematica, scienza e logica (come quelli di Ian Stewart o Martin Gardner) suggerisce una persona che ha dedicato molto tempo allo studio o alla carriera accademica/professionale.
  • Senza voler tirare a indovinare un numero preciso, l’aspetto è quello di un uomo di mezza età, curato e intellettualmente attivo.

Claude.ai:

Guardando la foto, direi che questa persona ha probabilmente tra i 48 e i 55 anni.
Lo deduco da alcuni dettagli visibili: qualche capello grigio alle tempie, le rughe d’espressione sul viso, e i lineamenti maturi. Ha comunque un aspetto curato e in buona forma per la sua età.

ChatGPT:

Direi che questa persona sembra avere tra i 45 e i 55 anni, probabilmente intorno ai 50 anni.

Ovviamente è solo una stima basata su elementi visivi (come capelli, pelle e tratti del viso), quindi potrebbe non essere precisa.

Grok:

Guardando solo la foto (viso, capelli, pelle, espressione, corporatura generale):
Direi che ha tra i 48 e i 55 anni, con la stima più probabile attorno ai 51–53 anni.
Motivazione rapida e sincera:

Capelli prevalentemente grigi sulle tempie e nella parte superiore, ma ancora abbastanza folti e con una buona percentuale di colore originale → tipico della prima metà dei 50
Pelle del viso con rughe moderate (soprattutto zampe di gallina e fronte), ma non ancora molto segnata o cadente
Barba/moustache con parecchio grigio, ma non completamente bianca
Aspetto generale “da persona in forma che si cura”, non da ragazzo ma neanche da over 60

Quindi fascia realistica 49–54, io punterei più verso 52 come età mediana percepita.
Ovviamente è solo un’ipotesi basata sull’aspetto fisico, può tranquillamente sbagliare di ±5 anni in entrambe le direzioni

Ora, è vero che Anna mi costringe a mettere le cremine sul viso :-) ma purtroppo i 60 li ho passati da un pezzo. Il mio primo pensiero è stato “la solita piaggeria dei chatbot”, ma mi ha stupito la sostanziale convergenza di tutti i modelli. Considerato che con Firefox non dovrebbero esserci leakage di dati, e quindi è sperabile che le risposte siano indipendenti, la mia ipotesi di lavoro è che ci sia anche un bias di partenza: probabilmente i sistemi sono addestrati soprattutto su volti di americani, e questi potrebbero invecchiare peggio, almeno esteriormente. Voi avete altre ipotesi? (Sì, anche chi mi vede per la prima volta mi dice “dimostri meno della tua età”, ma ritorniamo alla piaggeria)