Google Gemini 3

Nel mondo degli LLM c’è una corsa continua a cercare di superarsi, con tempi davvero ristretti tra gli annunci di nuovi modelli. I vari player devono sempre decidere se aspettare a rilasciare il nuovo modello oppure uscire con una versione a interim (le “punto cinque, che come dice il nome stesso sono a metà strada) per non perdere il treno. E in effetti Google Gemini 2.5 non era proprio il massimo, restando dietro sia a OpenAI che ad Anthropic.
Leggendo però le prime impressioni in rete, pare che Gemini 3.0 sia davvero riuscito a staccare i concorrenti, almeno per il momento. Cominciamo a vedere cosa dice l’oste del suo vino, cioè la presentazione di Google stessa. Dopo essersi bullata che LMArena Leaderboard lo posiziona al top, mostra altri risultati ottimali nei benchmark usati di solito, come Humanity’s Last Exam dove anche senza l’aiuto di DeepSeek ha raggiunto il 37,5% di risposte esatte, contro per esempio il 30,7% di ChatGPT5 Pro. In genere io non mi fido dei benchmark, perché è possibile addestrare apposta i modelli (un po’ come gli insegnanti che ti insegnano a risolvere gli Invalsi). Ma devo dire che sono rimasto impressionato che in MathArena Gemini 3.0 Pro abbia raggiunto il 23,44%, quando il miglior competitor (Grok 4.1) si è fermato al 5,21%. Potrebbe esserci il trucco anche qui, perché i problemi erano ormai noti; ma con una differenza così grande nei risultati qualcosa di buono devono averlo fatto per forza. Non parliamo poi di ARC-AGI-1, un test che secondo Alberto Romero è “facile per gli umani, molto difficile per le IA”. Gemini 2.5 Pro otteneva il 4,9%; Gemini 3 Pro arriva al 31,1%, quasi il doppio del più vicino concorrente che è GPT-5.1 (17,6%). E mentre in genere il costo in dollari di una sessione con Gemini 3 Pro è parecchio più alto di quello degli altri concorrenti, in questo caso è addirittura minore di quello di GPT-5.1.

Pare che il nuovo modello sia stato riscritto da capo, e quindi non sia un semplice miglioramento: ma soprattutto – come fa notare Axios – ci sono due punti a vantaggio di Google. Il primo è che ovviamente ha una quantità enorme di dati di addestramento a sua disposizione; il secondo è che usa il proprio hardware, più precisamente TPU home-made. Non per nulla c’è stato un forte ribasso del valore delle azioni di Nvidia, che fino ad ora pareva essere il leader incontrastato del mercato. Non tutto è rose e fiori, però: sempre Axios riporta che nonostante una base dati molto più variegata, Gemini 3 Pro ha una probabilità di alluciunazioni maggiore quando si chiede qualcosa per cui non ha dati a disposizione. C’è insomma da lavorarci ancora su; ma possiamo dire che ci sono ancora margini di miglioramento per i modelli IA con l’architettura attuale.

Quizzino della domenica: Numeri di Fermat

776 – algebra

I numeri di Fermat sono quelli della forma Fn = 2^(2^n)) + 1. Una congettura di Fermat affermava che se n è primo, allora Fn è primo (“numero primo di Fermat”). I primi numeri in effetti lo sono: F0 = 3, F1 = 5, F2 = 17, F3 = 257, F4 = 65537. Peccato che non si conosca nessun altro primo di Fermat. Ma non è questo il problema di oggi. Dimostrate che vale sempre l’uguaglianza F0F1F2Fk−1 = Fk − 2.


F_n = 2^(2^n) + 1
(trovate un aiutino sul mio sito, alla pagina https://xmau.com/quizzini/p776.html; la risposta verrà postata lì il prossimo mercoledì. Problema 28 da Stephen Siklos, Advanced Problems in Mathematics.)

Il tracollo culturale (libro)

copertina Ultimo libro scritto da Lucio Russo, in questo testo troviamo un riepilogo delle tesi che il matematico ha portato avanti negli ultimi anni: che cioè la conquista romana del Mediterraneo non solo ha bloccato lo sviluppo scientifico del mondo ellenistico, ma ha addirittura cancellato quanto fatto nei due secoli precedenti, perché nessuno dei vincitori capiva quei concetti. Per esempio, secondo Russo la filosofia soprattutto stoica ma anche quella epicurea e perfino quella dei successori di Platone e Aristotele nell’Accademia e nel Liceo erano molto più avanzate; la logica stoica è stata per esempio riscoperta solo nel XIX secolo. Ma essendo appunto troppo complicata, i romani hanno copiato solo Platone e Aristotele che sono così stati considerati le punte più avanzate del pensiero filosofico greco. Oppure Russo fa l’esempio di Polibio, che secondo lui era fondamentalmente un soldato ma le cui conoscenze l’hanno portato a diventare il primo storico di Roma una volta portato nell’Urbe come ostaggio, essendo molto più bravo dei romani.
Russo prende tutti i possibili frammenti ellenistici che si sono salvati e fa una ricostruzione abbastanza coerente – non mi è per esempio chiaro come concili il fatto che Pergamo e Rodi abbiano continuato gli sviluppi per alcuni decenni con la sparizione anche dei loro risultati. A me è restato però il dubbio che abbia esagerato in senso opposto. Sicuramente si è perso molto, ma la mia domanda è se la dominazione romana sia stata la causa principale di questa perdita oppure solo una concausa, se non addirittura qualcosa di irrilevante nel contesto.

Lucio Russo, Il tracollo culturale : La conquista romana del Mediterraneo (146-145 a.C.), Carocci 2022, pag. 288, € 25, ISBN 9788829012220 – come Affiliato Amazon, se acquistate il libro dal link qualche centesimo va a me
Voto: 4/5

Freudenfreude

La parola “Schadenfreude”, letteralmente “gioia per le disgrazie (altrui)”, è un esempio di come il tedesco sia perfetto ad assemblare come con il Lego una parola che porta in sé il significato di una intera frase. Dai, ammettetelo che anche voi avete provato spesso della Schadenfreude.
Anche la lingua inglese, come quella italiana, usa come prestito questa parola: ma a differenza nostra c’è chi ha pensato al concetto positivo, quello cioè per cui una persona è felice per la gioia di un’altra persona. E che hanno fatto? Come racconta Victor Mair, hanno coniato una nuova parola in (pseudo)tedesco: Freudenfreude, appunto. La prima occorrenza nota è in un articolo del NYT del 2022. Riusciremo a farla diventare un termine usato? Sarebbe bello avere qualche esempio positivo!

Mary Immaculate Institution (ebook)

copertina [Disclaimer: Ho ricevuto il libro grazie al programma Early Reviewer di LibraryThing]
La storia sta a metà tra l’horror e la fantascienza, forse più verso il primo anche se non si esagera, un po’ come Frankenstein. L’autrice (che si firma solo con le iniziali) sta sicuramente pensando a continuare la serie, dai punti volontariamente lasciati pendenti. Il problema è che almeno per me la trasformazione che la protagonista compie in poche decine di pagine non è basata su nulla, e questo rovina la lettura. Va bene la suspension of disbelief, ma voglio una logica interna…

D MR, Mary Immaculate Institution, Celestium 2025, pag. 356, € 4,57 (cartaceo 10,67), ISBN 9786306708611 – come Affiliato Amazon, se acquistate il libro dal link Bezos mi dà qualche centesimo dei suoi utili
Voto: 2/5

Armonici quasi interi

Nel 1918 József Kürschák dimostrò che la somma di reciproci di due o più numeri consecutivi non può mai essere un intero. Come corollario, l’unico valore intero toccato calcolando la serie armonica $H_n = 1 + 1/2 + 1/3 + 1/4 + …$ è 1. Ci si può però oziosamente chiedere quanto vicino si può arrivare a un intero. John Cook in una successione di post ha mostrato che se ci limitiamo ai numeri da 1 a 100000 abbiamo che $$ \sum_{k=27134}^{73756} \frac{1}{k} \approx 1$$ con un errore dell’ordine di $10^{-11}$, e questa è la migliore approssimazione possibile a 1.

Limitandoci alle porzioni di serie armonica, si arriva rapidamente a un problema: i numeri in virgola mobile non sono abbastanza precisi per fare tutte le addizioni. Fortunatamente abbiamo a nostra disposizione un’approssimazione molto buona: $H_n \approx \log n + \gamma + \frac{1}{2n} – \frac{1}{12n^2}$, dove $\gamma$ è la costante di Eulero-Mascheroni pari a circa 0,57721. (Curiosità: non è noto se sia o no un numero irrazionale, ma tutti credono di sì, anche perché in caso contrario il suo denominatore dovrebbe avere almeno $10^{242080}$ cifre…). Notate come l’approssimazione usata da Cook sia molto più accurata di quella usuale $H_n \approx \log n + \gamma$, per andare più sul sicuro. Cook si è divertito a scrivere un programmino Python per trovare il termine della serie armonica più vicino a un numero (non necessariamente intero) dato, scoprendo per esempio che $H_12366 \approx 9,99996214846655$.

Ma anche questo programma, pur essendo ben fatto, ha dei problemi di arrotondamento se il numero cercato è molto grande. Per esempio dice che se vogliamo arrivare ad approssimare 100 dobbiamo sommare 15092688622113830917200248731913020965388288 termini, e l’errore relativo è dell’ordine di $3 \times 10^{-15}$. Ma usando Mathematica e l’approssimazione $n \approx \rm{exp}(m − \gamma)$, dove $m$ è il numero che vogliamo approssimare e $n$ il numero di termini richiesti, Cook mostra che la vera quantità di termini che dobbiamo sommare è 15092688622113788323693563264538101449859497; insomma i due numeri divergono dalla quattordicesima cifra, il che ha senso visto che siamo ai limiti della precisione dei numeri a 64 bit. Per curiosità, per arrivare a 1000 occorrono un bel po’ di termini, cioè

110611511026604935641074705584421138393028001852577373936470952377218354575172401275457597579044729873152469512963401398362087144972181770571895264066114088968182356842977823764462179821981744448731785408629116321919957856034605877855212667092287520105386027668843119590555646814038787297694678647529533718769401069269427475868793531944696435696745559289326610132208504257721469829210704462876574915362273129090049477919400226313586033

(un numero di 435 cifre). Che possiamo dedurre da tutto questo? Due cose. La prima è che la serie armonica cresce molto lentamente; la seconda è che bisogna sempre sapere qual è il modo migliore per fare un conto, tenendo conto delle limitazioni dei computer…

La scuola dimenticata

Anno 2015: I miei gemelli fanno prima elementare e si trovano da un giorno all’altro i ragazzi della vicina scuola media Pavoni di via Benigno Crespi 40, dove è stato trovato dell’amianto.

Anno 2022: Dopo solo sette anni è stato bonificato l’amianto, già che c’erano hanno tolto due serbatoi di carburante, e le ruspe hanno tirato giù la costruzione. Tempo previsto per i lavori: 440 giorni.

Anno 2023: Sono passati i 440 giorni, ma si è scoperto che un serbatoio aveva una falla e quindi si è dovuto verificare che il terreno non fosse contaminato.

Anno 2025: Ho scattato questa foto a inizio ottobre, ma l’altro ieri sono passato e la situazione era identica (ok, un po’ meno verde visto che l’autunno è inoltrato). Non si direbbe che la contaminazione sia così pesante. Ma soprattutto non si sa assolutamente nulla di cosa si voglia fare, ammesso che lo si voglia fare: le richieste di informazioni cadono nel vuoto. Eppure a un paio di chilometri da lì il cantiere della scuola media Falcone e Borsellino in viale Sarca, demolita nel 2024, procede alacremente. Intanto i gemelli hanno finito le elementari, fatto le medie (in un’altra scuola, pur che non avessimo più a che fare con la dirigente che c’era) e sono a metà delle superiori.

Non serve più un edificio scolastico? La promiscuità di bambini di sei anni e ragazzi di 14 (le zone sono separate, ma per dire la palestra è la stessa…) non è un problema? Bene, che lo si dica ufficialmente. Quale sarebbe il problema? Parafrasando Giorgio Gaber, “ma quella scuola, ma quella scuola ora non c’è più: ma quella scuola, ma quella scuola l’han buttata giù!”

Gli LLM hanno problemi con la parola “no”

È abbastanza noto che tra i problemi dei chatbot c’è una certa piaggeria nei confronti degli utenti: essi sono infatti programmati per darti sempre ragione, e non si peritano di dare una risposta tirata a caso quando nel loro materiale di addestramento non c’è nulla al riguardo. Quando gli fai notare che quello che ha scritto non è vero non fa una piega, e si limita a cominciare a dire “hai proprio ragione!” Insomma, un approccio che forse migliora l’autostima di chi fa le domande ma può dare molti problemi nel medio termine.

Quello che non sapevo è che il concetto di “no” non funziona nemmeno nei prompt, almeno nel passato recente. Questo articolo di New Scientist dello scorso maggio spiega infatti come un test in cui si è cercato di addestrare dei modelli mostrando loro radiografie di soggetti con e senza polmonite, etichettate rispettivamente con “signs of pneumonia” e “no signs of pneumonia”, ha prestazioni molto inferiori a quelle di un modello addestrato solo “in positivo”. Lo stesso capita in un altro test, dove chiedere quale foto ha “un tavolo senza una sedia” fa calare la percentuale di risposte esatte di 15 punti rispetto al trovare un tavolo e una sedia.

Quello che pare capitare è che i modelli sono bravi a riconoscere nel prompt una parola chiave, ma hanno difficoltà ad associarla a un concetto negativo. Non è credo un caso che generalmente i modelli abbiano due insiemi diversi di prompt, quello positivo e quello negativo; in questo modo il controllo è più semplice. Il guaio è naturalmente che questo cozza contro la necessità di interagire in linguaggio naturale: sembra insomma incredibile, ma la prima parola che un bambino impara (che come tutti i genitori sanno bene non è né mamma né papà, ma “no!”) sia al di fuori delle capacità di un chatbot…