Nel mondo degli LLM c’è una corsa continua a cercare di superarsi, con tempi davvero ristretti tra gli annunci di nuovi modelli. I vari player devono sempre decidere se aspettare a rilasciare il nuovo modello oppure uscire con una versione a interim (le “punto cinque, che come dice il nome stesso sono a metà strada) per non perdere il treno. E in effetti Google Gemini 2.5 non era proprio il massimo, restando dietro sia a OpenAI che ad Anthropic.
Leggendo però le prime impressioni in rete, pare che Gemini 3.0 sia davvero riuscito a staccare i concorrenti, almeno per il momento. Cominciamo a vedere cosa dice l’oste del suo vino, cioè la presentazione di Google stessa. Dopo essersi bullata che LMArena Leaderboard lo posiziona al top, mostra altri risultati ottimali nei benchmark usati di solito, come Humanity’s Last Exam dove anche senza l’aiuto di DeepSeek ha raggiunto il 37,5% di risposte esatte, contro per esempio il 30,7% di ChatGPT5 Pro. In genere io non mi fido dei benchmark, perché è possibile addestrare apposta i modelli (un po’ come gli insegnanti che ti insegnano a risolvere gli Invalsi). Ma devo dire che sono rimasto impressionato che in MathArena Gemini 3.0 Pro abbia raggiunto il 23,44%, quando il miglior competitor (Grok 4.1) si è fermato al 5,21%. Potrebbe esserci il trucco anche qui, perché i problemi erano ormai noti; ma con una differenza così grande nei risultati qualcosa di buono devono averlo fatto per forza. Non parliamo poi di ARC-AGI-1, un test che secondo Alberto Romero è “facile per gli umani, molto difficile per le IA”. Gemini 2.5 Pro otteneva il 4,9%; Gemini 3 Pro arriva al 31,1%, quasi il doppio del più vicino concorrente che è GPT-5.1 (17,6%). E mentre in genere il costo in dollari di una sessione con Gemini 3 Pro è parecchio più alto di quello degli altri concorrenti, in questo caso è addirittura minore di quello di GPT-5.1.
Pare che il nuovo modello sia stato riscritto da capo, e quindi non sia un semplice miglioramento: ma soprattutto – come fa notare Axios – ci sono due punti a vantaggio di Google. Il primo è che ovviamente ha una quantità enorme di dati di addestramento a sua disposizione; il secondo è che usa il proprio hardware, più precisamente TPU home-made. Non per nulla c’è stato un forte ribasso del valore delle azioni di Nvidia, che fino ad ora pareva essere il leader incontrastato del mercato. Non tutto è rose e fiori, però: sempre Axios riporta che nonostante una base dati molto più variegata, Gemini 3 Pro ha una probabilità di alluciunazioni maggiore quando si chiede qualcosa per cui non ha dati a disposizione. C’è insomma da lavorarci ancora su; ma possiamo dire che ci sono ancora margini di miglioramento per i modelli IA con l’architettura attuale.