All’inizio della settimana ho scritto su MaddMaths! (come, non leggete la mia rubrica “il matematico non praticante” che tengo lì? Male, nolto male) un articolo sulla medaglia virtuale d’oro ottenuta da Google DeepMind alle Olimpiadi della matematica. Già lì esprimevo i miei dubbi: vedo che non sono il solo, leggendo questo articolo di Emily Riehl su Scientific American.
Dall’articolo ho scoperto che le voci che anche OpenAI avrebbe raggiunto un punteggio da medaglia d’oro sono solo voci, o almeno non c’è stato un riconoscimento ufficiale da chi gestisce l’IMO: nulla di strano, in un ambiente dove l’hype è al momento più importante dei risultati. Ma la cosa più interessante è un’altra. Non è tanto il fatto che questi modelli tirano fuori un certo numero di risposte e poi scelgano (non ho idea come) quella più robusta: non penso, a differenza di Riehl, che questo equivalga a lavorare in squadra, visto che il modello sottostante è lo stesso. Quello che conta davvero è che si è tenuto un torneo parallelo informale ospitato da MathArena e che ha coinvolto (si fa per dire) i modelli disponibili commercialmente. Risultato? Nessuno è arrivato nemmeno alla medaglia di bronzo (che viene data a metà circa dei partecipanti alle olimpiadi reali). Il migliore è stato Gemini 2.5 Pro con 13 punti su 42, molti meno della soglia di 19 punti necessaria per la medaglia di bronzo. (Un esercizio risolto correttamente vale sei punti, ma se ne può ottenere qualcuno per una risposta errata ma con alcuni passi corretti). Il tutto spendendo più di 400 dollari :-)
Il mio commento finale? non è diverso da quello che avevo scritto su MaddMaths!. Questi sistemi ne hanno ancora di parametri da macinare. Questo non vuol dire prenderli sottogamba, e del resto ricordo che i sistemi di dimostrazione automatica dei teoremi sono ormai usati regolarmente, il che significa che nessuno ha un pregiudizio aprioristico. Semplicemente manca ancora molto per avere qualcosa di più di un aiuto.
Ultimo aggiornamento: 2025-08-07 16:22