Gli LLM “normali” e la matematica
All’inizio della settimana ho scritto su MaddMaths! (come, non leggete la mia rubrica “il matematico non praticante” che tengo lì? Male, nolto male) un articolo sulla medaglia virtuale d’oro ottenuta da Google DeepMind alle Olimpiadi della matematica. Già lì esprimevo i miei dubbi: vedo che non sono il solo, leggendo questo articolo di Emily Riehl su Scientific American.
Dall’articolo ho scoperto che le voci che anche OpenAI avrebbe raggiunto un punteggio da medaglia d’oro sono solo voci, o almeno non c’è stato un riconoscimento ufficiale da chi gestisce l’IMO: nulla di strano, in un ambiente dove l’hype è al momento più importante dei risultati. Ma la cosa più interessante è un’altra. Non è tanto il fatto che questi modelli tirano fuori un certo numero di risposte e poi scelgano (non ho idea come) quella più robusta: non penso, a differenza di Riehl, che questo equivalga a lavorare in squadra, visto che il modello sottostante è lo stesso. Quello che conta davvero è che si è tenuto un torneo parallelo informale ospitato da MathArena e che ha coinvolto (si fa per dire) i modelli disponibili commercialmente. Risultato? Nessuno è arrivato nemmeno alla medaglia di bronzo (che viene data a metà circa dei partecipanti alle olimpiadi reali). Il migliore è stato Gemini 2.5 Pro con 13 punti su 42, molti meno della soglia di 19 punti necessaria per la medaglia di bronzo. (Un esercizio risolto correttamente vale sei punti, ma se ne può ottenere qualcuno per una risposta errata ma con alcuni passi corretti). Il tutto spendendo più di 400 dollari :-)
Il mio commento finale? non è diverso da quello che avevo scritto su MaddMaths!. Questi sistemi ne hanno ancora di parametri da macinare. Questo non vuol dire prenderli sottogamba, e del resto ricordo che i sistemi di dimostrazione automatica dei teoremi sono ormai usati regolarmente, il che significa che nessuno ha un pregiudizio aprioristico. Semplicemente manca ancora molto per avere qualcosa di più di un aiuto.

Notate che la regola non funziona sempre: nel triangolo di lato 3 mostrato qui a destra è immediato notare che se il cerchio in mezzo nella prima riga fosse blu e non giallo allora quello in bssso sarebbe giallo e non blu. Con il lato 2 e quello 4 invece funziona, così come con il lato 10: più in generale Behrends ha mostrato che perché valga quella proprietà il lato del triangolo deve essere della forma 3k+1. Voi come lo dimostrereste? Qui c’è il mio approccio (non ho letto l’articolo citato sul NYT, ma mi stupirei se la dimostrazione fosse essenzialmente diversa dalla mia).
Il primo giorno in seconda liceo, il nuovo professore di matematica si è presentato dicendo a ciascuno di noi un numero di due cifre e chiedendo di fattorizzarlo (a mente, ovvio). Questo è abbastanza banale: se volete allenarvi potete andare