Alex Wilkins in questo articolo racconta dei progressi ottenuti nel 2024 dalle intelligenze artificiali nel campo della risoluzione di problemi matematici.
Come sapete, gli LLM non “comprendono” quello che hanno in input (o in output, se per questo) ma scelgono fondamentalmente la frase più probabile data la successione di parole in ingresso e le variabili nascoste che hanno a disposizione. Quindi se chiediamo a ChatGPT e ai suoi amici quanto fa 2 + 2 è estremamente probabile che la risposta sia 4; ma alla domanda “Add 34957 to 70764” rischiamo che la risposta sia 105621. (Non ho fatto la prova, ma immagino che chi sviluppa gli LLM abbia tenuto conto di questa particolare addizione e quindi ci sia del codice che faccia dare la risposta corretta.) Il guaio è che proprio perché gli LLM non capiscono quello che fanno è difficile per loro anche solo accorgersi che il problema è matematico e passarlo a un modulo “classico” che faccia i conti.
Pare però che quest’anno ci sia stato un miglioramento nelle performance di questi sistemi, partendo da Google Deepmind che sarebbe riuscita a prendere una medaglia d’argento alle olimpiadi della matematica – no, non vuol dire arrivare secondi, ma essere tra il 20% dei migliori – e arrivando al prossimo sistema O3 di OpenAI che avrebbe ottenuto il 75,7% di risposte corrette sul test “semiprivato” della ARC Challenge, studiato appunto per avere problemi facili per gli umani ma difficili per l’AI. Peccato che il costo per rispondere a ciascuna domanda è intorno ai 20$; O3 avrebbe anche raggiunto l’87,5%, sopra la soglia dell’85% che permetterebbe di vincere l’ARC Challenge, se non fosse per un piccolo particolare. Il costo per rispondere meglio alle domande è di 172 volte maggiore: in pratica per rispondere a una singola domanda O3 consuma 3500 euro di energia… e comunque le soluzioni in questo caso arrivavano per forza bruta, il che spiega il costo.
Diciamo insomma che questi sistemi ne hanno ancora da fare di strada…