Alex Wilkins in questo articolo racconta dei progressi ottenuti nel 2024 dalle intelligenze artificiali nel campo della risoluzione di problemi matematici.
Come sapete, gli LLM non “comprendono” quello che hanno in input (o in output, se per questo) ma scelgono fondamentalmente la frase più probabile data la successione di parole in ingresso e le variabili nascoste che hanno a disposizione. Quindi se chiediamo a ChatGPT e ai suoi amici quanto fa 2 + 2 è estremamente probabile che la risposta sia 4; ma alla domanda “Add 34957 to 70764” rischiamo che la risposta sia 105621. (Non ho fatto la prova, ma immagino che chi sviluppa gli LLM abbia tenuto conto di questa particolare addizione e quindi ci sia del codice che faccia dare la risposta corretta.) Il guaio è che proprio perché gli LLM non capiscono quello che fanno è difficile per loro anche solo accorgersi che il problema è matematico e passarlo a un modulo “classico” che faccia i conti.
Pare però che quest’anno ci sia stato un miglioramento nelle performance di questi sistemi, partendo da Google Deepmind che sarebbe riuscita a prendere una medaglia d’argento alle olimpiadi della matematica – no, non vuol dire arrivare secondi, ma essere tra il 20% dei migliori – e arrivando al prossimo sistema O3 di OpenAI che avrebbe ottenuto il 75,7% di risposte corrette sul test “semiprivato” della ARC Challenge, studiato appunto per avere problemi facili per gli umani ma difficili per l’AI. Peccato che il costo per rispondere a ciascuna domanda è intorno ai 20$; O3 avrebbe anche raggiunto l’87,5%, sopra la soglia dell’85% che permetterebbe di vincere l’ARC Challenge, se non fosse per un piccolo particolare. Il costo per rispondere meglio alle domande è di 172 volte maggiore: in pratica per rispondere a una singola domanda O3 consuma 3500 euro di energia… e comunque le soluzioni in questo caso arrivavano per forza bruta, il che spiega il costo.
Diciamo insomma che questi sistemi ne hanno ancora da fare di strada…
Innanzitutto buon Natale, così non me lo dimentico :-) 

Avete presenti gli utensili di plastica neri? Un articolo pubblicato lo scorso ottobre sulla rivista Chemosphere ha sollevato pesanti dubbi sulla loro tossicità, e la notizia è balzata subito sulle prime pagine dei media americani. Da noi non ho visto nulla, ma non significa molto. Abbiamo avuto titoli come “Quegli utensili di cucina così carino potrebbero stare per avvelenarvi, dice uno studio. Ecco che dovete fare”, dal L.A. Times. Molti americani hanno buttato via i loro utensili.
A chi non è capitato di dover far passare un mobile piuttosto grande attraverso una porta, e chiedersi come diavolo riuscirci? Douglas Adams ci aveva persino fatto una gag, nel suo libro Agenzia Investigativa Olistica Dirk Gently. Ma come sapete i matematici non hanno un grande senso dell’umorismo: quindi qualcuno ha provato a darne una formulazione matematica. 
Quando si gioca ad alcuni giochi, spesso è necessario lanciare un dado non standard, per esempio perché deve dare un valore da 1 a 10 con la stessa probabilità. In quel caso si dice “lancia un d10”. Oggi non è molto difficile simulare uno di questi lanci: se su Google fate una ricerca “dice d10” avete immediatamente il risultato, oppure potete andare su un sito come 
