Alex Wilkins in questo articolo racconta dei progressi ottenuti nel 2024 dalle intelligenze artificiali nel campo della risoluzione di problemi matematici.
Come sapete, gli LLM non “comprendono” quello che hanno in input (o in output, se per questo) ma scelgono fondamentalmente la frase più probabile data la successione di parole in ingresso e le variabili nascoste che hanno a disposizione. Quindi se chiediamo a ChatGPT e ai suoi amici quanto fa 2 + 2 è estremamente probabile che la risposta sia 4; ma alla domanda “Add 34957 to 70764” rischiamo che la risposta sia 105621. (Non ho fatto la prova, ma immagino che chi sviluppa gli LLM abbia tenuto conto di questa particolare addizione e quindi ci sia del codice che faccia dare la risposta corretta.) Il guaio è che proprio perché gli LLM non capiscono quello che fanno è difficile per loro anche solo accorgersi che il problema è matematico e passarlo a un modulo “classico” che faccia i conti.
Pare però che quest’anno ci sia stato un miglioramento nelle performance di questi sistemi, partendo da Google Deepmind che sarebbe riuscita a prendere una medaglia d’argento alle olimpiadi della matematica – no, non vuol dire arrivare secondi, ma essere tra il 20% dei migliori – e arrivando al prossimo sistema O3 di OpenAI che avrebbe ottenuto il 75,7% di risposte corrette sul test “semiprivato” della ARC Challenge, studiato appunto per avere problemi facili per gli umani ma difficili per l’AI. Peccato che il costo per rispondere a ciascuna domanda è intorno ai 20$; O3 avrebbe anche raggiunto l’87,5%, sopra la soglia dell’85% che permetterebbe di vincere l’ARC Challenge, se non fosse per un piccolo particolare. Il costo per rispondere meglio alle domande è di 172 volte maggiore: in pratica per rispondere a una singola domanda O3 consuma 3500 euro di energia… e comunque le soluzioni in questo caso arrivavano per forza bruta, il che spiega il costo.
Diciamo insomma che questi sistemi ne hanno ancora da fare di strada…
Ho letto i quizzini per cercare di capire cosa si compra con 3500 € ma non sono riuscito a chiarimi le idee.
I quizzini, con un premio di 600.000 $ per il computer che li risolve senza i costi della forza bruta, sono fatti apposta per essere facili per gli umani ma difficili per i cervelli elettronici e questo non serve a molto per il mio punto di vista.
Però mi chiedo: supponendo che la soluzione mi serva per un progetto, se io corro con il quizzino in panetteria (perché sono tradizionalista che non usa l’AI per spulciare gli annunci online), cerco i bigliettini di annunci di studenti di matematica o professori di scuola media disoccupati che danno ripetizioni, e gli dico “ti pago la tua tariffa normale di 30 € l’ora fino a quando arrivi alla soluzione”… quanto spenderei? E per i quizzini che l’AI non ha risolto l’umano quanto mi costerebbe?
Detto altrimenti, se il costo della soluzione è molto inferiore con un umano che realisticamente posso trovare sottocasa allora l’AI non è ancora utile per problemi matematici le cui soluzioni non sono già in rete. Ma se devo spendere anche solo per cercare un luminare (i quizzini li ha elaborati un gruppo di persone specializzate, non so quanto tempo ci hanno messo e quanto sono costati in stipendi ed energia) oppure se il valore della soluzione è molto più alto del costo per averla senza sbattimenti… mi sa che presto la panetteria potrebbe non avere spazio per tutte le offerte di ripetizioni!
abbiamo una lunga storia di umani sottopagati per risolvere compiti che le macchine non sanno fare bene, a partire dai CAPTCHA. E ho il sospetto che nonostante tutto lo hype per il reinforcement learning e cose simili, già ora gli studenti che danno ripetizioni sono usati eccome. (Professori di matematica disoccupati non credo ce ne siano, possono esserci professori che hanno scoperto che si fanno più soldi con le ripetizioni).
Ma più che altro: davvero hai un panettiere sotto casa?
Il panettiere davvero sottocasa avrà chiuso un 20-25 anni or sono.
Comunque c’è un panettiere che posso raggiungere a piedi (altrimenti se considero l’energia per il trasporto i conti si sballano definitamente) che magari ha i bigliettini… ma faccio il pane in casa da così tanto tempo che forse mi becca come competitior e non mi lascia appuntarmi i numeri con carta e penna in santa pace (essendo tradizionalista non userei neppure il cellulare con l’OCR o l’AI per decodificare la scrittura manuale)!
Ma anche considerando di acquistare la soluzione dall’aziendina di consulenza del professore di matematica dell’università (dove lavorano studenti in condizione di schiavitù ma che fattura soldi veri)… quanto si spenderebbe con umani comunque realisticamente reperibili?
Considerando che io spesso riesco a risolvere i quizzini della domenica eppure non riesco a capire i problemi del test da solo (=senza aiutini) mi sa che per me l’AI è già conveniente!