Un LLM più bravo degli umani nei problemi matematici?

Il mio amico Ugo mi segnala questo articolo di Nature con il titolo piuttosto allarmistico “DeepMind AI outdoes human mathematicians on unsolved problem”. Ho letto l’articolo e direi che l’affermazione è un po’ esagerata, o meglio non è poi una novità così importante. Come mai?

Comincio a spiegare di cosa si sta parlando. Set, anzi SET, è un gioco di carte, con un mazzo di 81 carte (34) che hanno immagini con quattro caratteristiche (numero elementi, forma, colore, riempimento), ciascuna presente in tre versioni diverse. Un set è un insieme di tre carte dove ogni caratteristica è presente sempre nella stessa versione oppure in tutte e tre le versioni possibili. Nella figura abbiamo tre numeri, tre colori, tre forme e tre riempimenti e quindi c’è un set; ma se i rombi e i rettangoli arrotondati fossero stati due anziché 1 e 3 rispettivamente avremmo comunque avuto un set.

Ora, è stato dimostrato che se si prendono 21 carte si è certi di trovare almeno un set, ma con 20 carte potremmo non averne alcuno; pertanto 21 è il numero minimo di carte necessarie. Come sapete, i matematici amano generalizzare le domande, e quindi si sono chiesti qual è il numero minimo di carte necessario in un (teorico…) mazzo con n caratteristiche, e quindi 3n carte. (L’articolo scrive “3n” perché nessuno sta lì a controllare che non si perdano gli esponenti). Questa domanda in generale non ha ancora risposta per n>6, e sono solo noti limiti superiori e inferiori (in parole povere: sappiamo che per un certo n il numero minimo di carte è maggiore o uguale a un certo k e minore o uguale a un altro K, con k<K). Cosa hanno fatto quelli di Google DeepMind? Hanno addestrato un LLM, chiamato FunSearch (il “Fun” non sta per “divertimento” ma per “funzione”: insomma l’LLM lavora sullo spazio delle funzioni) e gli hanno chiesto di scrivere dei brevi programmi di computer che generano insiemi di carte per cui non è possibile costruire un set. Molti di questi programmi non possono girare perché hanno errori di sintassi, ma essi vengono eliminati da un altro programma; quelli “buoni” sono stati fatti girare e hanno trovato un insieme di carte 8-dimensionale che è più grande del limite inferiore noto fino ad ora. Insomma, l’LLM ha generato un risultato matematico nuovo.

(Per chi vuole qualche informazione in più, dal paper si legge che il compito è stato riscritto in modo equivalmente come una proprietà di grafi; direi che la scelta di avere un programma generatore è legata al fatto che in questo modo la complessità della generazione di una configurazione cresce molto più lentamente al crescere di n e quindi è trattabile algoritmicamente. Infine, è chiaro che per quanto il risultato finale sia importante non c’è nessuna garanzia che quanto trovato sia il valore esatto, e nessuno se lo sarebbe aspettato.)

Qual è il mio pensiero al riguardo? Per prima cosa sgombro il campo da un possibile equivoco: che l’LLM di suo generi programmi non eseguibili è un non-problema, fintantoché esiste un modulo automatico distinto che se ne accorge e li butta via (e moduli come questo sono a disposizione da una vita). Anch’io se dovessi scrivere un programma su carta rischio di fare errori di sintassi :-) La parte che trovo davvero interessante nell’approccio proposto è proprio quella: avere un sistema integrato che riceva un input in linguaggio naturale e controlli automaticamente la validità delle proprie risposte. Potrebbe anche essere interessante il fatto che l’LLM abbia generato tra le tante euristiche per trovare questi set qualcuna che non era mai venuta in mente agli esseri umani. Però resto sempre dubbioso sul definirlo un breakthrough e non semplicemente un miglioramento sulle tecniche che si usano da decenni, come per esempio gli algoritmi genetici che hanno anch’essi un comportamento impredicibile a priori. Certo, gli autori dell’articolo si affrettano ad aggiungere che a differenza dei soliti LLM qui abbiamo un’idea (il programma generato) di come abbia lavorato l’algoritmo, ma di nuovo mi sembra che stiamo mischiando due livelli diversi.

In definitiva, io aspetterei ancora un po’ prima di gioire o fasciarmi la testa…

(Immagine di carte SET di Miles, su Wikimedia Commons, Public Domain)

Ultimo aggiornamento: 2024-01-06 17:23