ChatGPT ne ha ancora da imparare, di matematica

il problema del calenpiario Da qualche anno Riccardo Moschetti e Roberto Zanasi preparano una serie di problemi matematici che durano dal π Day al τ Day: il CalenPIario.

Il problema di sabato scorso diceva

Quanti sono gli interi positivi che in base 7 si scrivono usando 3 cifre, e in base 5 si scrivono con le stesse cifre in ordine inverso?

Io sono pigro, ho cominciato a scrivere qualche possibilità e ho trovato due soluzioni. Poi ho continuato a scrivere numeri e ho deciso che non ce n’erano altre, e in effetti era così. Un mio amico si è lamentato perché ha fatto i conti e gli veniva un risultato diverso, e ha chiesto a ChatGPT che gli ha dato lo stesso risultato.
Essendo io curioso, ho provato a chiederglielo io stesso. L’intelligenza artificiale ha sparato tutto un pippone, partendo dal numero scritto in base 7 come abc e in base 5 come cba, dando dei

Vincoli sui valori delle cifre:

    a deve essere compreso tra 1 e 6 (poiché a≠0 in base 7).
    b deve essere compreso tra 0 e 6.
    c deve essere compreso tra 1 e 4 (poiché c≠0 in base 5).

(vincoli sbagliati, tra l’altro: ovviamente anche a e b possono essere al massimo 4), e tirando fuori l’equazione 24a+b=12c che così ad occhio è corretta. Poi si mette “a fare i conti”, scopre che per a=1 c’è la soluzione (1,0,2) e dichiara che per gli altri valori di a non ce ne sono… lasciandosi sfuggire che raddoppiando i valori della prima soluzione ne ottieni un’altra: (2,0,4).

Dal mio punto di vista non è che ci sia molto di strano: gli LLM non hanno nessuna idea di quello che fanno, e per loro 24a+b=12c non è un’equazione ma un insieme di caratteri. Ci saranno state probabilmente regole statistiche che gli permettono di calcolare i multipli di 24: ma immagino che b=12c−48 non fosse così presente nella base dati di addestramento per fargli trovare la risposta.

Io continuo a pensare che le cosiddette “allucinazioni” sono intrinseche negli LLM, e quindi non abbia senso fargli fare conti matematici. Your mileage may vary.

Aggiornamento (29 maggio) Su suggerimento di mestesso ho provato a usare Gemini. Peggio ancora. A parte l’inizio dove comincia bene ma è convinto che si possa usare il 5 per un numero in base 5

Passo 1: Identificare le possibili cifre in base 7

Un numero in base 7 con 3 cifre può assumere valori compresi tra  e . Tuttavia, per essere espresso con le stesse cifre invertite in base 5, il numero non può contenere la cifra 6.

Pertanto, le possibili cifre in base 7 sono: 0, 1, 2, 3, 4, 5.

nel passo due ha qualcosa peggio di un’allucinazione: deve aver preso roba tagliata male.

Cifra delle centinaia = 0: In questo caso, il numero è semplicemente 0, che non soddisfa la condizione di avere cifre diverse da 6.

Poi continua con casistiche dove non sono scritti i numeri, e termina dicendo che ci sono 20 numeri che soddisfano il problema.

output di gemini

Capirete che non vado a spendere 22 euro il mese per Gemini Advanced :-)

Ultimo aggiornamento: 2024-05-30 10:33

12 pensieri su “ChatGPT ne ha ancora da imparare, di matematica

  1. mestessoit

    Gemini si comporta meglio nei quesiti matematici, l’hai provato?
    Poi certo, nessuno è bravissimo e bisogna prendere ogni risposta (matematica o meno) con la dovuta cautela.

      1. mestessoit

        Sui quesiti di natura geometrica è più sul pezzo. Beh, no, non prenderei l’abbonamento…

  2. Leo M. A. Rotundo

    L’anno scorso ho provato a proporre alla versione free di Chatgpt i testi dei quesiti di matematica dell’esame di stato del Liceo Scientifico del 2023, ed è stato in grado di risolverne correttamente 2. Mi chiedo la versione a pagamento quanti ne avrebbe risolti. Credo che in un futuro oramai imminente bisognerà pensare all’uso del metal detector in tutti gli esami ed i concorsi.

  3. FF

    In realtà tutte la AI di tipo LLM (ChatGPT, Gemini, Claude etc) non hanno vere capacità matematiche, quando ci riescono è perché hanno trovato nel loro database la risposta giusta.
    Per questo sono in grado di calcolare “2 + 2 = ?” e non “198638476 + 745984790 = ?”.
    Il sistema migliore per fargli fare calcoli, in genere, consiste nel fargli scrivere un codice che fa quel calcolo, magari guidando la risposta passo passo fino ad arrivare alla soluzione esatta.
    Sul canale Youtube “Datapizza” c’è un brevissimo video che lo spiega meglio di me :-)

    1. .mau. Autore articolo

      ma se devo guidarlo passo passo a scrivere il codice, tanto vale che me lo scriva io, no?

      1. FF

        Be’, il codice di sopra l’ha scritto direttamente, codici più complessi si possono fare a passi. E la cosa utile consiste proprio nel poter “discutere” con la IA e capire il perché dei vari passaggi. Poi se il codice sai scriverlo da te, meglio, ma io, per esempio, non conosco il Pyton, oggi ho imparato qualcosa (che male non fa)

  4. FF

    I link non funzionano, in ChatGPT si deve creare un link dal menù “condividi” che appare cliccando col pulsante destro sulla specifica chat (con Gemini non so).

    Comunque è la prova che il database in inglese ha la risposta, quello in italiano no :-)

    (Ovviamente semplifico, la questione è più complessa di così, ma forse non tantissimo)

    1. .mau. Autore articolo

      ho corretto i link a chatgpt (non ho voglia di cercare come si fa con Gemini). Più che avere la risposta nella base dati, secondo me ha più esempi a disposizione.

  5. passante

    La situazione è un po’ più complicata. In un video su YouTube, uno del campo (non ricordo chi, purtroppo) evidenziava che un certo chatbot era in grado di eseguire esattamente una operazione aritmetica tra due numeri con un certo (esatto) numero di cifre, ma “tirava ad indovinare” con numeri di altra dimensione.

I commenti sono chiusi.