Archivi categoria: informatica e AI

AI e matematica: ci sono miglioramenti?

Alex Wilkins in questo articolo racconta dei progressi ottenuti nel 2024 dalle intelligenze artificiali nel campo della risoluzione di problemi matematici.
Come sapete, gli LLM non “comprendono” quello che hanno in input (o in output, se per questo) ma scelgono fondamentalmente la frase più probabile data la successione di parole in ingresso e le variabili nascoste che hanno a disposizione. Quindi se chiediamo a ChatGPT e ai suoi amici quanto fa 2 + 2 è estremamente probabile che la risposta sia 4; ma alla domanda “Add 34957 to 70764” rischiamo che la risposta sia 105621. (Non ho fatto la prova, ma immagino che chi sviluppa gli LLM abbia tenuto conto di questa particolare addizione e quindi ci sia del codice che faccia dare la risposta corretta.) Il guaio è che proprio perché gli LLM non capiscono quello che fanno è difficile per loro anche solo accorgersi che il problema è matematico e passarlo a un modulo “classico” che faccia i conti.

Pare però che quest’anno ci sia stato un miglioramento nelle performance di questi sistemi, partendo da Google Deepmind che sarebbe riuscita a prendere una medaglia d’argento alle olimpiadi della matematica – no, non vuol dire arrivare secondi, ma essere tra il 20% dei migliori – e arrivando al prossimo sistema O3 di OpenAI che avrebbe ottenuto il 75,7% di risposte corrette sul test “semiprivato” della ARC Challenge, studiato appunto per avere problemi facili per gli umani ma difficili per l’AI. Peccato che il costo per rispondere a ciascuna domanda è intorno ai 20$; O3 avrebbe anche raggiunto l’87,5%, sopra la soglia dell’85% che permetterebbe di vincere l’ARC Challenge, se non fosse per un piccolo particolare. Il costo per rispondere meglio alle domande è di 172 volte maggiore: in pratica per rispondere a una singola domanda O3 consuma 3500 euro di energia… e comunque le soluzioni in questo caso arrivavano per forza bruta, il che spiega il costo.

Diciamo insomma che questi sistemi ne hanno ancora da fare di strada…

OneDrive non si sincronizzava

Era qualche settimana che mi ero accorto che il mio OneDrive aziendale sul PC che ho a casa non si sincronizzava. Controllando meglio, non c’era proprio l’icona del programma tra i task. L’altro giorno mi sono impuntato e ho cercato di capire il busillis: ho ovviamente spento e riacceso il PC, ho disinstallato e reinstallato OneDrive, ma niente da fare. Le pagine in rete che trovavo non dicevano nulla di più di questo. Addirittura Glary Utilities non mostrava nessun sistema lanciato all’avvio, il che ovviamente era falso.

Alla fine sono riuscito a capitare qui, dove veniva consigliato di aprire il registro di sistema, cercare la chiave HKEY_LOCAL_MACHINE\Software\Policies\Microsoft\Windows\OneDrive , e se al suo interno c’era la chiave DisableFileSyncNGSC = DWORD:1 cancellarla. Appena fatto, Glary ha mostrato tutti i processi automatici, e rilanciando OneDrive quello si è finalmente messo a sincronizzare.

La mia domanda, che so già che rimarrà senza risposta, è “ma chi diavolo ha aggiunto quella chiave di sistema?”

OpenAI o1 saprà davvero “ragionare matematicamente”?

Mi pare che la notizia secondo cui OpenAI ha creato un chatbot che “sa fare ragionamenti matematici e scientifici” non abbia avuto grande eco. Può darsi che ciò sia dovuto al fatto che OpenAI o1 – questo è il nome in codice del nuovo progetto – è disponibile solo per un selezionato gruppo di utenti, oppure perché a nessuno interessa davvero avere un sistema che sappia risolvere problemi matematici.

Devo dire che l’articolo del NYT è parco di informazioni. Pare che OpenAI o1 usi l’apprendimento per rinforzo, quindi “premiando” le successioni di passi logici rispetto a un risultato ottenuto di colpo. L’idea degli sviluppatori è che in questo modo ci si avvicinerebbe di più al pensiero umano. Io personalmente non sono molto convinto di questo approccio, che continua a nascondere sotto il tappeto il problema di base degli LLM: non è che avere un approccio passo passo faccia sì che il computer abbia un’idea di quello che sta facendo: per lui continua a trattarsi di un’emissione di simboli secondo una certa logica sintattica e non semantica. Certo, è vero che fare passi più brevi aumenta la probabilità che l’output del singolo passo sia corretta: ma visto che il numero di passi aumenta alla fine la probabilità di un’allucinazione è la stessa.

Il modo migliore per far risolvere problemi di matematica è quello di accorgersi che si parla di matematica e passare a un altro sistema “classico”: se la domanda è “quanto fa 48 per 75?” ci dovrebbe essere un metasistema che si accorge di star facendo un’operazione aritmetica e quindi buttare via tutto l’apprendimento standard, facendo piuttosto partire un sistema classico. Perché è vero che probabilmente ChatGPT ha visto quell’espressione in fase di addestramento e quindi ha la risposta, ma è anche vero che alla domanda “quanto fa 10048 per 13275?” i risultati non possono essere che sbagliati. Eppure il pattern dovrebbe essere chiaro, e quindi passare a un sistema aritmetico dovrebbe essere possibile senza troppe difficoltà: il chatbot continuerebbe a non “pensare”, qualunque significato si dia a questa parola nel caso degli esseri umani, e si troverebbe in difficoltà con un testo del tipo “ci sono 10000 soldati e 48 comandanti, ciascuno dei quali pattuglia una zona rettangolare di lati 59 e 225 metri. Se le zone non si sovrappongono, qual è la superficie totale pattugliata?” (Ho appena provato: ChatGPT 4o si dimentica i 10000 soldati…)

In definitiva, questi chatbot saranno anche più bravi di noi, ma ne hanno ancora di strada da fare.

Ultimo aggiornamento: 2024-09-18 22:19

Open Encyclopedia of Cognitive Science

MIT Encyclopedia of thil sitoNel 1999 il MIT pubblicò la MIT Encyclopedia of the Cognitive Sciences, che raccoglieva informazioni sullo stato dell’arte nel campo delle scienze cognitive. È passato un quarto di secolo, sono arrivati i nuovi modelli di intelligenza artificiale, e anche il MIT si è adeguato: così hanno creato la Open Encyclopedia of Cognitive Sciences, contenente vari articoli introduttivi sui vari temi: vecchi (come il test di Turing) e nuovi (come gli LLM). Buona lettura!

Facile come 1+1


C’è una battuta che gira da decenni nella quale si spiega che gli ingegneri trovano la formula 1 + 1 = 2 troppo poco elegante, e preferiscono usare delle semplici trasformazioni algebriche per giungere a

$\begin{align}
& \ln\left(\lim_{z\to\infty}\left(\left(\left( \overline{X}^T \right)^{-1} – \left( \overline{X}^{-1} \right)^{T}\right) + \frac{1}{z}\right)^2 \right) + \sin^2(p) + \cos^2(p) = \\
&\qquad = \sum_{n=0}^{\infty}\frac{\cosh(q)\cdot\sqrt{1 – \tanh^2(q)}}{2^n}
\end{align}$

(no, non si può applicare la stessa cosa ai matematici. Se a un matematico chiedete quanto fa 1 + 1, con buona probabilità vi risponderà semplicemente “dipende”).

Ho scoperto che due anni fa Neel Nanda ha studiato come un trasformatore ha “costruito” la formula per l’addizione modulo n di due numeri. Il risultato è quello che vedete qui nell’immagine in alto. Quello che è successo è che il modello di intelligenza artificiale ha “calcolato” la somma modulare di due numeri usando la trasformata di Fourier discreta e alcune identità trigonometriche. Evidentemente dal suo “punto di vista” (o forse avrei dovuto mettere le virgolette intorno a “suo”) quelle operazioni erano più facili da salvare rispetto a quelle che avremmo usato noi, oppure il materiale di addestramento aveva molte più istanze da usare. In ogni caso credo che la lezione sia abbastanza chiara: anche chi ritiene che i LLM “pensino” non può negare che il loro pensiero sia completamente diverso dal nostro… (a meno che non crediate che i nostro sistema neurale sappia usare DFT e trigonometria a manella)

Google per default non indicizza più?

crawler di Google È un bel po’ di tempo che trovare qualcosa con Google è sempre più complicato. Non che io sia riuscito a trovare altri motori di ricerca migliori da questo punto di vista; ma l’immerdificazione (enshittification) di Google ormai non può essere tamponata nemmeno con ricerche un po’ più strutturate.

Secondo questo articolo la ragione è seplice: Google non indicizza più. O meglio, spiega Vincent Schmalbach, la sua impressione è che i suoi crawler prendono sempre tutto subito per non mancare le ultime notizie, ma poi cancellano quello che la grande G non ritiene interessante, lasciando il materiale dei siti più importanti e quello davvero di nicchia che non saprebbe come mostrare altrimenti. No, non c’è nessuna misura quantitativa, quindi potete prendere o no per buona la sua analisi, come anche il fatto che potrebbe non essere una coincidenza l’inizio di questa china con i primi contenuti scritti da GPT-1.

Che ne penso io? Scrivere contenuti interessanti e che dicano qualcosa di almeno un po’ originale è sempre più difficile. O meglio, scrivere contenuti che dicano qualcosa diverso dalla massa è sempre difficile allo stesso modo, perché bisogna fermarsi e cercare di vedere le cose da un punto di vista diverso accorgendosi allo stesso tempo di non dire idiozie (cosa che non capita spesso). Ma anche così, dire che quei contenuti siano poi interessanti è un’altra storia: ed evidentemente non è possibile distinguere tra contenuti generati artificialmente, contenuti stupidi e contenuti validi, così anche Google ha gettato la spugna. La normalizzazione di Internet è completata: le sacche residuali sopravviveranno, ma in modo carsico.

(immagine di Haywook Beasley, da Flickr)

“è corretto”

"si è verificato un problema, ma è corretto" Questa è la schermata che mi appare adesso se lancio Microsoft Store. Persino loro sanno che è corretto che abbiano problemi.

Ultimo aggiornamento: 2024-07-02 12:28