Archivi categoria: informatica e AI

Gli è tutta una bolla!

@aitech

In questi giorni è difficile stare dietro a tutte le notizie su quanto succede nel mondo degli LLM, soprattutto se uno nella vita dovrebbe fare dell’altro. Torno sulla storia di DeepSeek per commentare questo articolo di Georg Zoeller, che vede le cose da un punto di vista non solo tecnico ma economico.

Già il titolo è emblematico, anche se confesso che ho dovuto chiedere al mio socialino di nicchia che significasse “Chinese Quant”. (Sono gli analisti quantitativi: come penso sappiate DeepSeek è un progetto collaterale di una società di trading) Il punto chiave è “The Greatest Growth Hack of All Times”, che è ancora più perfido della mia “bolla” ma ha in comune il fatto che tutta la pubblicità su queste AI è stata montata ad arte solo per far crescere il valore delle azioni. Che significato ha per esempio che la capitalizzazione di borsa di Nvidia fosse arrivata a mille miliardi di dollari, quasi la metà del PIL italiano? (ok, non dovrei mischiare mele con pere, ma è per dare un’idea). Col senno di poi avremmo dovuto accorgerci che il continuo cambio di nomi e acronimi, e lo stillicidio di prodotti lanciati e lasciati poi marcire perché c’era il nuovo sistema ancora più potente, per non parlare dei consumi sempre più esagerati significava che in realtà l’unico piano che c’era era far crescere artificialmente un mercato che non aveva nessuno sbocco reale, come ben sa chi ha provato a usare davvero in pratica questi sistemi e non solo a giocare con i chatbot. Il mantra era “solo i BigTech possono stare sul mercato delle AI”.

Zoeller continua presentando un sistema text-to-speech, Kokoro-82M, il cui addestramento è costato una cifra dell’ordine di 400$ e che dà risultati “sufficientemente buoni in molti casi”. Dovrei chiedere ai miei vecchi amici di Loquendo che ne pensano. Chiaramente un sistema di questo tipo mina alla base i modelli di prezzo dei grandi text-to-speech aziendali. DeekSeek fa lo stesso: usa il sistema Chain-of-Thought Prompting che OpenAI aveva ideato l’anno scorso per migliorare la sua capacità di “ragionamento”. (In due parole, il Chain-of-Thought prevede che la risposta sia generata come un processo dove viene costruita man mano, usando il testo generato per migliorare le previsioni su come continuare. La cosa non è affatto stupida, anche noi umani facciamo così, e i risultati si vedono). Ma soprattutto DeepSeek nella sua versione R1 mostra che il fossato che le grandi società avevano creato – vedi il mantra sopra – era facilmente superabile. Ok, non “facilmente” nel senso che lo puoi fare con il tuo Mac a casa (anche se spuntano già i modelli distillati usando R1 che possono girare su una workstation appena un po’ carrozzata), ma che era alla portata di un’azienda di media grandezza come progetto collaterale. Inoltre il fatto che il modello (non i dati di training) sia stato rilasciato con la liberale licenza MIT dà un duro colpo ai sistemi americani che formalmente partivano da Open Source (per avere manodopera gratuita) ma erano molto attenti a non pubblicare le loro migliorie se non con un ritardo sufficiente a farli stare due o tre passi avanti. Ora non si potrà più fare nulla del genere. Se davvero il progetto open-r1 prenderà piede, anche il dataset sarà davvero open source, e ne vedremo delle belle.

Per quanto riguarda le conclusioni dell’articolo, ho dei dubbi che l’EU riderà per non essersi lanciata subito nella corsa alle AI ma si sia messa a legiferare (cosa che di per sé non trovo sbagliata, eh. Ma non doveva essere l’unica), mentre sono più d’accordo sul fatto che Nvidia alla fine non perderà molto, perché la potenza di calcolo servirà comunque. Lo stesso per la sua previsione che le allucinazioni non potranno essere eliminate semplicemente aggiungendo potenza di calcolo, e che il pendolo si sposterà di nuovo su sistemi di ambito più limitato ma più facili da far funzionare bene. Ma la cosa più importante è quella che leggo tra le righe, quando Zoeller scrive del “fundamentally unsafe patters of using a single input for both data and instruction into LLMs”, che porta ai problemi di prompt injection nel bene (superare i blocchi inseriti per esempio in DeepSeek cambiando l’input o dando istruzioni particolari) e nel male (pensate a come si possono usare questi trucchi da parte degli scammer). Il tutto senza che almeno per quanto io veda qualcuno si stia preoccupando. Io non sono certo un esperto di intelligenza artificiale, ma vedo che le persone che danno davvero informazioni utili sono molto poche, e soprattutto manca un livello di mezzo non troppo tecnico per far capire le conseguenze di quello che succede. È chiaro che è più facile guardarsi reel su reel di TikTok, ma se non si dà la possibilità di farsi un’idea cosa si spera?

E dunque questo DeepSeek?

@aitech

E insomma il nuovo arrivato questa settimana è DeepSeek, sistema LLM che formalmente è nato come progetto collaterale di un’azienda cinese di asset management, i cui algoritmi (ma non il materiale di addestramento…) sono open source, ha un costo di addestramento che è tra uno e due ordini di grandezza inferiore a quello di OpenAI o1, epperò funziona “good enough”, che era già una volta un mantra per i servizi internet ma ormai è diventata la bibbia – anche perché. diciamocelo, non è per nulla scontato che questi sistemi diano risposte direttamente utilizzabili, anzi.

Anch’io ho provato a usarlo. Chiedendogli chi è Maurizio Codogno, senza dargli nessun contesto, ha tirato fuori qualche frase adulatoria e senza un vero contenuto:

Maurizio Codogno is an Italian mathematician, blogger, and science communicator. He is known for his work in popularizing mathematics and making it accessible to a broader audience. Codogno has written extensively on mathematics, often focusing on its applications and relevance in everyday life. He is also a prolific blogger, contributing to various platforms where he shares insights, explanations, and commentary on mathematical topics.

Codogno has authored several books and articles aimed at demystifying complex mathematical concepts for non-experts. His efforts in science communication have made him a respected figure in the Italian scientific community and beyond. If you have specific questions about his work or contributions, feel free to ask!

(sì, io preferisco usarlo direttamente in inglese per togliere un passaggio). Rispetto ai miei tentativi con il primo ChatGPT ha evitato di parlare del mio omonimo ex calciatore, che è quello che ha la voce su Wikipedia, e soprattutto non si è inventato titoli di libri che non ho mai scritto. Ma quello che mi ha stupito di più è stata la risposta a una variante quesito proposto il mese scorso da Mike Loukides in questo articolo: “Sai dimostrare che se tutte le cifre di un numero primo sono 1 allora il numero di cifre deve essere un numero primo?” Chiunque abbia letto Martin Gardner lo sa, e immagino che nel corpus di addestramento ci sia qualcosa del genere: però la domanda posta così non è immediata. Io ho fatto leggermente di peggio: ho chiesto

A repetitium is a number which is written using a single digit, like 666. Can you find a necessary condition for a repetitium to be a prime number, and explain me which steps you did to arrive at the conclusion?

scegliendo apposta un termine inesistente per definire quelli che in letteratura sono detti repunits, dando come esempio un numero la cui cifra ripetuta non è 1, e chiedendo di trovare una condizione necessaria senza esplicitarla. Potete vedere la risposta di DeepSeek qui. Nulla da eccepire, il che da un certo punto di vista è inquietante: d’altra parte afferma di essere il LLM più performante nel test MATH-500.

Secondo il Financial Times, Deep Seek afferma di essere stato addestrato usando 2048 schede grafiche Nvidia H800, con un costo di 5,6 milioni di dollari e 671 miliardi di parameteri: molto meno dei rivali. Sempre secondo il FT, OpenAI ha accusato DeepSeek di avere usato GPT-4 come punto di partenza per distillare i suoi contenuti… comportamenti illeciti un po’ come le accuse di violazione di copyright nei confronti di OpenAI, insomma. Più che altro, quello che io noto è che la mia preoccupazione riguardo al set di training generato automaticamente non è condivisa, e che in questo modo si arriva a un risultato “good enough” con una frazione del costo di addestramento. (Poi, leggendo qui, c’è anche chi sospetta che quei dati siano appositamente sottostimati).

Ovviamente DeepSeek ha scelto di sparigliare il mercato, che fino a questo momento era tenuto saldamente in mano dai soliti noti. Questo significa tra l’altro che la bolla AI (e quella delle utility energetiche…) potrebbe scoppiare molto prima di quanto si pensasse. Peggio ancora, il Post cita il blog Stratechery, dove Ben Johnson ritiene che in DeepSeek ci siano anche migliorie importanti, almeno rispetto all’efficienza (anche se pensa che o1 sia ancora migliore come capacità). Da questo punto di vista continuo a credere che abbiamo raggiunto un plateau, e per passare dal good enough al “good without ifs and buts” :-) occorrerà qualche nuova idea. Staremo ad aspettare: in fin dei conti se ora è più facile entrare nel mondo LLM magari a qualcuno l’idea arriverà…

Aggiornamento: (9:00): Sicuramente se uno non ha fatto un account DeepSeek non vede nulla, non ho fatto prove con un account diverso. Allego quindi screenshot (cliccabili per ingrandire) della conversazione.

prima schermata

seconda schermata

terza schermata

Ultimo aggiornamento: 2025-01-30 09:29

E se non ci fossero più “nuovi LLM?”

Ho trovato su Substack questo post di Alberto Romero che mi ha preoccupato parecchio. Riassunto per chi ha fretta: Romero ipotizza che GPT-5 esiste, ma non verrà reso pubblico perché il suo costo computazionale è troppo alto; esso è stato però usato per addestrare i nuovi modelli pubblici, come o1 e il futuro o3. Da dove deriva questa impressione? da quello che è successo con Anthropic (cioè Amazon, se ve lo chiedeste) e Opus 3.5, che è stato ufficialmente cancellato “perché non era così migliore dei modelli precedenti” ma sarebbe stato comunque usato per addestrare il successore del precedente sistema Sonnet 3.5, che effettivamente ha avuto un grande miglioramento nelle prestazioni. Notate il condizionale che ho usato (perché è stato usato nell’articolo). Sono tutte supposizioni.

Romero spiega che il rapporto costi-benefici del nuovo sistema non si è rivelato sufficiente: d’altra parte, se date un’occhiata a questo post, notate come il passaggio da un modello a quello superiore costa – nel senso di quanto si paga per migliaia di token – un ordine di grandezza in più passando da un modello al successivo… tranne che nel caso di o1, dove il costo si riduce. Inoltre il modello di o1 sembra avere un numero di parametri inferiore a quello di GPT-4. L’inferenza di Romero è che o1 è stato addestrato con GPT-5. È vero che il costo computazionale di quest’ultimo sarebbe altissimo, ma è anche vero che l’addestramento si fa una volta sola, e

What you need to remember is that a strong model acting as a “teacher” turns “student” models from [small, cheap, fast] + weak into [small, cheap, fast] + powerful.

Il tutto senza contare che è finito il materiale di pre-addestramento: sempre dall’articolo di Romero,

But overtraining is not feasible anymore. AI labs have exhausted the high-quality data sources for pre-training. Elon Musk and Ilya Sutskever admitted that much in recent weeks

(ok, che lo dica Elonio non significa molto, ma basta fare dei conti spannometrici per accorgersi che questa ipotesi è plausibile.) Tutto bene, allora? Viviamo nel migliore dei mondi possibili e abbiamo trovato un sistema per ridurre l’impronta energetica di questi sistemi? Mica tanto. L’autoaddestramento va benissimo per sistemi dalle regole fisse, come il go. Qui invece abbiamo un sistema statistico. proprio perché sono vent’anni che abbiamo visto che è impossibile sperare di trovare un sistema di regole. Posso immaginare che ci siano tonnellate di correzioni inserite nell’algoritmo, ma autoaddestrare in questo modo dà la certezza che gli errori di base nell’approccio generativo delle risposte si perpetueranno, perché il sistema si dà ragione da solo. Si avrà, solo moltiplicato per un fattore incredibile, l’effetto Wikipedia copycat: qualcuno scrive un testo errato nell’enciclopedia, altri copiano bovinamente quello che c’è scritto, e a questo punto abbiamo la fonte bella pronta e la Verità Errata stabilita una volta per tutte.

Capite perché sono preoccupato?

AI e matematica: ci sono miglioramenti?

Alex Wilkins in questo articolo racconta dei progressi ottenuti nel 2024 dalle intelligenze artificiali nel campo della risoluzione di problemi matematici.
Come sapete, gli LLM non “comprendono” quello che hanno in input (o in output, se per questo) ma scelgono fondamentalmente la frase più probabile data la successione di parole in ingresso e le variabili nascoste che hanno a disposizione. Quindi se chiediamo a ChatGPT e ai suoi amici quanto fa 2 + 2 è estremamente probabile che la risposta sia 4; ma alla domanda “Add 34957 to 70764” rischiamo che la risposta sia 105621. (Non ho fatto la prova, ma immagino che chi sviluppa gli LLM abbia tenuto conto di questa particolare addizione e quindi ci sia del codice che faccia dare la risposta corretta.) Il guaio è che proprio perché gli LLM non capiscono quello che fanno è difficile per loro anche solo accorgersi che il problema è matematico e passarlo a un modulo “classico” che faccia i conti.

Pare però che quest’anno ci sia stato un miglioramento nelle performance di questi sistemi, partendo da Google Deepmind che sarebbe riuscita a prendere una medaglia d’argento alle olimpiadi della matematica – no, non vuol dire arrivare secondi, ma essere tra il 20% dei migliori – e arrivando al prossimo sistema O3 di OpenAI che avrebbe ottenuto il 75,7% di risposte corrette sul test “semiprivato” della ARC Challenge, studiato appunto per avere problemi facili per gli umani ma difficili per l’AI. Peccato che il costo per rispondere a ciascuna domanda è intorno ai 20$; O3 avrebbe anche raggiunto l’87,5%, sopra la soglia dell’85% che permetterebbe di vincere l’ARC Challenge, se non fosse per un piccolo particolare. Il costo per rispondere meglio alle domande è di 172 volte maggiore: in pratica per rispondere a una singola domanda O3 consuma 3500 euro di energia… e comunque le soluzioni in questo caso arrivavano per forza bruta, il che spiega il costo.

Diciamo insomma che questi sistemi ne hanno ancora da fare di strada…

OneDrive non si sincronizzava

Era qualche settimana che mi ero accorto che il mio OneDrive aziendale sul PC che ho a casa non si sincronizzava. Controllando meglio, non c’era proprio l’icona del programma tra i task. L’altro giorno mi sono impuntato e ho cercato di capire il busillis: ho ovviamente spento e riacceso il PC, ho disinstallato e reinstallato OneDrive, ma niente da fare. Le pagine in rete che trovavo non dicevano nulla di più di questo. Addirittura Glary Utilities non mostrava nessun sistema lanciato all’avvio, il che ovviamente era falso.

Alla fine sono riuscito a capitare qui, dove veniva consigliato di aprire il registro di sistema, cercare la chiave HKEY_LOCAL_MACHINE\Software\Policies\Microsoft\Windows\OneDrive , e se al suo interno c’era la chiave DisableFileSyncNGSC = DWORD:1 cancellarla. Appena fatto, Glary ha mostrato tutti i processi automatici, e rilanciando OneDrive quello si è finalmente messo a sincronizzare.

La mia domanda, che so già che rimarrà senza risposta, è “ma chi diavolo ha aggiunto quella chiave di sistema?”

OpenAI o1 saprà davvero “ragionare matematicamente”?

Mi pare che la notizia secondo cui OpenAI ha creato un chatbot che “sa fare ragionamenti matematici e scientifici” non abbia avuto grande eco. Può darsi che ciò sia dovuto al fatto che OpenAI o1 – questo è il nome in codice del nuovo progetto – è disponibile solo per un selezionato gruppo di utenti, oppure perché a nessuno interessa davvero avere un sistema che sappia risolvere problemi matematici.

Devo dire che l’articolo del NYT è parco di informazioni. Pare che OpenAI o1 usi l’apprendimento per rinforzo, quindi “premiando” le successioni di passi logici rispetto a un risultato ottenuto di colpo. L’idea degli sviluppatori è che in questo modo ci si avvicinerebbe di più al pensiero umano. Io personalmente non sono molto convinto di questo approccio, che continua a nascondere sotto il tappeto il problema di base degli LLM: non è che avere un approccio passo passo faccia sì che il computer abbia un’idea di quello che sta facendo: per lui continua a trattarsi di un’emissione di simboli secondo una certa logica sintattica e non semantica. Certo, è vero che fare passi più brevi aumenta la probabilità che l’output del singolo passo sia corretta: ma visto che il numero di passi aumenta alla fine la probabilità di un’allucinazione è la stessa.

Il modo migliore per far risolvere problemi di matematica è quello di accorgersi che si parla di matematica e passare a un altro sistema “classico”: se la domanda è “quanto fa 48 per 75?” ci dovrebbe essere un metasistema che si accorge di star facendo un’operazione aritmetica e quindi buttare via tutto l’apprendimento standard, facendo piuttosto partire un sistema classico. Perché è vero che probabilmente ChatGPT ha visto quell’espressione in fase di addestramento e quindi ha la risposta, ma è anche vero che alla domanda “quanto fa 10048 per 13275?” i risultati non possono essere che sbagliati. Eppure il pattern dovrebbe essere chiaro, e quindi passare a un sistema aritmetico dovrebbe essere possibile senza troppe difficoltà: il chatbot continuerebbe a non “pensare”, qualunque significato si dia a questa parola nel caso degli esseri umani, e si troverebbe in difficoltà con un testo del tipo “ci sono 10000 soldati e 48 comandanti, ciascuno dei quali pattuglia una zona rettangolare di lati 59 e 225 metri. Se le zone non si sovrappongono, qual è la superficie totale pattugliata?” (Ho appena provato: ChatGPT 4o si dimentica i 10000 soldati…)

In definitiva, questi chatbot saranno anche più bravi di noi, ma ne hanno ancora di strada da fare.

Ultimo aggiornamento: 2024-09-18 22:19

Open Encyclopedia of Cognitive Science

MIT Encyclopedia of thil sitoNel 1999 il MIT pubblicò la MIT Encyclopedia of the Cognitive Sciences, che raccoglieva informazioni sullo stato dell’arte nel campo delle scienze cognitive. È passato un quarto di secolo, sono arrivati i nuovi modelli di intelligenza artificiale, e anche il MIT si è adeguato: così hanno creato la Open Encyclopedia of Cognitive Sciences, contenente vari articoli introduttivi sui vari temi: vecchi (come il test di Turing) e nuovi (come gli LLM). Buona lettura!