Gli è tutta una bolla!

@aitech@feddit.it

In questi giorni è difficile stare dietro a tutte le notizie su quanto succede nel mondo degli LLM, soprattutto se uno nella vita dovrebbe fare dell’altro. Torno sulla storia di DeepSeek per commentare questo articolo di Georg Zoeller, che vede le cose da un punto di vista non solo tecnico ma economico.

Già il titolo è emblematico, anche se confesso che ho dovuto chiedere al mio socialino di nicchia che significasse “Chinese Quant”. (Sono gli analisti quantitativi: come penso sappiate DeepSeek è un progetto collaterale di una società di trading) Il punto chiave è “The Greatest Growth Hack of All Times”, che è ancora più perfido della mia “bolla” ma ha in comune il fatto che tutta la pubblicità su queste AI è stata montata ad arte solo per far crescere il valore delle azioni. Che significato ha per esempio che la capitalizzazione di borsa di Nvidia fosse arrivata a mille miliardi di dollari, quasi la metà del PIL italiano? (ok, non dovrei mischiare mele con pere, ma è per dare un’idea). Col senno di poi avremmo dovuto accorgerci che il continuo cambio di nomi e acronimi, e lo stillicidio di prodotti lanciati e lasciati poi marcire perché c’era il nuovo sistema ancora più potente, per non parlare dei consumi sempre più esagerati significava che in realtà l’unico piano che c’era era far crescere artificialmente un mercato che non aveva nessuno sbocco reale, come ben sa chi ha provato a usare davvero in pratica questi sistemi e non solo a giocare con i chatbot. Il mantra era “solo i BigTech possono stare sul mercato delle AI”.

Zoeller continua presentando un sistema text-to-speech, Kokoro-82M, il cui addestramento è costato una cifra dell’ordine di 400$ e che dà risultati “sufficientemente buoni in molti casi”. Dovrei chiedere ai miei vecchi amici di Loquendo che ne pensano. Chiaramente un sistema di questo tipo mina alla base i modelli di prezzo dei grandi text-to-speech aziendali. DeekSeek fa lo stesso: usa il sistema Chain-of-Thought Prompting che OpenAI aveva ideato l’anno scorso per migliorare la sua capacità di “ragionamento”. (In due parole, il Chain-of-Thought prevede che la risposta sia generata come un processo dove viene costruita man mano, usando il testo generato per migliorare le previsioni su come continuare. La cosa non è affatto stupida, anche noi umani facciamo così, e i risultati si vedono). Ma soprattutto DeepSeek nella sua versione R1 mostra che il fossato che le grandi società avevano creato – vedi il mantra sopra – era facilmente superabile. Ok, non “facilmente” nel senso che lo puoi fare con il tuo Mac a casa (anche se spuntano già i modelli distillati usando R1 che possono girare su una workstation appena un po’ carrozzata), ma che era alla portata di un’azienda di media grandezza come progetto collaterale. Inoltre il fatto che il modello (non i dati di training) sia stato rilasciato con la liberale licenza MIT dà un duro colpo ai sistemi americani che formalmente partivano da Open Source (per avere manodopera gratuita) ma erano molto attenti a non pubblicare le loro migliorie se non con un ritardo sufficiente a farli stare due o tre passi avanti. Ora non si potrà più fare nulla del genere. Se davvero il progetto open-r1 prenderà piede, anche il dataset sarà davvero open source, e ne vedremo delle belle.

Per quanto riguarda le conclusioni dell’articolo, ho dei dubbi che l’EU riderà per non essersi lanciata subito nella corsa alle AI ma si sia messa a legiferare (cosa che di per sé non trovo sbagliata, eh. Ma non doveva essere l’unica), mentre sono più d’accordo sul fatto che Nvidia alla fine non perderà molto, perché la potenza di calcolo servirà comunque. Lo stesso per la sua previsione che le allucinazioni non potranno essere eliminate semplicemente aggiungendo potenza di calcolo, e che il pendolo si sposterà di nuovo su sistemi di ambito più limitato ma più facili da far funzionare bene. Ma la cosa più importante è quella che leggo tra le righe, quando Zoeller scrive del “fundamentally unsafe patters of using a single input for both data and instruction into LLMs”, che porta ai problemi di prompt injection nel bene (superare i blocchi inseriti per esempio in DeepSeek cambiando l’input o dando istruzioni particolari) e nel male (pensate a come si possono usare questi trucchi da parte degli scammer). Il tutto senza che almeno per quanto io veda qualcuno si stia preoccupando. Io non sono certo un esperto di intelligenza artificiale, ma vedo che le persone che danno davvero informazioni utili sono molto poche, e soprattutto manca un livello di mezzo non troppo tecnico per far capire le conseguenze di quello che succede. È chiaro che è più facile guardarsi reel su reel di TikTok, ma se non si dà la possibilità di farsi un’idea cosa si spera?

3 pensieri su “Gli è tutta una bolla!”

Bubbo Bubboni 2025-01-31 alle 15:53

Mah, più uso e guardo all’AI e più mi chiedo quando sarà annunciata, con la tradizionale sobrietà e serietà, la versione EU.
Cosa potrà raggiungere gli indimenticati successi del motore di ricerca europeo o del sistema operativo per cellulari europeo?
Possibile che la paura di molestare il tale governo democratico e le sue sempre innovative aziende possa cancellare una fantastica opportunità di annunciare qualcosa di diverso da un nuovo invio di armi di pace o una nuova regolamentazione su qualcosa che stranamente ne era ancora privo?
Va bene bloccare l’accesso all’AI in mano alle oscure potenze amiche o nemiche, ma non avere (in corso di sviluppo) la versione approvata, eco-green & privacy-complaiant, addestrata solo con testi puri e veri, mi preoccupa.
Capisco l’esigenza di puntare tutto sull’industria bellica di pace, ma restare senza una propria AI sarebbe come restare senza vicepresidenti al parlamento europeo!

mestessoit 2025-01-31 alle 19:18

Un articolo semi tecnico di comparazione tra DeepSeek vs resto del mondo con considerazioni varie sui costi interessante a suo modo: https://semianalysis.com/2025/01/31/deepseek-debates/. In pratica, la visione del mondo corporate è “non è un mercato maturo, i player cambiano velocemente, aspetta un attimo a decidere chi e cosa usare”.

Bubbo Bubboni 2025-02-01 alle 15:28

Mi pare che questa volta ci siano differenze. In genere i top biz consultant dicono che solo gli innovatori devono usare subito qualcosa (cfr. internet, intranet, wireless, cloud, BYOD, ecc. ecc.) mentre gli altri devono aspettare che i prodotti maturino mettendo a fuoco i processi, blabla. Già nel 2024 hanno detto qualcosa di diverso, ma oramai siamo già al solito “è roba già vecchia, se non la usi sei fuori”.
Direi che in questa variazione rispetto ai soliti report, hanno giocato sia l’enorme incremento di produttività/riduzione di costi che la scarsità di personale per lavori qualificati (qui gli analisti più arditi parlano di brain-fog e uscita forzata dal mercato, altri arrivano fino al YOLO o a cause sociali non meglio precisate).
Quello che invece non trovo proprio è… ma se sono una soc. di investimenti… ma di quanto hanno shortato NVDA?? …altro che du’ spicci per far giocare i nerd…

Caricamento...

I commenti sono chiusi.

Notiziole di .mau.

Pensieri slegati che scrivo quando mi capita

Gli è tutta una bolla!

Mi piace:

Related

3 pensieri su “Gli è tutta una bolla!”