È stato lanciato ChatGPT-5, e a quanto pare i giudizi sono discordi. A quanto sembra, non funziona così tanto meglio della versione 4o, o almeno ci sono task in cui funziona peggio. Il tutto dopo due anni di preparazione del nuovo modello. Come è possibile?
Cal Newport sul New Yorker spiega ricapitola la storia, partendo dall’articolo “Scaling Laws for Neural Language Models” scritto a gennaio 2020 da alcuni ricercatori top di OpenAI, tra cui Jared Kaplan e Dario Amodei che poi ha fondato Anthropic. In questo articolo si affermava che non solo i modelli sarebbero migliorati con l’aumentare delle dimensioni del materiale di addestramento, e non si sarebbero adagiati sul memorizzare semplicemente le frasi, ma l’aumento delle prestazioni sarebbe stato secondo una legge di potenza. E in effetti GPT-3 è stato un grande miglioramento rispetto a GPT-2, così come GPT-4 lo è stato rispetto a GPT-3. Ma poi ci si è appunto fermati: OpenAI ha creato modelli ibridi, e adesso un GPT-5 non così eclatante.
In effetti i modelli o1, o3 e o4 non hanno lavorato sul preaddestramento, come previsto dall’articolo di OpenAI citato all’inizio, ma sul postaddestramento: in un certo senso ci si è “limitati” a fare aggiustamenti successivi. Anche la distillazione è un aggiustamento, in un certo senso, Evidentemente quello che è successo è che non si è riusciti ad aumentare il preaddestramento a sufficienza.
Cosa significa tutto questo, a parte il far crescere di intensità le voci di scoppio della bolla AI, come dice per esempio Charlie Warzel sull’Atlantic? La mia sensazione è che non ci sia più abbastanza materiale di addestramento in tutto il mondo, e quindi da quel lato abbiamo toccato il tetto. Del resto, fare generare nuovo testo dagli LLM, come è stato proposto anche seriamente da qualcuno, non mi pare chissà quale grande idea: il materiale fondamentalmente è lo stesso. L’unico grande serbatoio rimasto a disposizione per aumentare la base dati di addestramento sono le chat, che però sono sempre più protette per ragioni di privacy. Il postaddestramento migliora i risultati, ma non tanto come il preaddestramento: quindi anche da lì non si potrà tirare fuori più di tanto.
Siamo insomma arrivati all’ultimo miglio per i modelli di intellgenza artificiale? Non necessariamente. Diciamo che siamo arrivati all’ultimo miglio per i modelli attuali, il che significa semplicemente che bisognerà trovare qualcosa di nuovo. Non necessariamente “conoscenza” nel senso che noi umani intendiamo, ma sicuramente un nuovo modo per lavorare con la correlazione dei dati, o almeno con la fase che segue la correlazione. Ma questo non sarà certo semplice, e ci vorranno tanti, tanti soldi oltre che nuove idee: se la bolla delle IA scoppierà perché non ci sono più miglioramenti tangibili, da dove arriveranno questi soldi?
Ultimo aggiornamento: 2025-08-21 12:48
O forse è finita la mole di dati usabile senza pagare dei diritti.
Quello che non mi è chiaro è quanto potrebbe migliorare un prossimo gpt6 se usasse (legittimamente) tutto il corpus documentale di una McGrawHill…
Quella era finita da anni, si sono presi da mo’ tutti i libri sotto copyright da libgen e affini…
“Del resto, fare generare nuovo testo dagli LLM, come è stato proposto anche seriamente da qualcuno, non mi pare chissà quale grande idea: il materiale fondamentalmente è lo stesso. ”
Chi l’ha proposto? Perché io avevo letto del fenomeno “the curse of recursion” e relativo teorema che dimostrava come il testo prodotto degli LLM addestrati su materiale da loro generato degradasse fino a collassare.
Non me lo ricordo, era roba di mesi fa e mi è sembrata subito una idiozia sesquipedale, tanto che non mi sono salvato il link.
Idiozia? Sei sicuro di avere letto l’articolo giusto?
https://arxiv.org/pdf/2305.17493
E non è appunto un’idiozia far collassare il modello perdendo le code delle distribuzioni?
Forse ho capito che stiamo dicendo la stessa cosa, quando parli di idiozia non ti riferisci all’articolo ma all’idea dell’addestramento “ricorsivo”…
E quando dici che non ti ricordi intendi chi l’ha proposto, non (ancora una volta) l’articolo…
Io invece mi sono sempre chiesto se ha senso tutto questo spasmodico interesse verso gli archivi dei social media come materiale di addestramento. Non mi pare che il materiale di facebook, whatsapp e twitter possa avere un grande valore, dal momento che è pieno di sciocchezze e discussioni di basso livello.
Io la vedo così: esiste un trade-off tra dimensione del materiale di addestramento e qualità dello stesso. A un certo punto se si aggiunge materiale di scarsa qualità i risultati degli LLM peggiorano…
Scusate volevo rispondere alla discussione di Massimo Gentilini. (e spero che questa risposta venga visualizzata almeno nella giusta posizione)
Lo hai scritto da cellulare?
“È stato lanciato ChatGPT-5, e a quanto pare i giudizi sono discorsi. A quanto sembra, non funIona così tanto meglio della versione 4o”
Discorsi – discordi
funlona – funziona
Sì, in questo periodo scrivo spesso da furbofono, che tanto furbo non è…
(poi in realtà la parte cicciosa l’ho fatta al PC, e quindi i refusi sono di tipo diverso… Solo il primo capoverso è da mobile. Sì, io scrivo a spizzichi e bocconi)