Abbiamo raggiunto il top degli LLM attuali?

È stato lanciato ChatGPT-5, e a quanto pare i giudizi sono discordi. A quanto sembra, non funziona così tanto meglio della versione 4o, o almeno ci sono task in cui funziona peggio. Il tutto dopo due anni di preparazione del nuovo modello. Come è possibile?

Cal Newport sul New Yorker spiega ricapitola la storia, partendo dall’articolo “Scaling Laws for Neural Language Models” scritto a gennaio 2020 da alcuni ricercatori top di OpenAI, tra cui Jared Kaplan e Dario Amodei che poi ha fondato Anthropic. In questo articolo si affermava che non solo i modelli sarebbero migliorati con l’aumentare delle dimensioni del materiale di addestramento, e non si sarebbero adagiati sul memorizzare semplicemente le frasi, ma l’aumento delle prestazioni sarebbe stato secondo una legge di potenza. E in effetti GPT-3 è stato un grande miglioramento rispetto a GPT-2, così come GPT-4 lo è stato rispetto a GPT-3. Ma poi ci si è appunto fermati: OpenAI ha creato modelli ibridi, e adesso un GPT-5 non così eclatante.

In effetti i modelli o1, o3 e o4 non hanno lavorato sul preaddestramento, come previsto dall’articolo di OpenAI citato all’inizio, ma sul postaddestramento: in un certo senso ci si è “limitati” a fare aggiustamenti successivi. Anche la distillazione è un aggiustamento, in un certo senso, Evidentemente quello che è successo è che non si è riusciti ad aumentare il preaddestramento a sufficienza.

Cosa significa tutto questo, a parte il far crescere di intensità le voci di scoppio della bolla AI, come dice per esempio Charlie Warzel sull’Atlantic? La mia sensazione è che non ci sia più abbastanza materiale di addestramento in tutto il mondo, e quindi da quel lato abbiamo toccato il tetto. Del resto, fare generare nuovo testo dagli LLM, come è stato proposto anche seriamente da qualcuno, non mi pare chissà quale grande idea: il materiale fondamentalmente è lo stesso. L’unico grande serbatoio rimasto a disposizione per aumentare la base dati di addestramento sono le chat, che però sono sempre più protette per ragioni di privacy. Il postaddestramento migliora i risultati, ma non tanto come il preaddestramento: quindi anche da lì non si potrà tirare fuori più di tanto.

Siamo insomma arrivati all’ultimo miglio per i modelli di intellgenza artificiale? Non necessariamente. Diciamo che siamo arrivati all’ultimo miglio per i modelli attuali, il che significa semplicemente che bisognerà trovare qualcosa di nuovo. Non necessariamente “conoscenza” nel senso che noi umani intendiamo, ma sicuramente un nuovo modo per lavorare con la correlazione dei dati, o almeno con la fase che segue la correlazione. Ma questo non sarà certo semplice, e ci vorranno tanti, tanti soldi oltre che nuove idee: se la bolla delle IA scoppierà perché non ci sono più miglioramenti tangibili, da dove arriveranno questi soldi?

Ultimo aggiornamento: 2025-08-21 12:48

12 pensieri su “Abbiamo raggiunto il top degli LLM attuali?

  1. Massimo Gentilini

    O forse è finita la mole di dati usabile senza pagare dei diritti.

    Quello che non mi è chiaro è quanto potrebbe migliorare un prossimo gpt6 se usasse (legittimamente) tutto il corpus documentale di una McGrawHill…

    Rispondi
    1. .mau. Autore articolo

      Quella era finita da anni, si sono presi da mo’ tutti i libri sotto copyright da libgen e affini…

      Rispondi
  2. Antonio

    “Del resto, fare generare nuovo testo dagli LLM, come è stato proposto anche seriamente da qualcuno, non mi pare chissà quale grande idea: il materiale fondamentalmente è lo stesso. ”
    Chi l’ha proposto? Perché io avevo letto del fenomeno “the curse of recursion” e relativo teorema che dimostrava come il testo prodotto degli LLM addestrati su materiale da loro generato degradasse fino a collassare.

    Rispondi
    1. .mau. Autore articolo

      Non me lo ricordo, era roba di mesi fa e mi è sembrata subito una idiozia sesquipedale, tanto che non mi sono salvato il link.

      Rispondi
        1. .mau. Autore articolo

          E non è appunto un’idiozia far collassare il modello perdendo le code delle distribuzioni?

          Rispondi
          1. Antonio

            Forse ho capito che stiamo dicendo la stessa cosa, quando parli di idiozia non ti riferisci all’articolo ma all’idea dell’addestramento “ricorsivo”…
            E quando dici che non ti ricordi intendi chi l’ha proposto, non (ancora una volta) l’articolo…

          2. Antonio

            Io invece mi sono sempre chiesto se ha senso tutto questo spasmodico interesse verso gli archivi dei social media come materiale di addestramento. Non mi pare che il materiale di facebook, whatsapp e twitter possa avere un grande valore, dal momento che è pieno di sciocchezze e discussioni di basso livello.
            Io la vedo così: esiste un trade-off tra dimensione del materiale di addestramento e qualità dello stesso. A un certo punto se si aggiunge materiale di scarsa qualità i risultati degli LLM peggiorano…

          3. Antonio

            Scusate volevo rispondere alla discussione di Massimo Gentilini. (e spero che questa risposta venga visualizzata almeno nella giusta posizione)

  3. un cattolico

    Lo hai scritto da cellulare?
    “È stato lanciato ChatGPT-5, e a quanto pare i giudizi sono discorsi. A quanto sembra, non funIona così tanto meglio della versione 4o”

    Discorsi – discordi
    funlona – funziona

    Rispondi
    1. .mau. Autore articolo

      Sì, in questo periodo scrivo spesso da furbofono, che tanto furbo non è…

      Rispondi
    2. .mau. Autore articolo

      (poi in realtà la parte cicciosa l’ho fatta al PC, e quindi i refusi sono di tipo diverso… Solo il primo capoverso è da mobile. Sì, io scrivo a spizzichi e bocconi)

      Rispondi

Rispondi a .mau.Annulla risposta

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.