La lezione ancora più amara

Nel 2019 Richard Sutton postò sul suo sito un breve testo, “The Bitter Lesson“. Sutton non è esattamente l’ultimo arrivato, visto che nel 2024 ha vinto il Premio Turing “Per lo sviluppo delle basi concettuali e algoritmiche dell’apprendimento con rinforzo”. Qual era l’amara lezione imparata da Sutton? Lo dice già la prima riga: “La lezione più grande che possiamo leggere da 70 anni di ricerca sull’intelligenza artificiale è che i metodi generali che sfruttano la capacità di calcolo sono alla fine quelli che funzionano meglio, e di gran lunga”. Sutton continua con gli esempi degli scacchi e del go, continua con il doppio passaggio successo nel riconoscimento della voce – il primo è stato l’introduzione dei modelli markoviani nascosti, che ben conosco visto che sono stati l’argomento delle mie tesi di laurea, il secondo il deep learning – e termina con il riconoscimento di immagini che è decollato appunto con il deep learning. In pratica i ricercatori hanno sempre cominciato col costruire sistemi che dovevano funzionare come loro pensavano funzionasse la mente umana, salvo poi capitolare alla potenza sempre crescente di calcolo che permette di usare sistemi “stupidi, per nulla efficienti ma efficaci”. Come corollario, termina affermando che le nostre menti sono molto più complicate di quanto immaginiamo e quindi è inutile cercare di modellizzarle in modo semplice; quello che si deve fare è cercare dei meta-metodi che riescano a cogliere la complessità.

Ora Gary Marcus scrive che in realtà la lezione è ancora più amara: aumentare la potenza di calcolo funziona per alcuni tipi di problemi, principalmente quelli relativi al pattern recognition, mentre ci sono tanti altri tipi di problemi – in generale quelli che richiedono di fare un ragionamento senza avere a disposizione tutte le informazioni necessarie. E ora è tutto goduto gongolante perché Sutton ha esplicitamente detto che per lui gli LLM sono arrivati a un vicolo cieco, perché comunque operano imitando il comportamento umano (visto che sono addestrati a partire da testi scritti da umani) e quindi non si costruiscono un “godo del mondo” che permetterebbe loro di essere “sorpresi” dagli eventi e quindi riorganizzarsi: insomma, “fare esperienza”.

Per come la vedo io, una cosa è certa: un approccio ibrido in cui si aggiunga una componente “intelligente”, che poi significherebbe “a regole”, agli LLM non funzionerà mai, per un corollario di quanto scritto inizialmente da Sutton: non abbiamo nessuna idea di come trovare queste regole. Ma è anche vero che non possiamo buttare via gli LLM, perché per quanto facciano schifo nei compiti che richiedono intelligenza sono comunque utili dove l’intelligenza non serve e basta l’artigianato. Posso solo aggiungere che secondo me un approccio totalmente nuovo e migliore non lo vedremo almeno per un decennio.

Ultimo aggiornamento: 2025-10-13 17:14

7 pensieri su “La lezione ancora più amara

  1. un cattolico

    «modelli markoviani nascosti, che ben conosco visto che sono stati l’argomento delle mie tesi di laurea»

    Le due tesi per matematica e informatica sullo stesso argomento in che modo?

    «modellilzzarle» refuso

    «E ora è tutto goduto» goduto?

    Rispondi
    1. .mau. Autore articolo

      “goduto” nel senso che gode per la felicità.
      La tesi di matematica è stata sui modelli markoviani nascosti (HMM) per il riconoscimento del parlato, quella di informatica sull’introduzione di reti neurali nel modello HMM (non funzionava, o meglio con la potenza di calcolo dell’epoca triplicavi il tempo di calcolo per un piccolo vantaggio)

      Rispondi
      1. un cattolico

        Eh ok ma non mi è chiaro il senso della frase:
        «E ora è tutto goduto perché Sutton ha esplicitamente detto che per lui gli LLM sono arrivati a un vicolo cieco»

        Intendi dire che Marcus è tutto soddisfatto perché anche Sutton ha confermato che stanno tutti asciugando gli scogli?

        Rispondi
        1. .mau. Autore articolo

          non solo soddisfatto, ma in modo quasi cattivo, della serie “visto che te l’avevo detto e tu non ci credevi?”

          Rispondi
          1. un cattolico

            Ah ok, gongolante. Mi dà quel senso di malizia ed esultanza :)

  2. .mau. Autore articolo

    Tieni conto che al tempo lo stato dell’arte era riconoscere un vocabolario di un centinaio di parole se il parlatore addestrava prima il modello, oppure di una quindicina di parole (le cifre e qualche comando) se si voleva un sistema indipendente dal parlatore. E il tempo necessario era di circa un secondo per parola.

    Rispondi

Rispondi a un cattolicoAnnulla risposta

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.