Archivi categoria: informatica e AI

Abbiamo raggiunto il top degli LLM attuali?

È stato lanciato ChatGPT-5, e a quanto pare i giudizi sono discordi. A quanto sembra, non funziona così tanto meglio della versione 4o, o almeno ci sono task in cui funziona peggio. Il tutto dopo due anni di preparazione del nuovo modello. Come è possibile?

Cal Newport sul New Yorker spiega ricapitola la storia, partendo dall’articolo “Scaling Laws for Neural Language Models” scritto a gennaio 2020 da alcuni ricercatori top di OpenAI, tra cui Jared Kaplan e Dario Amodei che poi ha fondato Anthropic. In questo articolo si affermava che non solo i modelli sarebbero migliorati con l’aumentare delle dimensioni del materiale di addestramento, e non si sarebbero adagiati sul memorizzare semplicemente le frasi, ma l’aumento delle prestazioni sarebbe stato secondo una legge di potenza. E in effetti GPT-3 è stato un grande miglioramento rispetto a GPT-2, così come GPT-4 lo è stato rispetto a GPT-3. Ma poi ci si è appunto fermati: OpenAI ha creato modelli ibridi, e adesso un GPT-5 non così eclatante.

In effetti i modelli o1, o3 e o4 non hanno lavorato sul preaddestramento, come previsto dall’articolo di OpenAI citato all’inizio, ma sul postaddestramento: in un certo senso ci si è “limitati” a fare aggiustamenti successivi. Anche la distillazione è un aggiustamento, in un certo senso, Evidentemente quello che è successo è che non si è riusciti ad aumentare il preaddestramento a sufficienza.

Cosa significa tutto questo, a parte il far crescere di intensità le voci di scoppio della bolla AI, come dice per esempio Charlie Warzel sull’Atlantic? La mia sensazione è che non ci sia più abbastanza materiale di addestramento in tutto il mondo, e quindi da quel lato abbiamo toccato il tetto. Del resto, fare generare nuovo testo dagli LLM, come è stato proposto anche seriamente da qualcuno, non mi pare chissà quale grande idea: il materiale fondamentalmente è lo stesso. L’unico grande serbatoio rimasto a disposizione per aumentare la base dati di addestramento sono le chat, che però sono sempre più protette per ragioni di privacy. Il postaddestramento migliora i risultati, ma non tanto come il preaddestramento: quindi anche da lì non si potrà tirare fuori più di tanto.

Siamo insomma arrivati all’ultimo miglio per i modelli di intellgenza artificiale? Non necessariamente. Diciamo che siamo arrivati all’ultimo miglio per i modelli attuali, il che significa semplicemente che bisognerà trovare qualcosa di nuovo. Non necessariamente “conoscenza” nel senso che noi umani intendiamo, ma sicuramente un nuovo modo per lavorare con la correlazione dei dati, o almeno con la fase che segue la correlazione. Ma questo non sarà certo semplice, e ci vorranno tanti, tanti soldi oltre che nuove idee: se la bolla delle IA scoppierà perché non ci sono più miglioramenti tangibili, da dove arriveranno questi soldi?

Ultimo aggiornamento: 2025-08-21 12:48

Gli LLM “normali” e la matematica

All’inizio della settimana ho scritto su MaddMaths! (come, non leggete la mia rubrica “il matematico non praticante” che tengo lì? Male, nolto male) un articolo sulla medaglia virtuale d’oro ottenuta da Google DeepMind alle Olimpiadi della matematica. Già lì esprimevo i miei dubbi: vedo che non sono il solo, leggendo questo articolo di Emily Riehl su Scientific American.

Dall’articolo ho scoperto che le voci che anche OpenAI avrebbe raggiunto un punteggio da medaglia d’oro sono solo voci, o almeno non c’è stato un riconoscimento ufficiale da chi gestisce l’IMO: nulla di strano, in un ambiente dove l’hype è al momento più importante dei risultati. Ma la cosa più interessante è un’altra. Non è tanto il fatto che questi modelli tirano fuori un certo numero di risposte e poi scelgano (non ho idea come) quella più robusta: non penso, a differenza di Riehl, che questo equivalga a lavorare in squadra, visto che il modello sottostante è lo stesso. Quello che conta davvero è che si è tenuto un torneo parallelo informale ospitato da MathArena e che ha coinvolto (si fa per dire) i modelli disponibili commercialmente. Risultato? Nessuno è arrivato nemmeno alla medaglia di bronzo (che viene data a metà circa dei partecipanti alle olimpiadi reali). Il migliore è stato Gemini 2.5 Pro con 13 punti su 42, molti meno della soglia di 19 punti necessaria per la medaglia di bronzo. (Un esercizio risolto correttamente vale sei punti, ma se ne può ottenere qualcuno per una risposta errata ma con alcuni passi corretti). Il tutto spendendo più di 400 dollari :-)

Il mio commento finale? non è diverso da quello che avevo scritto su MaddMaths!. Questi sistemi ne hanno ancora di parametri da macinare. Questo non vuol dire prenderli sottogamba, e del resto ricordo che i sistemi di dimostrazione automatica dei teoremi sono ormai usati regolarmente, il che significa che nessuno ha un pregiudizio aprioristico. Semplicemente manca ancora molto per avere qualcosa di più di un aiuto.

Ultimo aggiornamento: 2025-08-07 16:22

Perplexity Pro per gli utenti Tim

L’ho scoperto solo perché la mia azienda l’ha scritto nella posta interna, ma la cosa vale per tutti: Tim ha stretto un accordo con Perplexity e darà per un anno ai suoi clienti (iscritti a Tim Party, una di quelle cose che in genere evito, ma tant’è…) la possibilità di usare gratuiitamente Perplexity Pro pre un anno.

Quali possono essere i vantaggi di questa partnership, a parte quanto scritto nei comunicati stampa? Secondo me soprattutto pubblicità. Sappiamo che il mercato degli LLM è molto più ridotto di quello che le aziende speravano: come del resto successe con i giornali, la stragrande maggioranza degli accessi è fatta con account gratuiti e quindi gli utili non arrivano. Perplexity ha una nicchia un po’ diversa, perché vorrebbe essere un motore di ricerca, tanto che dà anche i link da cui avrebbe ricavato le risposte. Uso il condizionale perché io sono anzyano e non l’avevo ancora usato: ho provato col mio classico “Chi è Maurizio Codogno?” e devo dire che le fonti, anche se vecchiotte, le ha trovate. Ma torniamo ai vantaggi per Tim e Perplexity.

In Italia, o almeno nelle bolle che frequento, Perplexity è relativamente poco noto: se l’azienda vuole internazionalizzarsi può convenirle fare un accordo a prezzo assai scontato con chi può portarle pubblico (e sperare che qualcuno resti). D’altra parte riuscire a scalfire il predominio di Google non è per nulla facile. Per quanto riguarda Tim, è sicuramente un modo per differenziarsi dagli altri operatori, e quindi appunto una pubblicità soprattutto verso persone che probabilmente hanno una maggiore propensione all’uso non trinariciuto di Internet. Non so quale categoria spenda di più, ma spero che i miei colleghi di marketing abbiano fatto bene i conti…

Si può eliminare AI Overview dai risultati di ricerca Google?

Non so voi, ma io sto diventando sempre più intollerante sui risultati di ricerca su Google inquinati dalla specificazione “AI Overview” che tira fuori un (pessimo, di solito) riassunto generato da un’IA della query di ricerca. E mi sa che non sono il solo.
Ho provato a vedere se c’è qualche estensione per Firefox per eliminarlo, ho scoperto di non essere il solo a volerlo fare, ma il risultato pratico non è dei migliori. Esiste l’addon Hide Google AI Overviews, ma non funziona. Può darsi che Bye, Bye Google AI funzioni, ma è per Google o comunque i browser basati su Chromium: niente da fare.

Le soluzioni che paiono funzionare al momento, secondo Tom’s Hardware, sono quelle di fare una ricerca aggiungendo esplicitamente “-noai” alle parole chiave, oppure aggiungere alla stringa di ricerca “?udm=14” (di nuovo, con Chrome lo si può fare automaticamente, con Firefox non ci sono riuscito). Ma non è detto che funzionerà sempre così…

Aggiornamento (26 luglio): Per Firefox esiste questa estensione per aggiungere udm=14.

Ultimo aggiornamento: 2025-07-26 11:41

Due giudici, due sentenze

L’altro giorno scrivevo di una sentenza americana contro Anthropic per l’uso diciamo “disinvolto” di testi piratati per addestrare i suoi LLM. Quasi contemporaneamente c’è stata però una sentenza di segno opposto a favore di Meta. Ancora una volta, però, le cose non sono quelle che appaiono a prima vista.

In questo caso, infatti, il giudice Vince Chhabria ha dato ragione a Meta non perché la controparte avesse torto, ma perché ha chiesto le cose sbagliate. Dal suo punto di vista, Llama non riesce a generare ampi stralci di testo copiato dagli autori, e quindi la loro azione legale per violazione di copyright deve essere rigettata. In compenso, però, nota come la proliferazione di libri di scarsa qualità generati dalle IA può inquinare il mercato e quindi togliere valore alla creatività degli autori umani; peccato che gli autori non abbiano chiesto una condanna per tale fatto. Tutto questo lascia spazio a nuove cause, anche se vedo difficile dimostrare che un autore non vende perché le IA hanno riempito il mercato. In compenso, anche in questo caso il problema dei libri “caduti dal camion” e usati illegalmente per addestrare i modelli è lasciato a un giudizio successivo.

Che si può concludere? Che noi non abbiamo molte idee su come applicare la legge all’addestramento degli LLM, ma i giudici americani ne hanno ancora di meno… (e come dicevo l’altra volta, da noi non si parla nemmeno di tutto questo)

No, Anthropic non può addestrare gli LLM con i libri piratati

Avrete forse letto della sentenza di un giudice americano sulla presunta violazione di copyright da parte di Anthropic – ma naturalmente la cosa varrebbe per qualunque azienda che addestra LLM – per avere dato in pasto al proprio sistema Claude il testo di libri senza pagare gli autori: e magari avete letto che il giudice ha dato ragione ad Anthropic, perché la cosa ricadrebbe sotto il fair use. Beh, non è proprio così.

Come spiega David Gerard, il giudice William Alsup ha sentenziato che usare dei testi per addestrare un algoritmo di per sé rientra nel fair use: a parte per la quantità di dati ingurgitati da questi sistemi, si può parlare di trasformazione del testo esattamente come io o voi possiamo leggerci dei libri e trarne spunto per scrivere qualcosa di nostro. Citando direttamente la sentenza,

The purpose and character of using copyrighted works to train LLMs to generate new text was quintessentially transformative … If this training process reasonably required making copies within the LLM or otherwise, those copies were engaged in a transformative use.

e questa è sicuramente una vittoria per chi crea LLM. Il tutto ha sicuramente senso se ci pensate, è più o meno quello che sto facendo io ora con l’articolo di Gerard. Fin qui tutti d’accordo. Ma…

Il punto su cui Alsup ha rimandato la decisione a un altro processo è la provenienza di questi testi. Anthropic ha comprato una grande quantità di libri, e per questi libri il suo lavoro è stato considerato lecito. Ma ha anche scaricato sette milioni di libri piratati, e qui casca l’asino. Sempre citando dalla sentenza,

Authors argue Anthropic should have paid for these pirated library copies. This order agrees… The downloaded pirated copies used to build a central library were not justified by a fair use. Every factor points against fair use … A separate justification was required for each use. None is even offered here except for Anthropic’s pocketbook and convenience.

Rileggiamo queste frasi. Il giudice dà ragione agli autori che hanno detto “non solo questi qua usano i nostri testi, ma noi non ci prendiamo il becco di un quattrino!”; ovviamente Anthropic non ha potuto dare risposte convincenti, a meno che non riteniate convincente “eh, ma ci volevano troppi soldi, per non parlare del fatto che i libri piratati sono già belli pronti…”

Come sempre, insomma, è una banale questione di soldi: e come sappiamo bene chi più ne ha meno ne vuole spendere, e resta un oculato risparmiatore come Paperon de’ Paperoni. Aggiungo solo che tutto questo non varrebbe affatto per un eventuale LLM made in Italy: il fair use non esiste da noi, e presumo che la 633/41 bloccherebbe anche l’uso di testi regolarmente acquistati per l’addestramento dei modelli…

Adda venì l’AGI!

Oggi racconto di due fallimenti dell’intelligenza artificiale su compiti apparentemente semplici, il che non è poi così strano se ci si pensa su un attimo.

Il primo esempio ha visto giocare una partita a scacchi tra ChatGPT o4, quello che dovrebbe essere il modello di punta di OpenAI, e… il programma di scacchi di (un emulatore di un) Atari 2600, una console del 1977, quando persino io non avevo ancora cominciato a toccare cose di programmazione (ho cominciato con la TI-57 a Natale 1978). Bene, o4 ha perso in modo spettacolare, lamentandosi che non riusciva a riconoscere le icone molto minimali dello schermo dell’Atari, ma non riuscendo meglio nemmeno quando si è passati alla notazione scacchistica standard. E dire che l’Atari era stato settato in modalità “principiante”, roba che forse anch’io che non gioco a scacchi da decenni sarei riuscito a batterlo.

Questo risultato non mi stupisce più di tanto. Ribadisco il mio – ma non solo mio – mantra: un LLM è un autocompletatore con gli steroidi; questo significa che se c’è materiale di addestramento sufficiente, anche senza rinforzo manuale, è probabile che il modello riesca a dare una risposta corretta. Ma ci sono troppe possibili partite a scacchi per sperare che un addestramento generalista possa fare inferire delle regole che valgano per ogni partita. (Un addestramento specifico ce la fa, vedi AlphaGo Zero).

Quello che invece mi ha stupito è questo articolo di Apple, citato qui. (Ve lo dico subito, io ho solo dato una scorsa all’articolo originale e letto il resoconto). L’articolo mostra il risultato di un esperimento sulla risoluzione alcuni semplici problemi, come per esempio quello della Torre di Hanoi, da parte di LLM per così dire standard e modelli che applicano il cosiddetto “ragionamento” (LRM, Large Reasoning Models) per dare una risposta presumibilmente più accurata. Che è successo in questo caso? Nel caso della Torre di Hanoi nelle situazioni semplici, con due o tre dischi, i risultati migliori sono stati ottenuti dagli LLM, il che dimostra una volta per tutte la verità del tormentone “pensare troppo fa male”; addirittura i modelli continuano a esplorare strade sbagliate dopo avere trovato la risposta corretta. Passando a compiti di media complessità, dai 4 ai 7 dischi, in effetti gli LRM si comportano molto meglio degli LLM. Ma superato anche quel valore entrambi i modelli non riescono più a trovare una soluzione, nemmeno se si fornisce loro l’algoritmo per risolvere il problema. E quel che è ancora più strano è che la non-risposta viene data dopo aver generato un numero minore di token, come se il modello si desse per vinto.

Tutto questo vale per i principali modelli attualmente disponibili: in altre parole, nessuno di essi riesce a estrapolare una soluzione generale da quelle particolari, neppure con il cosiddetto “ragionamento”. La Torre di Hanoi ha per esempio una soluzione ricorsiva molto semplice: se devi spostare n dischi dal piolo A al piolo C, ne sposti n−1 da A a B, sposti l’ultimo piolo da B a C, e sposti i n−1 pioli da B a C. Ma esiste anche una semplice soluzione procedurale che non richiede ricorsività: nelle mosse dispari si sposta il disco 1 sempre nella stessa direzione ( A → B → C → A oppure A → C → B → A, dipende da quale sarà il piolo dove si formerà la nuova pila: ma tanto nella peggiore delle ipotesi basta rifare le stesse mosse una seconda volta) e nelle mosse pari si sposta l’unico disco possibile diverso dall’1. Non mi aspetto ovviamente che un LLM standard possa “spacchettare” queste istruzioni per arrivare alla soluzione; ma credevo che nel caso degli LRM esistesse un livello che potremmo definire di generalizzazione (“astrazione” mi pare troppo), mentre evidentemente non c’è. Direi insomma che se il livello attuale è davvero questo possiamo stare tranquilli e continuare a usare gli LLM per generare report che nessuno tanto leggerà :-)

Google, perché lo fai?

Cara Google, perché devi sprecare energia elettrica per infilare nei risultati il testo “AI Overview” che non solo non ha nessuna idea di quello che emette (come del resto tutti i chatbot), ma non riesce nemmeno a scrivere pensieri connessi? Alla ricerca “aruspice accento” (perché mio figlio non era convinto che andasse sulla u) è riuscita a scrivere

L’accento della parola “aruspice” è sull’ultima sillaba, “ce”. Quindi, si pronuncia a-rùs-pi-ce. L’accento è l’accento grave (“)

Se l’accento fosse sull’ultima sillaba sarebbe “aruspicé”, e allora non mi scrivi “a-rùs-pi-ce” con l’accento sulla u. Il tutto senza considerare l’errore nella sillabazione (è “a-ru-spi-ce”) e il fatto che non è l’accento a essere grave ma il segnaccento: i e u infatti hanno accento acuto (ed Einaudi continua per vezzo a scrivere í e ú nei suoi libri).

Quello che mi preoccupa è che ovviamente Google vuole fare in modo che la gente non vada a cliccare sui link. E temo che sia già così da un pezzo: alla fine quasi nessuno sarà in grado di comprendere un testo anche se semplice….

Ultimo aggiornamento: 2025-06-02 18:26

Notiziole di .mau.

Pensieri slegati che scrivo quando mi capita