Archivi categoria: informatica e AI

No, Anthropic non può addestrare gli LLM con i libri piratati

Avrete forse letto della sentenza di un giudice americano sulla presunta violazione di copyright da parte di Anthropic – ma naturalmente la cosa varrebbe per qualunque azienda che addestra LLM – per avere dato in pasto al proprio sistema Claude il testo di libri senza pagare gli autori: e magari avete letto che il giudice ha dato ragione ad Anthropic, perché la cosa ricadrebbe sotto il fair use. Beh, non è proprio così.

Come spiega David Gerard, il giudice William Alsup ha sentenziato che usare dei testi per addestrare un algoritmo di per sé rientra nel fair use: a parte per la quantità di dati ingurgitati da questi sistemi, si può parlare di trasformazione del testo esattamente come io o voi possiamo leggerci dei libri e trarne spunto per scrivere qualcosa di nostro. Citando direttamente la sentenza,

The purpose and character of using copyrighted works to train LLMs to generate new text was quintessentially transformative … If this training process reasonably required making copies within the LLM or otherwise, those copies were engaged in a transformative use.

e questa è sicuramente una vittoria per chi crea LLM. Il tutto ha sicuramente senso se ci pensate, è più o meno quello che sto facendo io ora con l’articolo di Gerard. Fin qui tutti d’accordo. Ma…

Il punto su cui Alsup ha rimandato la decisione a un altro processo è la provenienza di questi testi. Anthropic ha comprato una grande quantità di libri, e per questi libri il suo lavoro è stato considerato lecito. Ma ha anche scaricato sette milioni di libri piratati, e qui casca l’asino. Sempre citando dalla sentenza,

Authors argue Anthropic should have paid for these pirated library copies. This order agrees… The downloaded pirated copies used to build a central library were not justified by a fair use. Every factor points against fair use … A separate justification was required for each use. None is even offered here except for Anthropic’s pocketbook and convenience.

Rileggiamo queste frasi. Il giudice dà ragione agli autori che hanno detto “non solo questi qua usano i nostri testi, ma noi non ci prendiamo il becco di un quattrino!”; ovviamente Anthropic non ha potuto dare risposte convincenti, a meno che non riteniate convincente “eh, ma ci volevano troppi soldi, per non parlare del fatto che i libri piratati sono già belli pronti…”

Come sempre, insomma, è una banale questione di soldi: e come sappiamo bene chi più ne ha meno ne vuole spendere, e resta un oculato risparmiatore come Paperon de’ Paperoni. Aggiungo solo che tutto questo non varrebbe affatto per un eventuale LLM made in Italy: il fair use non esiste da noi, e presumo che la 633/41 bloccherebbe anche l’uso di testi regolarmente acquistati per l’addestramento dei modelli…

Adda venì l’AGI!

Oggi racconto di due fallimenti dell’intelligenza artificiale su compiti apparentemente semplici, il che non è poi così strano se ci si pensa su un attimo.

Il primo esempio ha visto giocare una partita a scacchi tra ChatGPT o4, quello che dovrebbe essere il modello di punta di OpenAI, e… il programma di scacchi di (un emulatore di un) Atari 2600, una console del 1977, quando persino io non avevo ancora cominciato a toccare cose di programmazione (ho cominciato con la TI-57 a Natale 1978). Bene, o4 ha perso in modo spettacolare, lamentandosi che non riusciva a riconoscere le icone molto minimali dello schermo dell’Atari, ma non riuscendo meglio nemmeno quando si è passati alla notazione scacchistica standard. E dire che l’Atari era stato settato in modalità “principiante”, roba che forse anch’io che non gioco a scacchi da decenni sarei riuscito a batterlo.

Questo risultato non mi stupisce più di tanto. Ribadisco il mio – ma non solo mio – mantra: un LLM è un autocompletatore con gli steroidi; questo significa che se c’è materiale di addestramento sufficiente, anche senza rinforzo manuale, è probabile che il modello riesca a dare una risposta corretta. Ma ci sono troppe possibili partite a scacchi per sperare che un addestramento generalista possa fare inferire delle regole che valgano per ogni partita. (Un addestramento specifico ce la fa, vedi AlphaGo Zero).

Quello che invece mi ha stupito è questo articolo di Apple, citato qui. (Ve lo dico subito, io ho solo dato una scorsa all’articolo originale e letto il resoconto). L’articolo mostra il risultato di un esperimento sulla risoluzione alcuni semplici problemi, come per esempio quello della Torre di Hanoi, da parte di LLM per così dire standard e modelli che applicano il cosiddetto “ragionamento” (LRM, Large Reasoning Models) per dare una risposta presumibilmente più accurata. Che è successo in questo caso? Nel caso della Torre di Hanoi nelle situazioni semplici, con due o tre dischi, i risultati migliori sono stati ottenuti dagli LLM, il che dimostra una volta per tutte la verità del tormentone “pensare troppo fa male”; addirittura i modelli continuano a esplorare strade sbagliate dopo avere trovato la risposta corretta. Passando a compiti di media complessità, dai 4 ai 7 dischi, in effetti gli LRM si comportano molto meglio degli LLM. Ma superato anche quel valore entrambi i modelli non riescono più a trovare una soluzione, nemmeno se si fornisce loro l’algoritmo per risolvere il problema. E quel che è ancora più strano è che la non-risposta viene data dopo aver generato un numero minore di token, come se il modello si desse per vinto.

Tutto questo vale per i principali modelli attualmente disponibili: in altre parole, nessuno di essi riesce a estrapolare una soluzione generale da quelle particolari, neppure con il cosiddetto “ragionamento”. La Torre di Hanoi ha per esempio una soluzione ricorsiva molto semplice: se devi spostare n dischi dal piolo A al piolo C, ne sposti n−1 da A a B, sposti l’ultimo piolo da B a C, e sposti i n−1 pioli da B a C. Ma esiste anche una semplice soluzione procedurale che non richiede ricorsività: nelle mosse dispari si sposta il disco 1 sempre nella stessa direzione ( A → B → C → A oppure A → C → B → A, dipende da quale sarà il piolo dove si formerà la nuova pila: ma tanto nella peggiore delle ipotesi basta rifare le stesse mosse una seconda volta) e nelle mosse pari si sposta l’unico disco possibile diverso dall’1. Non mi aspetto ovviamente che un LLM standard possa “spacchettare” queste istruzioni per arrivare alla soluzione; ma credevo che nel caso degli LRM esistesse un livello che potremmo definire di generalizzazione (“astrazione” mi pare troppo), mentre evidentemente non c’è. Direi insomma che se il livello attuale è davvero questo possiamo stare tranquilli e continuare a usare gli LLM per generare report che nessuno tanto leggerà :-)

Google, perché lo fai?

pensieri sconnessi
Cara Google, perché devi sprecare energia elettrica per infilare nei risultati il testo “AI Overview” che non solo non ha nessuna idea di quello che emette (come del resto tutti i chatbot), ma non riesce nemmeno a scrivere pensieri connessi? Alla ricerca “aruspice accento” (perché mio figlio non era convinto che andasse sulla u) è riuscita a scrivere

L’accento della parola “aruspice” è sull’ultima sillaba, “ce”. Quindi, si pronuncia a-rùs-pi-ce. L’accento è l’accento grave (“)

Se l’accento fosse sull’ultima sillaba sarebbe “aruspicé”, e allora non mi scrivi “a-rùs-pi-ce” con l’accento sulla u. Il tutto senza considerare l’errore nella sillabazione (è “a-ru-spi-ce”) e il fatto che non è l’accento a essere grave ma il segnaccento: i e u infatti hanno accento acuto (ed Einaudi continua per vezzo a scrivere í e ú nei suoi libri).

Quello che mi preoccupa è che ovviamente Google vuole fare in modo che la gente non vada a cliccare sui link. E temo che sia già così da un pezzo: alla fine quasi nessuno sarà in grado di comprendere un testo anche se semplice….

Ultimo aggiornamento: 2025-06-02 18:26

L’IA mi ha mangiato il compito!

Non ho seguito la storia del professore che ha postato un testo vergognoso nei confronti della presidente del consiglio e di sua figlia, rubricandola nella categoria “idioti che pensano di essere al bar coi loro amici”. Quando però Anna mi ha segnalato che il professore in questione avrebbe detto di avere “chiesto supporto perfino all’intelligenza artificiale per comporre il post” ho deciso che due righe potevo scriverle anch’io.

Ovviamente non credo per nulla a quanto ha detto il tipo. Di per sé è possibile aggirare i blocchi dei chatbot e fare loro produrre un testo di quel tipo, ma occorre costruire un prompt molto particolare, il che non è alla portata della maggior parte della gente (non garantisco che ci riuscirei così facilmente nemmeno io, che pure qualcosa ne so). Il fatto che qualcuno dica una cosa del genere dimostra solo un’ignoranza sul tema “intelligenza artificiale”, e mi sa che saranno comunque in molti a crederci.

Ma quello è il minore dei problemi: in fin dei conti è vero che praticamente nessuno sta spiegando come funzionano questi oggetti che ormai usiamo tutti i momenti senza pensarci. Ma c’è qualcos’altro che invece dovrebbe essere chiaro a tutti, ed evidentemente non lo è. Supponiamo pure che il testo sia effettivamente stato composto da un chatbot. E tu te lo prendi e lo copincolli sui tuoi social preferiti senza nemmeno rileggerlo? Troppo facile dare la colpa a qualcosa di inanimato per togliersi responsabilità che sono personali, anziché avere il coraggio di ammettere di aver fatto un’enorme cazzata. E questo capitava anche prima delle IA.

Ultimo aggiornamento: 2025-06-02 10:41

Barare con l’AI?

Sono in tanti, almeno nella mia bolla, a sapere che ormai gli LLM sono usatissimi in ufficio per scrivere tutti quei testi che devono essere prodotti ma non vengono mai letti da nessuno. Ok, magari oggi vengono riassunti da altri LLM a beneficio dei capi: una perfetta economia circolare, come preconizzato da Douglas Adams quando definì il Monaco Elettrico come “un dispositivo per risparmiarci fatica: le lavapiatti lavano dei noiosi piatti per noi, risparmiandoci la fatica di lavarceli da soli; i videoregistratori guardano noiosi programmi per noi, risparmiandoci la fatica di guardarceli da soli: i Monaci Elettrici credono cose per noi”.

Ma c’è un altro campo in cui questi chatbot sono ormai onnipresenti, ed è quello della scuola. Io lo so bene, perché quando Jacopo è costretto a scrivere un testo sul libro di narrativa che avrebbe dovuto leggere a scuola chiede direttamente a ChatGPT di scrivergli qualcosa e lo copincolla direttamente. (Sperando che né lui né il suo professore non mi legga, devo confessare che con certi testi lo capisco anche. Non mi verrebbe mai voglia di leggerli, anche se al suo posto l’avrei fatto, perché io sono di un’altra generazione). Ma il problema si pone soprattutto per gli studenti universitari. In questo weekend mi è capitato di leggere due post al riguardo, che raccontano cosa fanno gli studenti e come i professori cerchino di contrastare l’uso indiscriminato dell’IA.

James D. Walsh scrive sull’Intelligencer (link alternativo) un long form dove raccoglie pareri di studenti che spiegano come il loro usare l’IA non sia altro che un modo per recuperare rapidamente informazioni, e di insegnanti che parlano dei loro metodi per trovare le prove dei misfatti. A leggere l’articolo, mi sa che gli studenti sappiano perfettamente di barare: lo si vede da come spiegano i prompt da usare per ottenere un risultato che appaia meno artificiale, e dalle arrampicate sugli specchi di chi afferma che si fa solo dare uno schema della risposta che poi costruisce da solo. Lasciamo perdere il protagonista dell’articolo, che afferma con forza che questo è il futuro della scrittura.

I professori sono chiaramente in difficoltà: l’unico modo a prova di errore per essere certi che lo studente abbia davvero studiato è quello di lasciar perdere i testi scritti e fare solo esami orali, il che è impraticabile. I sistemi automatici per sgamare i testi generati artificialmente hanno una scarsa affidabilità: Walsh riporta che ZeroGPT ha dato una probabilità superiore al 90% che un brano della Genesi fosse stato scritto da un’AI. (Ora che ci penso, è un’idea interessante per un racconto di fantascienza. Più prosaicamente, se gli ha dato in pasto la Bibbia di Re Giacomo il sistema potrebbe essere stato tratto in inganno dalla prosa cinquecentesca). Altri professori inseriscono a bella posta nel testo parole e frasi fuori contesto, tipo “broccoli” o “parlami di Dua Lipa”, magari scritte in bianco in modo che almeno gli studenti più stupidi che si limitano a copincollare il testo senza rileggere l’elaborato siano subito sgamati. Jacopo probabilmente ci cascherebbe, ma uno appena più sveglio, che magari avrebbe comunque ritoccato il risultato, se ne accorgerebbe comunque.

Anche Chad Orzel su Substack parla dell'”avvelenamento dei testi”, mostrando come questa sia una pratica che predata gli LLM: l’aneddoto iniziale sul professore che avvisa che avrebbe dato quattro testi di esame a caso e arriva con fogli di quattro colori diversi, colori che non hanno nulla a che vedere con i quattro testi diversi, mi ha fatto sorridere. Il suo punto di vista è in effetti un po’ diverso: Orzel nota come il problema degli LLM nel campo umanistico è quello che gli insegnanti di materie STEM hanno da decenni. In questo caso, infatti, la risposta corretta è una sola, e quindi non si può capire se arriva da un procedimento compiuto dallo studente oppure è stata semplicemente copiata. Peggio ancora, il numero di domande interessanti e soprattutto svolgibili in un compito è relativamente basso, e non si può pensare di inventarsi ogni volta domande nuove, anche solo cambiando i numeri in gioco. Ma soprattutto, aggiunge Orzel, il tempo a disposizione dei professori è limitato. Vale la pena di spenderlo per cercare di rendere la vita più complicata a chi copia, o non è forse meglio dedicarlo a insegnare a chi vuole davvero imparare? Bilanciare le due visioni non è semplice.

Per quanto mi riguarda, non mi è ancora capitato di usare ChatGPT o altri sistemi per scrivere qualcosa al posto mio o riassumermela, anche se non escludo di poterlo fare in futuro. Confermo che i post me li scrivo da solo e non do un prompt con il tema che vorrei trattare e la richiesta di aggiungere qualche refuso qua e là: d’altra parte mi ci diverto, farli fare a qualcun altro non varrebbe la pena. Trovo però preoccupante l’uso indiscriminato che viene fatto da troppa gente, con l’IA che fa davvero da Monaco Elettrico. Non bastava l’instupidimento da social media; adesso arriviamo a contenuti condivisi senza nemmeno essere letti, e che a loro volta genereranno materiale sempre più scadente. Solo che non ho nessuna idea di come cambiare le cose per un uso responsabile dell’AI…

Ultimo aggiornamento: 2025-05-25 19:03

le AI che dovrebbero imparare la lingua dei delfini

Mah. Leggo questo articolo e rimango perplesso. Se si addestra un LLM per generare sequenze di suoni “simili a quelli dei delfini” e quello che si ottiene è per metà “rumori di fondo che ci si aspetta dall’oceano”, e per il resto “clic, fischi e i cosiddetti burst di impulsi” cosa abbiamo ottenuto? Nulla. Non dico di avere un dizionario delfinese-umano, che sarebbe davvero qualcosa di incredibile: ma dal testo dell’articolo non pare proprio che si sia raggiunto alcunché di “comprensibile” per un delfino, qualunque significato si voglia dare al termine. È come dire di aver preso un certo numero di carte e trovare che per metà esse contengono delle lettere e degli spazi che parrebbero formare delle parole, che però non ci dicono nulla. Vi pare un grande risultato?
Mi sarei insomma aspettato qualcosa di diverso: chessò, che avessero generato dei suoni che incuriosissero i delfini (nel mio esempio precedente, parole che assomigliano all’italiano anche se magari non formano frasi di senso compiuto): e gli stessi autori dicono che gli esperimenti attuali corrono il rischio di addestrare involontariamente i delfini con altri mezzi che non siano il linguaggio.
Mi sa che dovremmo aspettare che i delfini se ne vadano dalla Terra, lasciandoci un messaggio “Addio, e grazie per tutto il pesce”.

Quando gli LLM si dimenticano quello che hanno detto

In queste settimane sul sito calenpiario.it vengono proposti alcuni problemi matematici. Quello del 16 aprile aveva una formulazione un po’ strana, forse per fare in modo che non venisse dato in pasto agli LLM. Ad ogni modo io ho voluto comunque provare a usarli, non con il testo originale ma con uno semplificato, per vedere come avrebbero risposto. Ho così fatto la domanda «un cubo deve essere dipinto col minor numero possibile di colori scelti tra 24 in modo tale che due facce confinanti su uno spigolo non siano dello stesso colore.In quanti modi può essere colorato il cubo? (Colorazioni che usano gli stessi colori, anche disposti in modo diverso, sono da considerarsi equivalenti)» per vedere cosa succedeva. Un ragionamento “umano” vede che sono necessari tre colori distinti, questi devono essere collocati su facce opposte del cubo, e quindi c’è essenzialmente un unico modo per colorarli: il numero totale di possibilità è pertanto $24 \choose 3 $ = 2024. Che è successo in pratica?

Sia Gemini Pro che Math GPT che Claude 2.7 hanno dato la risposta corretta. Invece DeepSeek nella versione “veloce” si è completamente impallato, scrivendo possibili risposte e poi ripensandoci su, fino a terminare con la risposta errata 4048:

la "dimostrazione" di DeepSeek.

Per confronto, DeepSeek “pensante” ha fatto tutto il ragionamento in inglese ma ha dato la risposta corretta.

L’errore di DeepSeek “base” mi ha lasciato molto stupito. Una caratteristica degli LLM che viene molto sottolineata è infatti che il testo generato durante la risposta viene usato per tarare meglio la risposta stessa, in un ciclo di feedback. Insomma, non è un banale sfoggio di “competenza” ma proprio un ausilio alla risposta del sistema. Invece a quanto pare questo è stato un tipico caso di allucinazione: DeepSeek è partito per la tangente, scrivendo

Ma questo è valido solo se consideriamo che tutte le colorazioni con 3 colori sono equivalenti a meno di permutazioni, il che non è vero. In realtà, ci sono 2 distinte classi di colorazioni con 3 colori:
– Colorazione a coppie: Due colori sono usati per due facce opposte ciascuno, e il terzo colore per le altre due facce opposte.
– Colorazione non a coppie: Un colore è usato per tre facce, un altro per due, e il terzo per una faccia, con particolari vincoli di adiacenza.

Quello che parrebbe è che DeepSeek si sia dimenticato del vincolo di non avere due facce adiacenti (o meglio, che non l’abbia più mantenuto nel suo input), anche se comunque il ragionamento resta errato: manca infatti la classe “4 facce del colore A, 1 del colore B, 1 del colore C”. E questo tipo di errore è molto più strano… Diciamo insomma che il ragionamento matematico può ancora lasciare a desiderare.

Ultimo aggiornamento: 2025-04-25 22:37

Eurostack

EuroStack è un collettivo che vorrebbe che si costruisse «A complete digital ecosystem made and supplied in Europe». Vedo che tra gli attivisti c’è anche Vittorio Bertola, probabilmente noto a molti dei miei ventun lettori.
Ora, è assolutamente vero che abbiamo una dipendenza totale dai sistemi digitali americani. Ma aver «messo nero su bianco le azioni chiave che l’Europa deve portare avanti per tentare di smarcarsi il prima possibile dai player extra-Ue e in particolare le Big tech americane», come dice Wired, serve molto a poco. In questi anni abbiamo visto tanti esempi: vi ricordate Volunia? O se i progetti italiani vi inducono alla risata, avete mai davvero usato Qwant? No, abbiamo perso il treno da una vita, e il problema non è tanto la regolamentazione troppo stringente ma la mancanza di fondi e di una vision, come si dice adesso. Insomma, EuroStack è un progetto arrivato con vent’anni di ritardo. E dire che il WWW sarebbe europeo…