No, Anthropic non può addestrare gli LLM con i libri piratati

Avrete forse letto della sentenza di un giudice americano sulla presunta violazione di copyright da parte di Anthropic – ma naturalmente la cosa varrebbe per qualunque azienda che addestra LLM – per avere dato in pasto al proprio sistema Claude il testo di libri senza pagare gli autori: e magari avete letto che il giudice ha dato ragione ad Anthropic, perché la cosa ricadrebbe sotto il fair use. Beh, non è proprio così.

Come spiega David Gerard, il giudice William Alsup ha sentenziato che usare dei testi per addestrare un algoritmo di per sé rientra nel fair use: a parte per la quantità di dati ingurgitati da questi sistemi, si può parlare di trasformazione del testo esattamente come io o voi possiamo leggerci dei libri e trarne spunto per scrivere qualcosa di nostro. Citando direttamente la sentenza,

The purpose and character of using copyrighted works to train LLMs to generate new text was quintessentially transformative … If this training process reasonably required making copies within the LLM or otherwise, those copies were engaged in a transformative use.

e questa è sicuramente una vittoria per chi crea LLM. Il tutto ha sicuramente senso se ci pensate, è più o meno quello che sto facendo io ora con l’articolo di Gerard. Fin qui tutti d’accordo. Ma…

Il punto su cui Alsup ha rimandato la decisione a un altro processo è la provenienza di questi testi. Anthropic ha comprato una grande quantità di libri, e per questi libri il suo lavoro è stato considerato lecito. Ma ha anche scaricato sette milioni di libri piratati, e qui casca l’asino. Sempre citando dalla sentenza,

Authors argue Anthropic should have paid for these pirated library copies. This order agrees… The downloaded pirated copies used to build a central library were not justified by a fair use. Every factor points against fair use … A separate justification was required for each use. None is even offered here except for Anthropic’s pocketbook and convenience.

Rileggiamo queste frasi. Il giudice dà ragione agli autori che hanno detto “non solo questi qua usano i nostri testi, ma noi non ci prendiamo il becco di un quattrino!”; ovviamente Anthropic non ha potuto dare risposte convincenti, a meno che non riteniate convincente “eh, ma ci volevano troppi soldi, per non parlare del fatto che i libri piratati sono già belli pronti…”

Come sempre, insomma, è una banale questione di soldi: e come sappiamo bene chi più ne ha meno ne vuole spendere, e resta un oculato risparmiatore come Paperon de’ Paperoni. Aggiungo solo che tutto questo non varrebbe affatto per un eventuale LLM made in Italy: il fair use non esiste da noi, e presumo che la 633/41 bloccherebbe anche l’uso di testi regolarmente acquistati per l’addestramento dei modelli…

Un pensiero su “No, Anthropic non può addestrare gli LLM con i libri piratati

  1. Bubbo Bubboni

    Considerando la legge italiana per l’AI, che mi pare sia all’ultimo passaggio, direi che il problema delle fonti di addestramento non si pone proprio perché entro 12 mesi il governo farà sapere come va condotto e chi va risarcito.
    Nel frattempo basta usare il miliardone per abbonarsi a qualche prodotto già pronto (o instascarlo e usare gli accessi gratuiti) e il rispetto della proprietà intellettuale è assicurato!
    Però è curioso che sia affrontato con il tema opposto, cioè proteggere quanto creato con l’AI. Che sia una giusta preoccupazione per proteggere anche discorsi solenni e programmi partitici?

    Rispondi

Rispondi a Bubbo BubboniAnnulla risposta

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.