Non so se la notizia sia passata tra gli italici media: alcuni scrittori statunitensi hanno citato a giudizio Meta perché per addestrare il suo sistema LLaMA (simile a ChatGPT-4) avrebbe usato i testi dei loro libri protetti da copyright. Vero, falso o irrilevante? La questione non è affatto semplice.
Premessa: i sistemi di chat di tipo LLM si chiamano così perché usano Large Language Models: modelli di una lingua di dimensioni ampie. È più o meno quello che fanno i traduttori automatici: questi sistemi cercano correlazioni tra parole – nel caso delle traduzioni tra termini in inglese e termini in un’altra lingua, negli LLM sul flusso delle parole nelle frasi dei corpora – e le sfruttano per dare una risposta al testo che gli si dà in ingresso. Diciamo che nel caso degli LLM io avrei detto “enormi” e non “grandi”, ma non sottilizziamo. La domanda a questo punto diventa “ma dove sono presi questi testi”? Checché si parli sempre più o meno a vanvera di Big Data, il materiale di addestramento deve essere di buona qualità, quindi non si può prendere roba a caso.
In questo articolo Alex Reisner ha analizzato un dataset usato per LLaMA, e scoperto che in effetti esso contiene una grande quantità di libri piratati. Mentre il sottoinsieme “books1” contiene materiale da Project Gutenberg che è nel pubblico dominio – ma è per definizione materiale vecchio, e quindi non segue necessariamente le regole semantiche attuali – e il sottoinsieme “books2” non è facilmente interpretabile ma potrebbe essere legato ai contenuti di ZLibrary, “books3” comprende i testi di 170000 volumi con ISBN, presumibilmente tutti sotto copyright, compresi quelli degli autori che hanno fatto causa a Meta.
A questo punto però la domanda da porsi cambia: assodato che quella raccolta di testi è una violazione di copyright, usarla come insieme di addestramento per un LLM è anche una violazione di copyright? Qui la risposta è più complicata. Negli USA vige la dottrina del fair use: si può usare del materiale sotto copyright se (a) non lo si usa direttamente ma lo si processa e (b) quest’uso non dà problemi allo sfruttamento commerciale dell’opera originaria. Entrambi i casi sono rispettati: per definizione l’output di un LLM dovrebbe essere “nuovo” (non dico “creativo”, mi spiace), e addirittura l’esistenza stessa della base dati non tocca lo sfruttamento commerciale delle opere al suo interno, perché esse sono state trattate per il consumo automatico, quindi per esempio togliendo tutta la formattazione e lasciando il puro testo, oltre che rendendo particolarmente difficile recuperare il singolo testo al loro interno: ricordo che stiamo parlando di un singolo file di decine di gigabyte senza nessun metadato che permette di trovare quello che si cerca, e probabilmente neppure il nome dell’autore del testo.
E cosa dire della base dati in sé? Negli USA probabilmente il suo uso rimane sotto la dottrina del fair use, anche se Meta per esempio costringe a firmare un accordo; ma in Europa, con la nuova direttiva copyright, è possibile invocare dei diritti sui generis – diversi da quelli d’autore – per la base dati in sé. Secondo Creative Commons, se poi il materiale usato per costruire una certa base dati ha una licenza CC allora anche la base dati stessa ha una licenza dello stesso tipo. Non che io abbia idea di come si possa usare una base dati con una licenza CC-BY-ND: ma per fortuna non è un mio problema.
Da ignorante mi chiedo se sia legale usare materiale sotto copyright, anche se l’output non è nemmeno di per sé un’opera derivata e quindi non dovrebbe avere problemi. Voi che ne pensate?