Leggo dal Guardian (ma immagino sia scritto ovunque…) che OpenAI afferma che sia impossibile addestrare i LLM generativi come ChatGPT senza usare materiale sotto copyright. Per la precisione, dicono che “supportano il giornalismo, fanno accordi con aziende del settore, e che la causa del New York Times (che li ha citati per violazione di copyright) non ha fondamento”.
Consiglio di leggere la difesa di OpenAI al link qui sopra, perché è un classico esempio di come si fa in fretta a spostare il punto del contendere. Non mi riferisco tanto al fatto che OpenAI ha implementato un sistema di opt-out per chi non vuole che il suo materiale da quel momento in poi (enfasi mia) non venga più usato, tacendo su quanto è stato fatto in precedenza. Né alla frase «We had explained to The New York Times that, like any single source, their content didn’t meaningfully contribute to the training of our existing models and also wouldn’t be sufficiently impactful for future training.» Questa frase non ha alcun senso dal punto di vista legale: pensate a una causa per furto di alcune monete antiche esibite in una mostra e alla difesa “ma la nostra mostra non sarebbe stata differente anche se non ci fossero state quelle monete. Ma anche la difesa fatta davanti al parlamento britannico è lampante: “Poiché oggi il copyright tocca praticamente ogni tipo di espressione umana – compresi post nei blog, fotografie, messaggi nei forum, frammenti di codice e documenti governativi – sarebbe impossibile addestrare i modelli più avanzati odierni di AI senza usare materiale sotto copyright”.
Il punto per me è un altro. O paghi per usare materiale sotto copyright – il termine significa proprio questo: tu che sei titolare decidi quanto vale il tuo materiale – o mostri che il concetto di copyright come è declinato oggidì è malsano. Il tutto senza contare che OpenAI mette (volutamente…) sullo stesso piano tipi diversi di copyright. I documenti governativi, per esempio, sono di solito liberamente riutilizzabili; i blog hanno spesso una licenza non commerciale (come nel mio caso: non che io pensi che qualcuno addestri un’AI anche con le mie notiziole), e lo stesso capita spesso con foto e codice. Nulla insomma a che fare con gli articoli di giornale.
Non mi sembra poi che si possa invocare così facilmente il fair use, ovviamente restando sul diritto anglosassone perché da noi non se ne parla proprio: il fair use implica che si usa una piccola parte del materiale sotto copyright, mentre per definizione l’addestramento di un LLM generativo ne usa tanto, tantissimo. (sulla singola risposta ne sfrutta poco, ma quella è un’altra storia). Capirete però che un simile approccio apre un vaso di Pandora, il che non conviene neppure a OpenAI che con i suoi modelli ci vuole fare i soldi. In definitiva consiglierei di preparare i popcorn.
Tanto rumore per nulla. In EU è abbastanza chiaro che Open AI (ed gli scraper in generale) sia protetto dalla Text & Data Mining exception: https://academic.oup.com/grurint/article/71/8/685/6650009
Da persona che pensa che il diritto d’autore attuale sia malato, apprezzo quello che fa Open AI: i nemici dei miei nemici sono miei amici. “Copy, rip, burn” inneggiavamo all’inizio degli anni 2000. Perché adesso rinneghiamo tutto?
ma il NYT è in USA, non vale la Text & Mining Exception :-)
Valido se e solo se sono semplici citazioni, invalido in caso contrario se la licenza data all’utente lo prevede. In pratica i siti di news sono tutti ristretti, alias, la IA è libera di prendere e copiare quelle due o tre righe e riportarle nella query, ma (esattamente come la causa in oggetto) non è libera di rigurgitare un intero articolo, salvo diverso accordo fra le parti.
Anche io pensavo che, in tutti i casi, di testo tale e quale ne usava poco da ogni singola fonte. Però vedendo la documentazione dell’accusa non sembra, la tale AI ha ripreso porzioni lunghe senza fare un grande sforzo di modifica del testo.
Penso che talune fonti dovrebbero essere molto contente che qualcuno, sia pure elettronico, legga tutte le [AGGETTIVO] che scrivono… però è vero che l’AI, nonostante la sua veneranda età, è ancora bambina e, dopo aver imparato a leggere e scrivere, deve imparare a copiare senza farsi beccare e/o citare in giudizio!
Attenzione!
Il copyright significa che devo pagare per fare una copia anche parziale dell’oggetto protetto (o addirittura potrei non essere per niente autorizzato a farla, nemmeno pagando).
Ma ci sono tanti modi di fruire legalmente di un’opera protetta da copyright senza dover pagare!
Posso leggere un libro in biblioteca. Posso vedere un film sulla TV pubblica. Posso vedere una foto su un cartellone pubblicitario. Posso sentire una canzone alla radio. Posso leggere il quotidiano prestatomi da un collega.
Tutte queste attività sono gratuite.
Ovviamente, se voglio copiare un brano di quel libro per metterlo dentro un libro mio a firma mia, non posso farlo. Non posso registrare un film visto in TV per rivendere le cassette. Non posso prendere una foto di un cartellone pubblicitario e riusarla in un’altra campagna pubblicitaria. Non posso suonare in un mio concerto la canzone sentita alla radio, senza pagare i diritti. E così via.
Nessuno può pretendere che io cancelli dalla mia mente quanto visto, letto o sentito. La legge però mi può (e mi deve!) vietare il plagio.
Ma se io sto imparando a fare qualcosa, posso fare la mia esperienza utilizzando gratis (e lecitamente) opere protette da copyright nella mia formazione.
Voglio diventare scrittore? Posso andare in biblioteca e leggere centinaia di romanzi. Non posso plagiarne brani, ma posso formare la mia esperienza su quelle opere FRUITE GRATIS. E nessuno scrittore può dirmi “guai a te se impari a scrivere bene leggendo i miei romanzi” (finché non plagio). E ovviamente qualcuno può avere molto da ridire se invece di leggere il libro in biblioteca (o prestato da un amico, etc. etc.) vado a rubarlo in libreria.
Cosa fanno le IA generative? Leggono tanto, e da quello imparano. Se leggono legalmente, senza rubare, il fatto che poi questo vada a costruire esperienza non riguarda il detentore dei diritti, in questo caso il NYT. Dal suo punto di vista non cambia nulla rispetto al caso in cui un agente software legge gli articoli del suo sito per indicizzarli (come fanno i motori di ricerca). Anzi, Google trattiene anche nei propri archivi una copia cache a lungo termine di quegli articoli… chi addestra un’IA invece non ha bisogno di tenerla!
Cosa fanno le IA generative? Leggono tanto, e da quello imparano. Se leggono legalmente, senza rubare, il fatto che poi questo vada a costruire esperienza non riguarda il detentore dei diritti, in questo caso il NYT.
Secondo il NYT ci sono brani generati da ChatGPT che sono troppo uguali all’originale, e quindi non si possono definire “rielaborazioni dell’originale”. Poi immagino siamo tutti d’accordo che il vero contendere è “quanti soldi OpenAI deve dare al NYT”.
Sarei curioso di vedere i brani a confronto. Se davvero sono troppo uguali, allora in NYT ha ragione.
Mettiamola così: se uno mettesse il prodotto di ChatGPT in una voce di Wikipedia, la considereremmo CopyViol oppure sarebbe sufficientemente diversa?
trovi esempi (dove OpenAI naturalmente dice che il NYT è riuscito a fregare ChatGPT e costringerlo a tirare fuori quel testo…) a https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf da pagina 30 in poi.
Tutta roba che su it.wiki verrebbe immediatamente cassata :-)
Wow. Sarebbe interessante vedere come glieli hanno chiesti, comunque su un output del genere in NYT ha sicuramente ragione.
Inoltre va contro quanto avevo capito, e cioe` che ChatGPT non memorizza il corpus usato per l’addestramento. Evidentemente sono io che non avevo studiato abbastanza.
non devi necessariamente memorizzare l’input completo. In certi casi ci sono successioni di parole “forzate”, e la probabilità che escano proprio in quell’ordine sono alte. Tra l’altro, non possiamo ovviamente sapere quanto cherrypicking è stato fatto…
Sicuramente ci sono catene di Markov che portano a successioni forzate, e questo spiegherebbe come mai c’e` una parola diversa di qua e di la`… ma sono comunque catene belle lunghe.
Quanto al cherry picking, e` giustificato. Se “a volte” compi un reato, e` quello il caso da evidenziare.
Comunque direi che forse il problema non e` cosa usi nell’addestramento, ma che devi controllare l’output per evitare violazioni di copyright.