Leggo dal Guardian (ma immagino sia scritto ovunque…) che OpenAI afferma che sia impossibile addestrare i LLM generativi come ChatGPT senza usare materiale sotto copyright. Per la precisione, dicono che “supportano il giornalismo, fanno accordi con aziende del settore, e che la causa del New York Times (che li ha citati per violazione di copyright) non ha fondamento”.
Consiglio di leggere la difesa di OpenAI al link qui sopra, perché è un classico esempio di come si fa in fretta a spostare il punto del contendere. Non mi riferisco tanto al fatto che OpenAI ha implementato un sistema di opt-out per chi non vuole che il suo materiale da quel momento in poi (enfasi mia) non venga più usato, tacendo su quanto è stato fatto in precedenza. Né alla frase «We had explained to The New York Times that, like any single source, their content didn’t meaningfully contribute to the training of our existing models and also wouldn’t be sufficiently impactful for future training.» Questa frase non ha alcun senso dal punto di vista legale: pensate a una causa per furto di alcune monete antiche esibite in una mostra e alla difesa “ma la nostra mostra non sarebbe stata differente anche se non ci fossero state quelle monete. Ma anche la difesa fatta davanti al parlamento britannico è lampante: “Poiché oggi il copyright tocca praticamente ogni tipo di espressione umana – compresi post nei blog, fotografie, messaggi nei forum, frammenti di codice e documenti governativi – sarebbe impossibile addestrare i modelli più avanzati odierni di AI senza usare materiale sotto copyright”.
Il punto per me è un altro. O paghi per usare materiale sotto copyright – il termine significa proprio questo: tu che sei titolare decidi quanto vale il tuo materiale – o mostri che il concetto di copyright come è declinato oggidì è malsano. Il tutto senza contare che OpenAI mette (volutamente…) sullo stesso piano tipi diversi di copyright. I documenti governativi, per esempio, sono di solito liberamente riutilizzabili; i blog hanno spesso una licenza non commerciale (come nel mio caso: non che io pensi che qualcuno addestri un’AI anche con le mie notiziole), e lo stesso capita spesso con foto e codice. Nulla insomma a che fare con gli articoli di giornale.
Non mi sembra poi che si possa invocare così facilmente il fair use, ovviamente restando sul diritto anglosassone perché da noi non se ne parla proprio: il fair use implica che si usa una piccola parte del materiale sotto copyright, mentre per definizione l’addestramento di un LLM generativo ne usa tanto, tantissimo. (sulla singola risposta ne sfrutta poco, ma quella è un’altra storia). Capirete però che un simile approccio apre un vaso di Pandora, il che non conviene neppure a OpenAI che con i suoi modelli ci vuole fare i soldi. In definitiva consiglierei di preparare i popcorn.