{"id":27077,"date":"2023-08-23T04:51:14","date_gmt":"2023-08-23T02:51:14","guid":{"rendered":"https:\/\/xmau.com\/wp\/notiziole\/?p=27077"},"modified":"2025-12-29T18:49:04","modified_gmt":"2025-12-29T17:49:04","slug":"ai-generative-e-violazione-di-copyright","status":"publish","type":"post","link":"https:\/\/xmau.com\/notiziole\/2023\/08\/23\/ai-generative-e-violazione-di-copyright\/","title":{"rendered":"AI generative e violazione di copyright"},"content":{"rendered":"<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" src=\"https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2023\/08\/copyright.png?resize=250%2C157&#038;ssl=1\" alt=\"\" width=\"250\" height=\"157\" class=\"alignleft size-full wp-image-27078\" \/> Non so se la notizia sia passata tra gli italici media: alcuni scrittori statunitensi hanno citato a giudizio Meta perch\u00e9 per addestrare il suo sistema LLaMA (simile a ChatGPT-4) avrebbe usato i testi dei loro libri protetti da copyright. Vero, falso o irrilevante? La questione non \u00e8 affatto semplice.<\/p>\n<p>Premessa: i sistemi di chat di tipo LLM si chiamano cos\u00ec perch\u00e9 usano <b>Large<\/b> Language Models: modelli di una lingua di dimensioni ampie. \u00c8 pi\u00f9 o meno quello che fanno i traduttori automatici: questi sistemi cercano correlazioni tra parole &#8211; nel caso delle traduzioni tra termini in inglese e termini in un&#8217;altra lingua, negli LLM sul flusso delle parole nelle frasi dei corpora &#8211; e le sfruttano per dare una risposta al testo che gli si d\u00e0 in ingresso. Diciamo che nel caso degli LLM io avrei detto &#8220;enormi&#8221; e non &#8220;grandi&#8221;, ma non sottilizziamo. La domanda a questo punto diventa &#8220;ma dove sono presi questi testi&#8221;?  Checch\u00e9 si parli sempre pi\u00f9 o meno a vanvera di Big Data, il materiale di addestramento deve essere di buona qualit\u00e0, quindi non si pu\u00f2 prendere roba a caso.<\/p>\n<p>In <a href=\"https:\/\/www.theatlantic.com\/technology\/archive\/2023\/08\/books3-ai-meta-llama-pirated-books\/675063\/\">questo articolo<\/a> Alex Reisner ha analizzato un dataset usato per LLaMA, e scoperto che in effetti esso contiene una grande quantit\u00e0 di libri piratati. Mentre il sottoinsieme &#8220;books1&#8221; contiene materiale da Project Gutenberg che \u00e8 nel pubblico dominio &#8211; ma \u00e8 per definizione materiale vecchio, e quindi non segue necessariamente le regole semantiche attuali &#8211; e il sottoinsieme &#8220;books2&#8221; non \u00e8 facilmente interpretabile ma potrebbe essere legato ai contenuti di ZLibrary, &#8220;books3&#8221; comprende i testi di 170000 volumi con ISBN, presumibilmente tutti sotto copyright, compresi quelli degli autori che hanno fatto causa a Meta. <\/p>\n<p>A questo punto per\u00f2 la domanda da porsi cambia: assodato che quella raccolta di testi \u00e8 una violazione di copyright, usarla come insieme di addestramento per un LLM \u00e8 anche una violazione di copyright? Qui la risposta \u00e8 pi\u00f9 complicata. Negli USA vige la dottrina del fair use: si pu\u00f2 usare del materiale sotto copyright se (a) non lo si usa direttamente ma lo si processa e (b) quest&#8217;uso non d\u00e0 problemi allo sfruttamento commerciale dell&#8217;opera originaria. Entrambi i casi sono rispettati: per definizione l&#8217;output di un LLM dovrebbe essere &#8220;nuovo&#8221; (non dico &#8220;creativo&#8221;, mi spiace), e addirittura l&#8217;esistenza stessa della base dati non tocca lo sfruttamento commerciale delle opere al suo interno, perch\u00e9 esse sono state trattate per il consumo automatico, quindi per esempio togliendo tutta la formattazione e lasciando il puro testo, oltre che rendendo particolarmente difficile recuperare il singolo testo al loro interno: ricordo che stiamo parlando di un singolo file di decine di gigabyte senza nessun metadato che permette di trovare quello che si cerca, e probabilmente neppure il nome dell&#8217;autore del testo. <\/p>\n<p>E cosa dire della base dati in s\u00e9? Negli USA probabilmente il suo uso rimane sotto la dottrina del fair use, anche se Meta per esempio costringe a firmare un accordo; ma in Europa, con la nuova direttiva copyright, \u00e8 possibile invocare dei diritti sui generis &#8211; diversi da quelli d&#8217;autore &#8211; per la base dati in s\u00e9. Secondo <a href=\"https:\/\/creativecommons.org\/2023\/08\/18\/understanding-cc-licenses-and-generative-ai\/\">Creative Commons<\/a>, se poi il materiale usato per costruire una certa base dati ha una licenza CC allora anche la base dati stessa ha una licenza dello stesso tipo. Non che io abbia idea di come si possa usare una base dati con una licenza CC-BY-ND: ma per fortuna non \u00e8 un mio problema. <\/p>\n<p>Da ignorante mi chiedo se sia legale usare materiale sotto copyright, anche se l&#8217;output non \u00e8 nemmeno di per s\u00e9 un&#8217;opera derivata e quindi non dovrebbe avere problemi. Voi che ne pensate?<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Come sempre, le cose non sono cos\u00ec semplici. E in questo caso sono anche diverse tra USA ed UE.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"activitypub_content_warning":"","activitypub_content_visibility":"","activitypub_max_image_attachments":3,"activitypub_interaction_policy_quote":"anyone","activitypub_status":"","footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"jetpack_post_was_ever_published":false},"categories":[30,9],"tags":[],"class_list":["post-27077","post","type-post","status-publish","format-standard","hentry","category-ia","category-ia-old"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_shortlink":"https:\/\/wp.me\/phh2yV-72J","jetpack-related-posts":[{"id":31328,"url":"https:\/\/xmau.com\/notiziole\/2025\/02\/06\/open-euro-llm\/","url_meta":{"origin":27077,"position":0},"title":"Open Euro LLM","author":".mau.","date":"2025-02-06","format":false,"excerpt":"Progetto europeo per costruire un LLM multilingua che \"conservi la diversit\u00e0 culturale e linguistica\". Riusciranno mai a farlo?","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"logo di Open Euro LLM","src":"https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2025\/02\/openeurollm.png?resize=350%2C200&ssl=1","width":350,"height":200},"classes":[]},{"id":28113,"url":"https:\/\/xmau.com\/notiziole\/2024\/01\/11\/impossibile-creare-ai-generative-senza-copyright\/","url_meta":{"origin":27077,"position":1},"title":"&#8220;Impossibile&#8221; creare AI generative senza copyright","author":".mau.","date":"2024-01-11","format":false,"excerpt":"e quindi?","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"il logo di OpenAI","src":"https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2024\/01\/openai-logo.jpg?resize=350%2C200&ssl=1","width":350,"height":200},"classes":[]},{"id":34504,"url":"https:\/\/xmau.com\/notiziole\/2025\/11\/24\/gli-llm-hanno-problemi-con-la-parola-no\/","url_meta":{"origin":27077,"position":2},"title":"Gli LLM hanno problemi con la parola &#8220;no&#8221;","author":".mau.","date":"2025-11-24","format":false,"excerpt":"E non solo perch\u00e9 fanno fatica a darti una risposta negativa.","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":30264,"url":"https:\/\/xmau.com\/notiziole\/2024\/12\/27\/ai-e-matematica-ci-sono-miglioramenti\/","url_meta":{"origin":27077,"position":3},"title":"AI e matematica: ci sono miglioramenti?","author":".mau.","date":"2024-12-27","format":false,"excerpt":"c'\u00e8 chi dice di s\u00ec, ma restano molti dubbi.","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":30431,"url":"https:\/\/xmau.com\/notiziole\/2025\/01\/23\/se-non-ci-fossero-nuovi-llm\/","url_meta":{"origin":27077,"position":4},"title":"E se non ci fossero pi\u00f9 &#8220;nuovi LLM?&#8221;","author":".mau.","date":"2025-01-23","format":false,"excerpt":"@aitech@feddit.it - C'\u00e8 chi ipotizza che gli LLM complessi saranno usati solo per addestrare quelli resi pubblici, e Ci\u00f2 \u00c8 Male","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":32923,"url":"https:\/\/xmau.com\/notiziole\/2025\/06\/26\/no-anthropic-non-puo-addestrare-gli-llm-con-i-libri-piratati\/","url_meta":{"origin":27077,"position":5},"title":"No, Anthropic non pu\u00f2 addestrare gli LLM con i libri piratati","author":".mau.","date":"2025-06-26","format":false,"excerpt":"Anche se i media italiani hanno scritto che Anthropic ha vinto la causa, le cose non stanno proprio cos\u00ec.","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]}],"jetpack_likes_enabled":true,"jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/27077","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/comments?post=27077"}],"version-history":[{"count":2,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/27077\/revisions"}],"predecessor-version":[{"id":27080,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/27077\/revisions\/27080"}],"wp:attachment":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/media?parent=27077"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/categories?post=27077"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/tags?post=27077"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}