AI generative e violazione di copyright

Non so se la notizia sia passata tra gli italici media: alcuni scrittori statunitensi hanno citato a giudizio Meta perché per addestrare il suo sistema LLaMA (simile a ChatGPT-4) avrebbe usato i testi dei loro libri protetti da copyright. Vero, falso o irrilevante? La questione non è affatto semplice.

Premessa: i sistemi di chat di tipo LLM si chiamano così perché usano Large Language Models: modelli di una lingua di dimensioni ampie. È più o meno quello che fanno i traduttori automatici: questi sistemi cercano correlazioni tra parole – nel caso delle traduzioni tra termini in inglese e termini in un’altra lingua, negli LLM sul flusso delle parole nelle frasi dei corpora – e le sfruttano per dare una risposta al testo che gli si dà in ingresso. Diciamo che nel caso degli LLM io avrei detto “enormi” e non “grandi”, ma non sottilizziamo. La domanda a questo punto diventa “ma dove sono presi questi testi”? Checché si parli sempre più o meno a vanvera di Big Data, il materiale di addestramento deve essere di buona qualità, quindi non si può prendere roba a caso.

In questo articolo Alex Reisner ha analizzato un dataset usato per LLaMA, e scoperto che in effetti esso contiene una grande quantità di libri piratati. Mentre il sottoinsieme “books1” contiene materiale da Project Gutenberg che è nel pubblico dominio – ma è per definizione materiale vecchio, e quindi non segue necessariamente le regole semantiche attuali – e il sottoinsieme “books2” non è facilmente interpretabile ma potrebbe essere legato ai contenuti di ZLibrary, “books3” comprende i testi di 170000 volumi con ISBN, presumibilmente tutti sotto copyright, compresi quelli degli autori che hanno fatto causa a Meta.

A questo punto però la domanda da porsi cambia: assodato che quella raccolta di testi è una violazione di copyright, usarla come insieme di addestramento per un LLM è anche una violazione di copyright? Qui la risposta è più complicata. Negli USA vige la dottrina del fair use: si può usare del materiale sotto copyright se (a) non lo si usa direttamente ma lo si processa e (b) quest’uso non dà problemi allo sfruttamento commerciale dell’opera originaria. Entrambi i casi sono rispettati: per definizione l’output di un LLM dovrebbe essere “nuovo” (non dico “creativo”, mi spiace), e addirittura l’esistenza stessa della base dati non tocca lo sfruttamento commerciale delle opere al suo interno, perché esse sono state trattate per il consumo automatico, quindi per esempio togliendo tutta la formattazione e lasciando il puro testo, oltre che rendendo particolarmente difficile recuperare il singolo testo al loro interno: ricordo che stiamo parlando di un singolo file di decine di gigabyte senza nessun metadato che permette di trovare quello che si cerca, e probabilmente neppure il nome dell’autore del testo.

E cosa dire della base dati in sé? Negli USA probabilmente il suo uso rimane sotto la dottrina del fair use, anche se Meta per esempio costringe a firmare un accordo; ma in Europa, con la nuova direttiva copyright, è possibile invocare dei diritti sui generis – diversi da quelli d’autore – per la base dati in sé. Secondo Creative Commons, se poi il materiale usato per costruire una certa base dati ha una licenza CC allora anche la base dati stessa ha una licenza dello stesso tipo. Non che io abbia idea di come si possa usare una base dati con una licenza CC-BY-ND: ma per fortuna non è un mio problema.

Da ignorante mi chiedo se sia legale usare materiale sotto copyright, anche se l’output non è nemmeno di per sé un’opera derivata e quindi non dovrebbe avere problemi. Voi che ne pensate?

I veri problemi dell’editoria

Salvini: Comprerò il libro di Vannacci Matteo Salvini ci fa sapere che comprerà e leggerà “Il mondo al contrario”. Capisco che per leggere un libro ci voglia del tempo e non ci si può far molto, ma Salvini dovrebbe fare in modo che per acquistare un libro non ci voglia una vita.

Campionati femminili di scacchi e donne trans

https://commons.wikimedia.org/wiki/File:A_game_of_chess.jpg , CC-BY-SA-4.0

Leggendo questo articolo del Post, capisco ancora meno. Formalmente i campionati di scacchi non fanno distinzione di sesso; tanto non è uno sport dove la potenza fisica abbia importanza. Esistono però dei campionati femminili, che nascono perché c’è chi afferma che le donne hanno ancora oggi meno possibilità di allenarsi per arrivare ad alti livelli, e questi campionati permetterebbero loro di farsi le ossa. Il motivo per cui le donne hanno meno possibilità? Boh. Nel mio socialino di nicchia è stata anche fatta l’ipotesi che le ragazze si interessano al sesso qualche anno prima, e quindi gli stolidi maschi hanno più tempo per seguire i pesanti allenamenti necessari per arrivare al top. Può darsi: assumiamo che sia così.
Quello che sta succedendo è che la FIDE, la federazione internazionale degli scacchi, ha definito una moratoria di due anni per le donne trans, che non potranno partecipare ai campionati femminili. Mentre posso capire la logica di moratorie di questo tipo per gli sport più fisici (non che io abbia una risposta in merito, intendiamoci. Ci sono troppe variabili in gioco), nel caso degli scacchi non riesco proprio a capire. Non penso che il numero di scacchiste trans sia così grande rispetto a chi è nata biologicamente donna. Né penso che essere nate uomini dia loro un vantaggio competitivo negli scacchi: stiamo comunque parlando di gare dove tutte sono competitive.
Insomma, una battaglia terf che a me pare perdente.

Vannacci e il mondo al contrario

Vabbè, Roberto Vannacci si direbbe ancora più fascista del parà medio della Folgore: ma direi che questo non è molto strano. Oltre che fascista deve anche essere un rompipalle di prima classe, a giudicare dal fatto che a giugno era stato posto a capo dell’Istituto Geografico Militare nel più classico “promoveatur ut amoveatur”, dopo che da settembre era a fare nulla dopo essere stato espulso dalla Russia come persona non grata. Evidentemente in questi mesi si deve essere divertito a scrivere il suo libro che si è autopubblicato su Amazon.
Non sarebbe successo nulla se Repubblica non avesse deciso di fare uno scoop raccontando del libro omofobo e razzista, cosa che ha fatto schizzare il libro in testa alle classifiche di Amazon e innescato una serie di polemiche che non mi interessano. Adesso Vannacci è stato sollevato dal ruolo, il che significa semplicemente che avrà più tempo per scrivere…
Comunque non concordo con l’analisi di Giornalettismo sulle vendite scarse. È vero che la classifica è aggiornata ogni ora, ed è vero che è facile essere primo in una sottocategoria. Però non è vero che la posizione in classifica dipende anche dalle ricerche – non converrebbe ad Amazon, sarebbe troppo facile inquinare le classifiche. Nel lontano 2011 per un attimo il mio Matematica in relax raggiunse la prima posizione in categoria “libri di matematica” e l’ottantesima in classifica generale, e questo direi con un venti/trenta copie vendute. Ma appunto non ero primo in classifica generale, come in questo caso; l’immagine del post l’ho presa giovedì sera, ma anche sabato sera era primo assoluto in classifica (e dopo i controlli di Amazon che hanno bloccato le recensioni negative eravamo a 77 recensioni con media 4 stelle e mezzo). Tenendo conto che il peso degli acquisti nella classifica decade esponenzialmente, essere in cima a distanza di due giorni mi fa immaginare che ci sia un flusso continuo di acquisti, e il numero di copie vendute dovrebbe come minimo aver superato il migliaio in pochi giorni. Sempre per fare confronti, i miei libri più venduti sono arrivati a 3000 copie nel corso di svariati anni… Certo io sono tutto tranne che uno scrittore di punta, ma direi che Vannacci la sua bella convenienza ce l’ha avuta: e secondo me deve solo ringraziare Repubblica.

Quizzino della domenica: Somme di numeri dispari non primi

Il numero 42 si può scrivere come 15+27. Sia 15 che 27 sono numeri dispari composti (3·5 e 3³). Trovate tutti i numeri (positivi) pari che non possono essere scritti come somma di due numeri (positivi) dispari non primi.

(trovate un aiutino sul mio sito, alla pagina https://xmau.com/quizzini/p657.html; la risposta verrà postata lì il prossimo mercoledì. Problema da Joe Roberts, Lure of the integers, pag. 189)

Pitocchi

Un po’ di considerazioni sulla storia degli italiani che scappano senza pagare il conto al ristorante. Non pagare 80 euro in quattro è davvero da pitocchi: ci credo che poi dicano che in Albania le vacanze costano meno che in Puglia, se si risparmia anche così.
Il tono del comunicato dell’ambasciata è tipicamente fascista. Non vai a scrivere “Gli italiani rispettano le regole e saldano i propri debiti e ci auguriamo che episodi di questo genere non si ripetano.” ma dici qualcosa come “Ci scusiamo per l’inqualificabile comportamento di quei nostri compratrioti”. Ma lì ho come il sospetto che non si potesse andare oltre.
Infine, la precisazione “il pagamento è stato liquidato con fondi personali della Presidente Meloni per il tramite dell’Ambasciata, che si è limitata ad effettuare materialmente il versamento” non precisa molto, visto che non si sa quali sono i “fondi personali”. Dando per buono che il testo sia diplomatichese per dire “con i suoi soldi” e non “con i fondi della presidenza del Consiglio”, non capisco perché Meloni non abbia fatto direttamente il bonifico, chiedendo al più all’ambasciata di recuperare i dati… Tutti pitocchi, ribadisco.

Trigonometry – A Very Short Introduction (ebook)

Ho trovato il primo capitolo del libro, seppure partisse da un assunto interessante su come nacquero le idee che portarono allo sviluppo della trigonometria, piuttosto noioso, e ho lasciato per un po’ il libro a sedimentare. Devo però dire che il resto del libro è molto più interessante. Lo so, molti di voi diranno “che cosa può esserci di interessante sulla trigonometria?” Beh, van Brummelen ha scelto di mostrare come tante parti della matematica hanno a che fare con la trigonometria, e devo dire che alcune corrispondenze sono state inaspettate anche per me. Poi naturalmente c’è il grande vantaggio dei libretti della collana Very Short Introduction: che sono appunto brevi. Insomma, può valer la pena di leggerlo, al limite saltando il primo capitolo!

Glen van Brummelen, Trigonometry : A Very Short Introduction, Oxford University Press 2020, pag. 192, € 5,33 (cartaceo: $11,95), ISBN 9780192545473

Voto: 4/5

E quando il Telepass si scarica?

Abbiamo il telepass da una vita, quando era monopolista (ora no). Non mi è mai stato molto chiaro perché al tempo ti facessero pagare per far loro risparmiare sui casellanti – adesso ormai questo non vale più – ma tant’è. Il primo guaio è che non c’è nessun modo per sapere quando il transponder si scarica, cosa che ci è successa mentre scendevamo al mare – all’uscita dal casello, non all’entrata. Immagino che ci abbiano fotografato la targa e spero che il pagamento finisca direttamente sul nostro conto corrente.

Il vero guaio è che i punti blu non esistono più (da un paio d’anni, ma non è che il transponder si scarichi ogni momento, per fortuna). I signori Telepass dicono che tanto si fa tutto online, ma il cambio fisico fatto online va forse bene quando sei tranquillo a casa tua e non in giro. Adesso siamo alla caccia di una stazione Eni che permetta di fare qualcosa…

Notiziole di .mau.

Pensieri slegati che scrivo quando mi capita