No, Anthropic non può addestrare gli LLM con i libri piratati

Avrete forse letto della sentenza di un giudice americano sulla presunta violazione di copyright da parte di Anthropic – ma naturalmente la cosa varrebbe per qualunque azienda che addestra LLM – per avere dato in pasto al proprio sistema Claude il testo di libri senza pagare gli autori: e magari avete letto che il giudice ha dato ragione ad Anthropic, perché la cosa ricadrebbe sotto il fair use. Beh, non è proprio così.

Come spiega David Gerard, il giudice William Alsup ha sentenziato che usare dei testi per addestrare un algoritmo di per sé rientra nel fair use: a parte per la quantità di dati ingurgitati da questi sistemi, si può parlare di trasformazione del testo esattamente come io o voi possiamo leggerci dei libri e trarne spunto per scrivere qualcosa di nostro. Citando direttamente la sentenza,

The purpose and character of using copyrighted works to train LLMs to generate new text was quintessentially transformative … If this training process reasonably required making copies within the LLM or otherwise, those copies were engaged in a transformative use.

e questa è sicuramente una vittoria per chi crea LLM. Il tutto ha sicuramente senso se ci pensate, è più o meno quello che sto facendo io ora con l’articolo di Gerard. Fin qui tutti d’accordo. Ma…

Il punto su cui Alsup ha rimandato la decisione a un altro processo è la provenienza di questi testi. Anthropic ha comprato una grande quantità di libri, e per questi libri il suo lavoro è stato considerato lecito. Ma ha anche scaricato sette milioni di libri piratati, e qui casca l’asino. Sempre citando dalla sentenza,

Authors argue Anthropic should have paid for these pirated library copies. This order agrees… The downloaded pirated copies used to build a central library were not justified by a fair use. Every factor points against fair use … A separate justification was required for each use. None is even offered here except for Anthropic’s pocketbook and convenience.

Rileggiamo queste frasi. Il giudice dà ragione agli autori che hanno detto “non solo questi qua usano i nostri testi, ma noi non ci prendiamo il becco di un quattrino!”; ovviamente Anthropic non ha potuto dare risposte convincenti, a meno che non riteniate convincente “eh, ma ci volevano troppi soldi, per non parlare del fatto che i libri piratati sono già belli pronti…”

Come sempre, insomma, è una banale questione di soldi: e come sappiamo bene chi più ne ha meno ne vuole spendere, e resta un oculato risparmiatore come Paperon de’ Paperoni. Aggiungo solo che tutto questo non varrebbe affatto per un eventuale LLM made in Italy: il fair use non esiste da noi, e presumo che la 633/41 bloccherebbe anche l’uso di testi regolarmente acquistati per l’addestramento dei modelli…

Il problema di Langford (II)

La scorsa settimana avevo presentato il problema di Langford: mettere in fila $2n$ coppie di numeri da $1$ a $n$ in modo che tra i due numeri $i$ ci siano esattamente $i$ altri numeri. Per $n=3$ e $n=4$ le soluzioni (essenzialmente uniche) sono rispettivamente 3-1-2-1-3-2 e 4-1-3-1-2-4-3-2. Ho anche detto che una soluzione era possibile solo se il numero di coppie era della forma $4k$ oppure $4k+3$, come è stato dimostrato da Roy O. Davies. La dimostrazione è molto semplice: eccola qua.

Numeriamo da $1$ a $2n$ i numeri dell’elenco, e per ciascun numero $k \in {1, … n}$ consideriamo le due posizioni $P_k < Q_k$ dei due numeri nell'elenco. Nel caso $n=3$ abbiamo per esempio $P_1 = 2, Q_1 = 4, P_2 = 3, Q_2 = 6, P_3 = 1, Q_3 = 5.$ Chiaramente abbiamo $Q_k = P_k + k + 1$ per definizione di coppia $k$. La somma di tutti questi valori è $\sum_{k=1}^{n} (2P_k + k + 1) = 2\sum_{k=1}^{n} P_k + n + n(n+1)\!/\!2$, ma visto che sono i valori da $i$ a $2n$ sappiamo che la somma è anche $n(2n+1).$ Poiché la somma dei $P_k$ è evidentemente un numero intero, ci accorgiamo subito che se $n = 4q + 1$ oppure $n = 4q +2$ abbiamo che gli altri termini danno una somma frazionaria e quindi non ci sono soluzioni. □ Questo è un risultato negativo, nel senso che ci dice quando non si può risolvere il problema ma non quando lo si può fare. Però le soluzioni negli altri casi sono tantissime, a parte quella unica nei casi visti sopra. Davies pensava che per $n=7$ ci fossero 25 soluzioni, e Martin Gardner nel 1967 riportò quel valore: in realtà ce ne sono 26. John Miller, come scrive nel suo sito, programmò un computer nel 1968 e trovò le 26 soluzioni per $n=7$ e le 150 per $n=8$. (Due persone riuscirono a trovare tutte le soluzioni nel primo caso a mano…). E.J. Groth ottenne anche il numero di soluzioni per $n=11$ (17792) e $n=12$ (108144). Altri valori si possono trovare come sempre su OEIS: quelli per 15 e 16 sono stati computati negli anni ’80; il 19 nel 1999, il 20 nel 2002, il 23 nel 2004, il 24 nel 2005, il 27 e il 28 nel 2015… e poi non si sa più. Del resto, le soluzioni per $n=28$ sono 1607383260609382393152, diciamo parecchie!

Si può anche decidere di accettare solo le soluzioni “planari” al problema, nel senso che i numeri uguali si possono connettere tra loro e ottenere un grafo planare. La soluzione generale per $n=3$ è planare, quella per $n=4$ e quelle per $n=7$ non lo sono, ci sono quattro soluzioni planari per $n=8$ e così via. Come al solito, OEIS ha la successione. C’è poi la “variante Tanton”, da James Tanton: in questo caso ci sono $n$ studenti seduti in circolo, e si chiede che si può dare un numero da 1 a $n$ agli studenti in modo tale che se lo studente $k$ si sposta di $k$ posti in senso orario (quindi quello $n$ non si sposta…) alla fine non ci sia nessuno seduto sulle ginocchia di un altro. In questo caso si può dimostrare con semplici sistemi di parità che il numero di studenti deve essere dispari: stranamente la successione dei possibili valori (0, 0, 1, 0, 3, 0, 19, 0, 225, 0, 3441, 0, 79259, 0, 2424195…) non si trova su OEIS!

Greenpainting

Il greenwashing – dice lo Zingarelli – è l'”ambientalismo solo apparente, di facciata, spec. da parte di un’azienda che vuole presentarsi come ecologicamente responsabile per scopi pubblicitari, di immagine, ecc.”. Esso è piuttosto noto.

Però non mi aspettavo che un palazzo da decenni blu (e incidentalmente sede di Altroconsumo) venisse ridipinto di verde…

Niente scontrini di carta?

Leggo su Open (h/t Mitì Vigliero) che la maggioranza parlamentare sta preparando una normativa per abolire gli scontrini cartacei, facendo sì che per default esso sia elettronico; occorrerà chiedere esplicitamente il pezzo di carta. Le date per l’adozione di questa misura saranno sfasate: la GDO dovrebbe ottemperare all’obbligo per capodanno 2027, mentre gli altri esercizi avranno ancora uno o due anni di tregua, a seconda del loro fatturato.

Considerando quello che faccio io con gli scontrini (ficcarli in tasca e ogni tanto svuotare la tasca in un cestino) la cosa mi rende felice: con Decathlon, per dire, lo faccio già. Ma io sono una persona semblige. Anna per esempio è preoccupata perché dice che dove dare il numero di telefono permette al venditore di incrociare ancora più dati dei tanti che ha già a disposizione. In effetti potrebbe essere interessante un sistema per cui, almeno nel caso di pagamenti elettronici, lo scontrino viene direttamente mandato all’ADE con un codice univoco corrispondente alla carta o all’app usata; in questo modo il venditore non ha a disposizione altri dati (ok, ha quelli della carta di pagamento, se uno è paranoico: ma ce li aveva già prima) e tutto sarebbe più semplice. Chissà se ci hanno pensato.

Povera filologia

quatttordici lettere paoline?
Nelle Lezioni del Corriere oggi Luciano Canfora parla del Nuovo Testamento. Ora, io ho dei dubbi a definire “egizio” il mondo di quei secoli: avrei usato “alessandrino” per rimarcare non solo il luogo ma anche il pensiero. Però questo non è il mio campo, e quindi non entro nel merito.

Nemmeno la religione è il mio campo, però qui un minimo in più ne capisco. Se leggo che nel Nuovo Testamento ci sono “le 14 Lettere dell’Apostolo Paolo” mi si rizzano i capelli. Certo, quando ero un bimbetto a messa il lettore declamava “Dalla lettera di San Paolo apostolo agli Ebrei”, e anche la Vulgata scrive “AD HEBRAEOS EPISTULA SANCTI PAULI APOSTOLI”. Ma sono almeno cinquant’anni che anche i cattolici non ritengono più il testo come paolino; c’è anche la battuta «La cosiddetta “lettera di Paolo agli ebrei” non è una lettera, non è di Paolo e non è indirizzata agli ebrei.» (Non è una lettera perché è un’omelia, non è di Paolo ma probabilmente di un suo discepolo come si vede dal diverso stile di scrittura, ed è indirizata a cristiani anche se di origine ebraica o comunque conoscitori della Bibbia ebraica). È probabile che la lettera fosse stata attribuita a Paolo non tanto per l’importanza dell’autore quanto perché in tal modo si avevano sette lettere paoline “lunghe”, sette lettere paoline “corte” e sette “lettere altrui”, a costo di avere 2 Pt e Gd

Ma se non siete convinti della mia esegesi potete andare fino in fondo all’articolo e leggere che nell’episodio della donna adultera, dopo il famoso “chi è senza peccato scagli la prima pietra”, Canfora scrive “Pian piano tutti i presenti si allontanano. Sulla scena rimangono solo Gesù e l’adultera, che chiede: «Dove sono andati?»”. Peccato che non sia l’adultera ma Gesù a chiederlo, come potete leggere in Gv 8,10. Qui non ci sono interpretazioni: posso dire che Canfora ha preso una cantonata?

Quizzino della domenica: Solo primi

753 – algebretta

Siete in grado di mettere in fila i quattordici numeri da 0 a 13 in modo tale che la somma di due numeri consecutivi sia sempre un numero primo? Ricordo che 1 non è un numero primo.


(trovate un aiutino sul mio sito, alla pagina https://xmau.com/quizzini/p753.html; la risposta verrà postata lì il prossimo mercoledì. Problema dalla newsletter di Chris Smith)


Il concetto di funzione (libro)

Quando mi capita di trovarne qualcuno in giro, mi piace dare un’occhiata ai libretti divulgativi degli anni ’60 del secolo scorso per vedere come sono cambiate le cose. In genere Progresso Tecnico Editoriale traduceva libri dal russo, il che dà l’ulteriore vantaggio di avere un modello diverso da quello usuale: ma questo volumetto fa parte di una collana di traduzioni da testi americani di autori sconosciuti, generalmente insegnanti nelle high school come appunto James D. Bristol alla Shaker Heights High School nell’Ohio.

Bristol comincia a passo di carica a parlare di numeri, insiemi e relazioni, immagino per completezza ma aspettandosi che il lettore tipico sappia già con cosa ha a che fare, per dedicare la maggior parte del testo al concetto di funzione che per lui non è altro che una corrispondenza elemento per elemento da un insieme che è il domino a uno che è il codominio; meglio ancora, una funzione è un insieme di coppie ordinate <a,b>. Un approccio di questo tipo è molto moderno, perché è per così dire discreto; non tanto per il concetto di continuità di una funzione, che in effetti è trattato solo alla fine di sfuggita, quanto per il dominio che può tranquillamente essere discreto. In pratica però non sono così sicuro che uno studente moderno riuscirebbe a seguire il testo. La moltiplicazione di due funzioni (non la composizione, che è trattata subito dopo e cha ha più senso) è per esempio qualcosa che non ha molto senso in analisi matematica ma risulta astratto: Bristol vuole mostrare come il “concetto di funzione” superi le barriere artificiali delle varie branche della matematica, ma la cosa potrebbe non essere alla portata di un liceale medio.

La traduzione di Lorenzo Vinassa De Regny, oltre a risentire degli anni anche per la terminologia usata, non sempre è all’altezza: per dire, nell’introduzione una “lecture” è diventata una “lettura”…

James D. Bristol, Il concetto di funzione [The Concept of a Function], Progresso Tecnico Editoriale 1967 [1963], pag. 88, trad. Lorenzo Vinassa De Regny

Voto: 3/5

Casorati (mostra)

logo mostra (dal sito ufficiale)
Sempre all’ultimo momento – la mostra chiude domenica 29 – siamo andati a vedere a Palazzo Reale la mostra su Felice Casorati. Stavolta c’era anche Cecilia, in qualità di studentessa dell’artistico, ma lei dà solo un’occhiata ai quadri e non è interessata al contesto.
Rispetto alle ultime mostre che abbiamo visto, c’era finalmente abbastanza materiale, ordinato più o meno cronologicamente il che è utile perché permette di vedere come Casorati abbia cambiato il suo stile nei decenni, pur rimanendo generalmente riconoscibile, soprattutto per le espressioni dei suoi personaggi (ma forse quello è il periodo dopo la prima guerra mondiale, dove visto anche il suicidio di suo padre non penso avesse molto da essere felice). Ho trovato molti accenni a stili precedenti, dal Rinascimento alle varie correnti tra Ottocento e Novecento (tranne il futurismo, che non gli piaceva proprio, ma compresi simbolismo e metafisica; le sculture non mi hanno detto molto, mentre le scenografie per la Scala che si trovano nell’ultima sala sono carine. Le ampie spiegazioni sui cartelloni aiutavano anche le capre come me a capire come le opere si inserivano nel quadro di quei decenni, ma avrei evitato di scrivere dell'”attimità impressionista”…

Per i milanesi: la tessera annuale ATM dà diritto a un biglietto a 10 euro anziché 17 :-)