Archivi autore: .mau.

Informazioni su .mau.

matematto non praticante

Non ci sbarazzeremo così facilmente delle chiamate farlocche

Sarebbe bello che le nuove regole per limitare le chiamate indesiderate dei call center funzionassero davvero. I miei colleghi ci stanno sbattendo la testa da mesi, perché i trucchi usati dagli spammer per far passare queste comunicazioni (che arrivano dall’estero, e quindi con un percorso diverso da quello locale) sono davvero biechi, tipo fare una connessione con un numero “buono” ma poi cambiare in corsa il callerID con il numero farlocco. Aspettatevi forse qualche piccolo miglioramento temporaneo, ma scommetto che questa gentaglia troverà altri modi per bypassare i controlli degli operatori nazionali.

In compenso non aspettatevi nulla sul piano degli SMS farlocchi. Questo per una ragione banale: AGCom ha deciso che far leggere a un programma (non a una persona, attenzione!) il testo dei messaggi inviati sarebbe contro la privacy anche senza sapere il numero di mittente e destinatario. Quindi le tecniche statistiche per trovare dei pattern nei messaggi inviati non possono essere usate. (Per chi si chiedesse “ma come si fa a distinguere gli spammatori da banche o aziende a cui abbiamo dato il permesso di inviare messaggi promozionali?” la risposta è che in quei casi ci sono dei contratti e i messaggi sono inviati attraverso numeri speciali).

Due giudici, due sentenze

L’altro giorno scrivevo di una sentenza americana contro Anthropic per l’uso diciamo “disinvolto” di testi piratati per addestrare i suoi LLM. Quasi contemporaneamente c’è stata però una sentenza di segno opposto a favore di Meta. Ancora una volta, però, le cose non sono quelle che appaiono a prima vista.

In questo caso, infatti, il giudice Vince Chhabria ha dato ragione a Meta non perché la controparte avesse torto, ma perché ha chiesto le cose sbagliate. Dal suo punto di vista, Llama non riesce a generare ampi stralci di testo copiato dagli autori, e quindi la loro azione legale per violazione di copyright deve essere rigettata. In compenso, però, nota come la proliferazione di libri di scarsa qualità generati dalle IA può inquinare il mercato e quindi togliere valore alla creatività degli autori umani; peccato che gli autori non abbiano chiesto una condanna per tale fatto. Tutto questo lascia spazio a nuove cause, anche se vedo difficile dimostrare che un autore non vende perché le IA hanno riempito il mercato. In compenso, anche in questo caso il problema dei libri “caduti dal camion” e usati illegalmente per addestrare i modelli è lasciato a un giudizio successivo.

Che si può concludere? Che noi non abbiamo molte idee su come applicare la legge all’addestramento degli LLM, ma i giudici americani ne hanno ancora di meno… (e come dicevo l’altra volta, da noi non si parla nemmeno di tutto questo)

Moltiplicare e dividere non è la stessa cosa

Leggo dalla BBC che c’è stato un “piccolo” problema con i risultati di Eurojackpot, una lotteria europea a cui se non sbaglio si può giocare anche da noi. Anche in Norvegia si può scommettere a Eurojackpot: i norvegesi sono indubbiamente in Europa, anche se non hanno voluto far parte dell’Unione Europea. Questo significa che per definizione non possono usare l’euro come moneta (occhei, per esempio il Montenegro ha deciso di non avere una politica monetaria propria e ha adottato unilateralmente l’euro, ma quella è un’altra storia) e continuano a usare le corone norvegesi. Il fatto è che c’è un monopolio statale per le scommesse, e quindi le vincite dei fortunati scommettitori sono passate da Norsk Tipping che è la società statale apposita. Ovviamene Norsk Tipping quando ha comunicato agli scommettitori la vincita ha convertito gli euro in corone. Ma a quanto pare i dati arrivano in eurocent (forse perché così non ci sono virgole o punti decimali, e si sa che la conversione di numeri in floating point non è mai sicura), e anziché dividere per 100 dopo la conversione si è moltiplicato per 100.

Risultato? Chi per esempio aveva fatto 4 (la pagina sarebbe qui, ma è costruita con javascript e non può essere salvata da Internet Archive) ha vinto 106,40 € che corrispondono a 1250 corone, ma la comunicazione è stata “Hai vinto 12.500.000 corone!” o meglio l’equivalente in norvegese. Immagino anche che la comunicazione dicesse che il giocatore aveva fatto 4+0, e quindi doveva essere chiaro che c’era qualcosa che non andava; ma immagino anche che il cervello rimanga un po’ obnubilato quando ti dicono che hai vinto più di un milione di euro.

L’amministratrice delegata di Norsk Tipping si è dimessa, proprio come sarebbe successo da noi: ma quello è un risultato politico, non matematico. Mi chiedo però cosa fosse cambiato nella comunicazione, visto che non è la prima volta che si estraggono i numeri di Eurojackpot…

Writers of the Future Volume 41 (ebook)

copertina
[Disclaimer: Ho ricevuto il libro grazie al programma Early Reviewer di LibraryThing]

Come sempre, i racconti di questa collezione sono generalmente buoni, con un paio di gemme: leggendo Thirty Minutes or It’s a Paradox mi è venuto in mente il miglior Fredric Brown. Quest’anno c’è persino stato meno “light horror”, che a me non piace affatto. Ecco una recensine monoriga dei singoli racconti:

▪ Storm Damage, di T. R. Naus (i guardiani del tempo sono un’idea carina e messa bene in pratica. 5/5)
▪ Blackbird Stone di Ian Keith (la trama sarebbe interessante, ma l’autore ha voluto mischiare troppi livelli diversi, come tempo e magia. 3/5)
▪ Kill Switch di Robert F. Lowell (è bello leggere un racconto sf hard-boiled! 5/5)
▪ Message and How to View Art di L. RON HUBBARD (consigli di buon senso)
▪ Tough Old Man di L. Ron Hubbard (perfino io avevo subito capito tutto… mi sarei aspettato qualcosa di più dal suo ultimo racconto SF. 3/5)
▪ Karma Birds di Lauren McGuire (Come ho detto non apprezzo i racconti horror, anche se leggeri. Però l’idea di questa “pandemia” è interessante. 4/5)
▪ The Boy from Elsewhen di Barlow Crassmont (Il finale è buono, ma la costruzione del racconto no. 3/5)
▪ Code L1 di Andrew Jackson (Non mi sarei aspettato che un racconto sf-hard si svolgesse così! 4/5)
▪ It Don’t Mean a Thing (If It Ain’t Got That Theme) di ROBERT J. SAWYER (altri buoni consigli per scrivere un racconto)
▪ Under False Colours di Sean Williams (Semplicemente meraviglioso, e contemporaneo con gli accenni all’AI. 5/5)
▪ Ascii di Randyn C. J. Bartholomew (Purtroppo i troppi dettagli pseudotecnici hanno un po’ rovinato il racconto. 4/5)
▪ Slip Stone di Sandra Skalski (Molto carino: in un certo senso la SF è solo lo sfondo. 5/5)
▪ The Stench of Freedom di Joel C. Scoberg (Qual è l’utilità degli elementali? Non quello che potreste pensare. 5/5)
▪ An Artist’s Path di TOM WOOD (a me che sono tutto meno che un artista non dice nulla)
▪ My Name Was Tom di Tim Powers (Alla fine mi sono perso e non ho capito il finale, ma ho apprezzato il flexagono. 4/5)
▪ The Rune Witch di Jefferson Snow (Non mi aspettavo quel finale, il che significa che è bello anche se triste. 4/5)
▪ Thirty Minutes or It’s a Paradox di Patrick MacPhee (Come ho detto, i paradossi temporali sono affastellati in modo così divertente che non si riesce a smettere di leggerlo. 5/5)
▪ A World of Repetitions di Seth Atwater Jr. (Il tema del loop temporale è visto in modo diverso, con tutti che se ne accorgono. Però c’è qualcosa che manca, anche se non riesco a visualizzarlo. 4/5)

Jody Lynn Nye (ed.), Writers of the Future Volume 41, Galaxy Press 2025, pag. 457, € 9,35, ISBN 978-1-61986-844-1 – come Affiliato Amazon, se acquistate il libro dal link qualche centesimo va a me

Voto: 5/5

Avremo pubblicità su Whatsapp?

Non so se vi ricordate, ma inizialmente Whatsapp era a pagamento. Un prezzo simbolico, meno di un euro l’anno, ma comunque era a pagamento. Poi Zuckerberg se l’è comprato per far fuori un pericoloso concorrente: a differenza della buonanima di Friendfeed, però, l’ha tenuto perché complementare a Facebook, limitandosi a togliere il balzello dell’abbonamento che gli sarebbe costato troppo in burocrazia.

Ma i costi sono costi: così Meta ha deciso di introdurre la pubblicità in Whatsapp; per il momento solo sul tab Updates (immagino quello che in italiano è Aggiornamenti, e che non apro mai), ma si sa che una cosa tira l’altra, e chissà che succederà. Già si parla di pubblicità sui canali. A dire il vero Telegram inserisce pubblicità nei canali già da anni, e nessuno si è lamentato più di tanto che io sappia: l’unico rompimento è che le pubblicità sono sempre le stesse, e sempre di criptovalute di cui non me ne può importare di meno.

La cosa probabilmente più interessante è però che nell’Unione Europea l’introduzione di questa “feature” arriverà più tardi. Come mai? Perché le regolamentazioni europee sono più stringenti, e Meta deve dimostrare che è in grado di mandarti pubblicità mirate (hahaha…) senza andare contro il GDPR. Capite perché tutti questi signori non sopportano l’Europa, che va bene giusto per sposarsi?

No, Anthropic non può addestrare gli LLM con i libri piratati

Avrete forse letto della sentenza di un giudice americano sulla presunta violazione di copyright da parte di Anthropic – ma naturalmente la cosa varrebbe per qualunque azienda che addestra LLM – per avere dato in pasto al proprio sistema Claude il testo di libri senza pagare gli autori: e magari avete letto che il giudice ha dato ragione ad Anthropic, perché la cosa ricadrebbe sotto il fair use. Beh, non è proprio così.

Come spiega David Gerard, il giudice William Alsup ha sentenziato che usare dei testi per addestrare un algoritmo di per sé rientra nel fair use: a parte per la quantità di dati ingurgitati da questi sistemi, si può parlare di trasformazione del testo esattamente come io o voi possiamo leggerci dei libri e trarne spunto per scrivere qualcosa di nostro. Citando direttamente la sentenza,

The purpose and character of using copyrighted works to train LLMs to generate new text was quintessentially transformative … If this training process reasonably required making copies within the LLM or otherwise, those copies were engaged in a transformative use.

e questa è sicuramente una vittoria per chi crea LLM. Il tutto ha sicuramente senso se ci pensate, è più o meno quello che sto facendo io ora con l’articolo di Gerard. Fin qui tutti d’accordo. Ma…

Il punto su cui Alsup ha rimandato la decisione a un altro processo è la provenienza di questi testi. Anthropic ha comprato una grande quantità di libri, e per questi libri il suo lavoro è stato considerato lecito. Ma ha anche scaricato sette milioni di libri piratati, e qui casca l’asino. Sempre citando dalla sentenza,

Authors argue Anthropic should have paid for these pirated library copies. This order agrees… The downloaded pirated copies used to build a central library were not justified by a fair use. Every factor points against fair use … A separate justification was required for each use. None is even offered here except for Anthropic’s pocketbook and convenience.

Rileggiamo queste frasi. Il giudice dà ragione agli autori che hanno detto “non solo questi qua usano i nostri testi, ma noi non ci prendiamo il becco di un quattrino!”; ovviamente Anthropic non ha potuto dare risposte convincenti, a meno che non riteniate convincente “eh, ma ci volevano troppi soldi, per non parlare del fatto che i libri piratati sono già belli pronti…”

Come sempre, insomma, è una banale questione di soldi: e come sappiamo bene chi più ne ha meno ne vuole spendere, e resta un oculato risparmiatore come Paperon de’ Paperoni. Aggiungo solo che tutto questo non varrebbe affatto per un eventuale LLM made in Italy: il fair use non esiste da noi, e presumo che la 633/41 bloccherebbe anche l’uso di testi regolarmente acquistati per l’addestramento dei modelli…

Il problema di Langford (II)

La scorsa settimana avevo presentato il problema di Langford: mettere in fila $2n$ coppie di numeri da $1$ a $n$ in modo che tra i due numeri $i$ ci siano esattamente $i$ altri numeri. Per $n=3$ e $n=4$ le soluzioni (essenzialmente uniche) sono rispettivamente 3-1-2-1-3-2 e 4-1-3-1-2-4-3-2. Ho anche detto che una soluzione era possibile solo se il numero di coppie era della forma $4k$ oppure $4k+3$, come è stato dimostrato da Roy O. Davies. La dimostrazione è molto semplice: eccola qua.

Numeriamo da $1$ a $2n$ i numeri dell’elenco, e per ciascun numero $k \in {1, … n}$ consideriamo le due posizioni $P_k < Q_k$ dei due numeri nell'elenco. Nel caso $n=3$ abbiamo per esempio $P_1 = 2, Q_1 = 4, P_2 = 3, Q_2 = 6, P_3 = 1, Q_3 = 5.$ Chiaramente abbiamo $Q_k = P_k + k + 1$ per definizione di coppia $k$. La somma di tutti questi valori è $\sum_{k=1}^{n} (2P_k + k + 1) = 2\sum_{k=1}^{n} P_k + n + n(n+1)\!/\!2$, ma visto che sono i valori da $i$ a $2n$ sappiamo che la somma è anche $n(2n+1).$ Poiché la somma dei $P_k$ è evidentemente un numero intero, ci accorgiamo subito che se $n = 4q + 1$ oppure $n = 4q +2$ abbiamo che gli altri termini danno una somma frazionaria e quindi non ci sono soluzioni. □ Questo è un risultato negativo, nel senso che ci dice quando non si può risolvere il problema ma non quando lo si può fare. Però le soluzioni negli altri casi sono tantissime, a parte quella unica nei casi visti sopra. Davies pensava che per $n=7$ ci fossero 25 soluzioni, e Martin Gardner nel 1967 riportò quel valore: in realtà ce ne sono 26. John Miller, come scrive nel suo sito, programmò un computer nel 1968 e trovò le 26 soluzioni per $n=7$ e le 150 per $n=8$. (Due persone riuscirono a trovare tutte le soluzioni nel primo caso a mano…). E.J. Groth ottenne anche il numero di soluzioni per $n=11$ (17792) e $n=12$ (108144). Altri valori si possono trovare come sempre su OEIS: quelli per 15 e 16 sono stati computati negli anni ’80; il 19 nel 1999, il 20 nel 2002, il 23 nel 2004, il 24 nel 2005, il 27 e il 28 nel 2015… e poi non si sa più. Del resto, le soluzioni per $n=28$ sono 1607383260609382393152, diciamo parecchie!

Si può anche decidere di accettare solo le soluzioni “planari” al problema, nel senso che i numeri uguali si possono connettere tra loro e ottenere un grafo planare. La soluzione generale per $n=3$ è planare, quella per $n=4$ e quelle per $n=7$ non lo sono, ci sono quattro soluzioni planari per $n=8$ e così via. Come al solito, OEIS ha la successione. C’è poi la “variante Tanton”, da James Tanton: in questo caso ci sono $n$ studenti seduti in circolo, e si chiede che si può dare un numero da 1 a $n$ agli studenti in modo tale che se lo studente $k$ si sposta di $k$ posti in senso orario (quindi quello $n$ non si sposta…) alla fine non ci sia nessuno seduto sulle ginocchia di un altro. In questo caso si può dimostrare con semplici sistemi di parità che il numero di studenti deve essere dispari: stranamente la successione dei possibili valori (0, 0, 1, 0, 3, 0, 19, 0, 225, 0, 3441, 0, 79259, 0, 2424195…) non si trova su OEIS!