Archivi annuali: 2023

I Beatles (libro)

Freak Antoni non si smentiva mai: questo suo libro (forse il primo che ha scritto, e se non sbaglio il seguito della sua tesi di laurea al DAMS) “è dedicato a Pete Best”. Non parla in realtà più di tanto dei Beatles, ci sono molti centoni di traduzioni di loro brani, ci sono discorsi che partono strambi e continuano peggio, e così via. L’intervista a Gianni Celati – che potete leggere a https://www.doppiozero.com/celati-heidegger-e-i-beatles e che è in appendice al libro – è un esempio paradigmatico: se siete interessati al demenziale è perfetta, se volevate cercare qualcosa sui Beatles avete sbagliato testo.

(Roberto Antoni, I Beatles, Targa Italiana Edizioni 1989, pag. 191, ISBN 9788871110110)
Voto: 3/5

Ultimo aggiornamento: 2023-12-12 22:25

che bricoleur!

A Chiavari la casa dove stiamo è del 1969 e l’impianto elettrico pure, tanto che stiamo pensando di rifarlo. Ieri mattina Anna mi dice “è saltata la corrente”. Accendo la luce e dico “no, c’è”. Dopo un po’ di controlli abbiamo scoperto che mancava in bagno – se n’era accorta perché la lavatrice si era bloccata – e in camera. Che fare? Io, da buon teorico, dico “probabilmente si è staccato un filo da qualche parte, proviamo ad aprire le scatole e vedere cosa è successo”. Naturalmente poi dopo la teorica ci vuole la pratica: cerco i pochi attrezzi che abbiamo (nessun cercafase per esempio, ma tanto io prima stacco l’automatico e poi lavoro), svito una scatola, soffio via la polvere, guardo: mi pare tutto a posto. Rimetto a posto la scatola, riattacco la corrente per vedere di non aver peggiorato la situazione, ristacco la corrente, provo la seconda scatola. Qui polvere non ce n’era, ma i cavi erano di nuovo tutti a posto. Rimetto a posto la scatola, riattacco la corrente, dico ad Anna “io più di così non so che fare” e lei “ma la lavatrice è ripartita!”
Ovviamente non ho nessuna idea di cosa ho fatto, e non so quanto la mia “riparazione” durerà. Diciamo che rifare l’impianto diventa un’urgenza…

Quizzino della domenica: Insiemi sum-free

Un insieme S si dice “sum-free” se presi due qualsiasi suoi elementi a e b la somma a+b non appartiene a S. Un esempio di insieme sum-free è dato dalle potenze di tre {1, 3, 9, 27, 81, …}: le potenze di due non funzionano perché possiamo sommare due volte un numero e ottenere quello successivo, come in 2+2=4. Se consideriamo i numeri da 1 a 4, possiamo suddividerli in due insiemi sum-free in un solo modo: {1,4} e {2,3} Riuscite a suddividere i numeri da 1 a 13 in tre insiemi sum-free, sapendo che c’è una sola soluzione possibile se si eccettua il fatto che il 7 può essere inserito in uno qualunque dei tre insiemi (e quindi si hanno tre soluzioni distinte) e che {1,4} e {2,3} restano insieme?


(trovate un aiutino sul mio sito, alla pagina https://xmau.com/quizzini/p658.html; la risposta verrà postata lì il prossimo mercoledì. Problema da Joe Roberts, Lure of the integers, pag. 195)

IA istruzioni per l’uso (libro)

Uno prende un libro come questo per avere uno sguardo necessariamente ad alto livello su cosa sta succedendo nel mondo dell’intelligenza artificiale. Solo che dalla lettura non si recupera molto. La prima sezione, con la storia dell’IA, è schematica ma corretta, anche se non direi che le IA “imparino con l’esperienza” (pag. 11). Più che altro si adattano meglio, ma per fare questo non serve una IA, c’era il famoso computer per giocare a tris di Martin Gardner. Proseguendo, la seconda sezione sulle frontiere dell’IA e le nuove tecnologie è però un continuo snocciolare di “l’IA potrà fare questo” (anche su temi per cui si dice la stessa cosa da decenni) e una sfilza di citazioni di articoli di cui non si può sapere nulla d’altro. Le uniche sottosezioni che mi sono piaciute sono la 12 e la 13, sull’IA per studiare il cervello e per creare gemelli digitali: non penso sia casuale il fatto che siano i campi dove Caligiore lavora e che quindi conosce meglio. La terza sezione sui rischi per noi dell’IA non presenta novità ma è comunque ben fatta, mentre l’ultima sezione è di nuovo fatta di belle intenzioni senza nessuna informazione davvero interessante. (Scusate, ma le soft skill sono ormai inflazionate, e “Conoscere il mondo usando tutto il corpo”, anziché occhi e dita, fa tanto new age). Insomma, il libro non mi è piaciuto.

(Daniele Caligiore, IA istruzioni per l’uso, Il Mulino 2022, pag. 160, € 14, ISBN 9788815295422)
Voto: 2/5

Palo riparato

Ricordate il palo per terra? Ero riuscito a trovare dove segnalare la cosa. Avevo scritto il 30 giugno e il 4 luglio mi era stato risposto

Egregio Signor Codogno,
la Sua segnalazione è stata messa a disposizione dell’ area tecnica competente, che attiverà la procedura necessaria alla risoluzione del problema intervenendo quanto prima possibile per rimuovere l’inconveniente segnalato, a seconda del grado di urgenza riscontrato rispetto ad altre situazioni critiche presenti sul territorio.

Tra il 20 luglio e il primo agosto, mentre ero in montagna da mia mamma, il palo è stato messo a posto :-)

gli spam della settimana

In questi giorni non ho troppo da fare e quindi per perdere tempo do anche un’occhiata allo spam, prima di cancellarlo. Su tiscali ho trovato un messaggio dal titolo “La tua opinione conta – Indagine sull’attualità” e mittente “contact@styx-research.com via SurveyMonkey” (e già usare SurveyMonkey la dice lunga) con testo

Buongiorno,
Come promemoria, di recente ti abbiamo inviato un invito a partecipare al nostro sondaggio sui temi più importanti.
Ci piacerebbe molto conoscere la tua opinione e la tua partecipazione è molto importante per noi.
Questo sondaggio richiederà solo pochi minuti e le tue risposte saranno mantenute riservate.
Vi ringraziamo in anticipo per il vostro tempo e la vostra partecipazione.
Migliori saluti

e footer “Ce lien vers un sondage vous est propre. Veuillez ne pas transférer cet email. // Confidentialité | Se désabonner”

Non ho ovviamente nessuna idea di quale possa essere il “sondaggio politico”, e ho il sospetto che se anche lo fosse sarebbe illegale per la legge italiana.

Più interessante un messaggio su Tin.it (sì, esiste ancora) dove il testo che si vede normalmente parrebbe essere un’immagine con una delle solite offerte che non possiamo rifiutare (con testo in portoghese brasiliano), ma guardando il sorgente si vede che la parte HTML contiene un rant australiano novaxx. Chissà come è stato costruito il messaggio.

Wikipedia e i conformismi

Siamo in estate, non che molto da dire, e così Carlo Lottieri spiega sul Giornale (nella sezione”spettacoli”, chissà come mai) “Così Wikipedia è diventata il baluardo del conformismo“. Bisogna ammettere che Lottieri di conformismo ne sa a pacchi: il suo articolo precedente di domenica si intitola infatti “Così l’università è diventata il regno del conformismo”. Quando hai un bel titolo, perché non sfruttarlo? Io avrei altro da fare, ma sono in spiaggia, fa caldo e per rilassarmi un po’ mi sono messo a commentarlo punto per punto.

Cominciamo da quando Lottieri racconta che

Wikipedia nacque da un’intuizione libertaria. Secondo lo stesso Jimmy Wales, che aveva seguito un corso di teoria economica alla Auburn University, fu la lettura dell’economista Friedrich A. von Hayek a suggerire l’ipotesi di questa enciclopedia on line di cui tutti possono essere i redattori.

Beh, non è proprio così. Inutile dire che l’articolo non contiene nessuna fonte per le affermazioni di Lottieri: mica sta scrivendo Wikipedia. La fonte ve l’ho trovata io e dice questo: “to share and synchronize local and personal knowledge, allowing society’s members to achieve diverse, complicated ends through a principle of spontaneous self-organization.” e ancora “When information is dispersed (as it always is), decisions are best left to those with the most local knowledge.” Tenete a mente soprattutto questa seconda frase. (poi io sono convinto che quella di Jimbo sia una razionalizzazione a posteriori: ricordate che Wikipedia nasce come testo di lavoro per scrivere Nupedia che era tutto meno che autoorganizzata).

Nella più classica costruzione di una polemica, Lottieri continua scrivendo

Sul piano delle informazioni si può essere ragionevolmente fiduciosi che Wikipedia sia credibile, anche grazie al costante monitoraggio riservato a ogni lemma.

(Occhei, i lemmi sono in un dizionario e non in un’enciclopedia, ma evidentemente il liberismo non fa di queste distinzioni) Non che questo sia vero, come sanno tutti quelli che passano tanto tempo su Wikipedia, ma tant’è. Ma poi continua

È però evidente che tra gli autori (tra coloro che spontaneamente e senza remunerazione redigono i testi) è più facile trovare professori di scuola media invece che artigiani, bibliotecari invece che imprenditori, e via dicendo. I primi hanno più tempo a disposizione e spesso si ritengono adeguatamente competenti per trattare questioni di diritto, metafisica, sociologia, letteratura spagnola e via dicendo.

E qui si cominciano a vedere le sue fallacie. Per chi “è evidente”? Perché “è evidente?” Dando per buono che imprenditori e artigiani abbiano meno tempo a disposizione perché loro devono tenere in piedi l’economia – ma vi assicuro che gli imprenditori ci sono eccome, solo che l’unica conoscenza locale che paiono avere è quella del loro CV, e per le regole di Wikipedia in lingua italiana i CV vengono cancellati senza se e senza ma – cosa gli fa dire che loro si ritengono competenti per tutto? Il tutto senza contare che Wikipedia da buona enciclopedia raccoglie e organizza informazioni altrui, e le competenze per organizzare l’informazione sono molto più semplici da ottenere rispetto a quelle per crearla. Continuiamo:

Ne discende che nelle voci dell’enciclopedia on line troviamo uno spirito da servizio pubblico che si converte in un costante tono censorio verso ogni eresia.

Lo spirito da servizio pubblico c’è, tranne per i tanti che ritengono di essere gli unici depositari della verità. Perché si convertirebbe in un tono censorio contro ogni eresia? Non ci è dato di sapere. Forse è perché

Va aggiunto, inoltre, che esiste un comune sentire che unisce la maggior parte di quanti hanno letto, nel corso della loro vita, un certo numero di libri.

Me l’avevano sempre detto, che leggere troppi libri fa male. La conoscenza locale si ottiene lavorando, mica leggendo! Non può poi mancare il solito attacco frontale:

[…] Si tratta dei cosiddetti «amministratori», a cui spetta anche di decidere in un senso o nell’altro quando le divergenze si fanno ingestibili. Basta leggere qualche discussione per comprendere che si tratti per lo più di quella piccola porzione della popolazione che, in Italia, quando al mattino va all’edicola compra La Repubblica oppure il Corriere della Sera.

Per quanto mi riguarda, ho smesso da un pezzo di leggere giornali italiani se non per qualche articolo come questo che mi viene segnalato; ho sentito qualche altro sysop e sono tutti sulla mia linea, anche perché quando uno ha lavorato un po’ su Wikipedia comincia a non fidarsi troppo di qualunque notizia.

Il risultato è una mancanza di senso critico che rende Wikipedia assai sbilanciata a favore di talune posizioni.

Altra affermazione apodittica. Anche ammettendo il percorso logico “essendo gente che legge solo Repubblica e Corriere le loro posizioni sono spiaggiate sul mainstream”, faccio notare come gli amministratori (il soggetto della frase) non scrivono loro le voci su Wikipedia. Possono al più cancellare una voce, ma non piegarla eliminando “il senso critico “. Lo fanno in maniera coercizione bloccando chi non la pensa come loro? Se fosse vero basterebbe fare esempi espliciti. Ricordo che la storia di una voce è pubblica, e si può vedere se c’è una campagna sistematica.

L’unico punto su cui devo dare ragione sul metodo a Lottieri è quello che scommetto gli sta davvero a cuore (oppure su cui gli è stato chiesto di scrivere): quando cioè si lamenta che nella voce sul riscaldamento globale

In effetti, le tesi di quanti sono scettici al riguardo (premi Nobel inclusi) non sono citate: neppure per essere contestate.

Almeno a ora, la sezione relativa non riporta nulla al riguardo, e la cosa è contro le linee guida che richiedono che opinioni in minoranza siano riportate con il rilievo corretto (minimo in questo caso, perché la minoranza è minima, ma non nullo). Al solito, Lottieri si è però dimenticato di fare nomi e ho dovuto mettermici io. A parte la vecchia storia di Rubbia, immagino si riferisca a John Clauser. (Apprezzerete che io abbia scelto un link a suo favore, spero). Non so se notate un fil rouge: Rubbia è un fisico teorico delle particelle, Clauser un fisico quantistico. Sicuramente grandi scienziati, ma la loro “conoscenza locale” della climatologia sarà probabilmente superiore alla mia ma ben lontana dall’essere a tutto campo. E allora che diavolo c’entra Hayek? Chiaramente nulla, almeno per quanto riguarda l’organizzazione di Wikipedia. Spero che a quella voce si aggiunga un capoverso sulle attuali teorie non mainstream, che tra l’altro mi pare siano cambiate nel tempo (prima si negava il contributo antropico, ora si dice che non è rilevante e comunque le variazioni che vediamo sono normali se non ci si limita a considerare gli ultimi 150 anni), ma anche se ci sarà non credo Lottieri sarà contento.

Termino pensando male e facendo peccato. Ora il Giornale è della famiglia Angelucci che ha sicuramente il dente avvelenato contro Wikipedia. Aspettatevi tanti altri articoli così.

Aggiornamento: mi è stato fatto notare che esiste la voce Controversia sul riscaldamento globale. Se però non c’è un collegamento diretto dalla sezione della voce principale,come fa il povero utente (io o Lottieri) a trovarla?

Ultimo aggiornamento: 2023-08-24 08:27

AI generative e violazione di copyright

Non so se la notizia sia passata tra gli italici media: alcuni scrittori statunitensi hanno citato a giudizio Meta perché per addestrare il suo sistema LLaMA (simile a ChatGPT-4) avrebbe usato i testi dei loro libri protetti da copyright. Vero, falso o irrilevante? La questione non è affatto semplice.

Premessa: i sistemi di chat di tipo LLM si chiamano così perché usano Large Language Models: modelli di una lingua di dimensioni ampie. È più o meno quello che fanno i traduttori automatici: questi sistemi cercano correlazioni tra parole – nel caso delle traduzioni tra termini in inglese e termini in un’altra lingua, negli LLM sul flusso delle parole nelle frasi dei corpora – e le sfruttano per dare una risposta al testo che gli si dà in ingresso. Diciamo che nel caso degli LLM io avrei detto “enormi” e non “grandi”, ma non sottilizziamo. La domanda a questo punto diventa “ma dove sono presi questi testi”? Checché si parli sempre più o meno a vanvera di Big Data, il materiale di addestramento deve essere di buona qualità, quindi non si può prendere roba a caso.

In questo articolo Alex Reisner ha analizzato un dataset usato per LLaMA, e scoperto che in effetti esso contiene una grande quantità di libri piratati. Mentre il sottoinsieme “books1” contiene materiale da Project Gutenberg che è nel pubblico dominio – ma è per definizione materiale vecchio, e quindi non segue necessariamente le regole semantiche attuali – e il sottoinsieme “books2” non è facilmente interpretabile ma potrebbe essere legato ai contenuti di ZLibrary, “books3” comprende i testi di 170000 volumi con ISBN, presumibilmente tutti sotto copyright, compresi quelli degli autori che hanno fatto causa a Meta.

A questo punto però la domanda da porsi cambia: assodato che quella raccolta di testi è una violazione di copyright, usarla come insieme di addestramento per un LLM è anche una violazione di copyright? Qui la risposta è più complicata. Negli USA vige la dottrina del fair use: si può usare del materiale sotto copyright se (a) non lo si usa direttamente ma lo si processa e (b) quest’uso non dà problemi allo sfruttamento commerciale dell’opera originaria. Entrambi i casi sono rispettati: per definizione l’output di un LLM dovrebbe essere “nuovo” (non dico “creativo”, mi spiace), e addirittura l’esistenza stessa della base dati non tocca lo sfruttamento commerciale delle opere al suo interno, perché esse sono state trattate per il consumo automatico, quindi per esempio togliendo tutta la formattazione e lasciando il puro testo, oltre che rendendo particolarmente difficile recuperare il singolo testo al loro interno: ricordo che stiamo parlando di un singolo file di decine di gigabyte senza nessun metadato che permette di trovare quello che si cerca, e probabilmente neppure il nome dell’autore del testo.

E cosa dire della base dati in sé? Negli USA probabilmente il suo uso rimane sotto la dottrina del fair use, anche se Meta per esempio costringe a firmare un accordo; ma in Europa, con la nuova direttiva copyright, è possibile invocare dei diritti sui generis – diversi da quelli d’autore – per la base dati in sé. Secondo Creative Commons, se poi il materiale usato per costruire una certa base dati ha una licenza CC allora anche la base dati stessa ha una licenza dello stesso tipo. Non che io abbia idea di come si possa usare una base dati con una licenza CC-BY-ND: ma per fortuna non è un mio problema.

Da ignorante mi chiedo se sia legale usare materiale sotto copyright, anche se l’output non è nemmeno di per sé un’opera derivata e quindi non dovrebbe avere problemi. Voi che ne pensate?