Come se la passa Internet Archive?

Un anno e mezzo fa scrivevo sulle cause legali che Internet Archive stava affrontando per il suo “libera tutti” rispetto alla propria biblioteca virtuale durante la pandemia 2020. Cosa è successo? Dal punto di vista strettamente finanziario, le cose sono andate bene: c’è stato un accordo extragiudiziario che immagino non sia stato indolore, ma comunque è sopportabile. In compenso, però, moltissimi libri non sono più ottenibili in prestito attraverso IA.

Ma i guai per quanto riguarda il salvataggio delle informazioni su Internet non finiscono qui. Leggo su Hdblog che il NYT e il Guardian hanno fatto in modo che IA non possa più salvare le loro pagine. Motivo? quei dati sarebbero usati dagli scraper per avere materiale di addestramento per gli LLM, e le testate hanno fatto accordi di esclusiva per vendere questi dati. A differenza dei commentatori di quell’articolo – ma dovreste sapere tutti che leggere i commenti serve solo e unicamente per comprendere il pensiero dei leoni da tastiera – io sono convinto che sia davvero così, e non mi sento nemmeno di dare torto agli editori. Quello che però secondo me non si sta cercando di fare è uno spostamento di paradigma. Guardiamo le cose da un altro punto di vista: a me, e a molti altri, non serve recuperare tutti quei dati, ma solamente verificare ogni tanto una fonte, sia essa la citazione di un libro o un brano di un articolo di giornale. Se ci fosse un sistema in cui si può ottenere la pagina di un libro o anche solo lo snippet relativo, e non può essere richiesta un’altra pagina di quel libro se non dopo un’ora, nessuno si metterebbe a piratare libri via Internet Archive. E se si potesse prendere un articolo di un giornale ogni ora, di nuovo gli scraper non riuscirebbero a fare nulla, e sarebbero comunque obbligati a stringere accordi con le testate per usare quei dati. Quello che mi piacerebbe, insomma, è un sistema di throttling: limitando artificialmente la quantità di dati che si possono scaricare nell’unità di tempo si manterrebbe la possibilità di usare l’archivio come un archivio, salvando al contempo i diritti dei produttori. È davvero una cosa così complicata tecnicamente?

Statistiche del sito per gennaio 2026

Dopo il boom dei mesi passati, mi sa che i crawler per gli LLM si siano stancati, o almeno abbiano preso una pausa, mentre gli utenti reali restano. Date un’occhiata:

Visitatori unici 29.829 (-22763)
Numero di visite 82.992 (-12801)
Pagine accedute 268.718 (-22587)
Hits 466.189 (+19178)
Banda usata 6,65 (+0,74 GB)

Tre giorni sotto le 2000 visite (minimo a capodanno, con 1880); lunedì 12 ho avuto 4373 visite, e la media del mese è stata 2677 (-735). La Top 5:

  1. Call center sanitari invasivi: 2429 visite
  2. Codice bianco all’IKEA: 1382 visite
  3. Ze neca: 1281 visite
  4. Forse Asus ha qualche problema: 728 visite
  5. Epistemia: 716 visite

Dodici altri post sopra le 500 visite, più uno del backup del Post. Romanaccio ne ha avute 1570 e Prova del nove 700.

Query Google: abbiamo 3432 (+856) clic da mobile, 1076 (+143) da desktop e 91 (+37) da tablet. Le prime 10 query, con tra parentesi le impressions:

404 (5383) 0278655540
317 (998) codice bianco ikea
128 (290) insulti romani
79 (369) insulti in romano
78 (3069) a stra ze neca
67 (243) numeri di dedekind
58 (126) insulti romaneschi
40 (171) detti romani volgari
40 (71) notiziole di mau
38 (104) ikea codice bianco

Non capisco questo interesse per i numeri di Dedekind…

Sconti regressivi

Uno dei negozi dove vado a comprare le pappe per i miei gatti ha una promozione mensile, con uno sconto se si compra abbastanza roba. Con tre gatti sempre famelici non è certo un problema raggiungere le soglie per i vari sconti: però non mi è chiaro perché stavolta lo sconto percentuale se spendo di più (9 euro su una spesa di almeno 80) sia minore di quello se spendo di meno (7 euro su una spesa di almeno 60)…

Conway’s Game of Death

una schermata del Game of Death Se state leggendo questo post, probabilmente conoscete il Game of Life di John Horton Conway: uno scacchiere infinito dove le varie celle si accendono e si spengono secondo un insieme di regole predefinite. Chiamarlo “gioco” è forse un’esagerazione, visto che una volta definita la configurazione iniziale il suo svolgimento è univocamente determinato.
Bene: Steven Frank sta studiando il Conway’s Game of Death. Si parte da una configurazione del Game of Life che crescerebbe senza limiti (ce ne sono), e il vostro scopo è ammazzare i quadratini per fermarla. Così ad occhio c’è una caratteristica che definirei “idra”: per come è fatto Life, a volte eliminare una cella aumenta la viralità della configurazione restante, perché permette di avere più “nascite” (celle con esattamente tre vicini) e meno “morti” (celle con quattro o più vicini: muoiono anche le celle con zero o un vicino, ma quella è un’altra storia). Chissà se il gioco verrà completato!

(h/t: Colin Beveridge)

Un racconto sulle dimostrazioni a conoscenza zero

La scorsa settimana vi avevo promesso di dire qualcosa di più sulle dimostrazioni a conoscenza zero. Lo faccio ispirandomi a questo articolo di Jean-Jacques Quisquater e Louis Guillou, dal titolo (nella traduzione inglese fatta con Tom Berson) “How to Explain Zero-Knowledge Protocols to Your Children”. La mia non è ovviamente una traduzione, perché violerei il copyright, ma un racconto simile. Pronti?

Qualche mese fa mi è arrivata una lettera che aveva dell’incredibile. Pare che un mio bisnonno fosse un collaboratore di Houdini, e avesse collaborato con lui alla creazione di un gioco di prestigio che il grande mago non ebbe mai la possibilità di mettere in pratica per la sua morte inaspettata. Le ultime volontà che sussurrò al mio bisnonno furono di mantenere il segreto e confidarlo solo a un suo parente laureato in matematica. Il mio bisnonno cercò invano di convincere i suoi figli e poi i suoi nipoti a darsi alla matematica, senza alcun risultato. Prima di morire lasciò le istruzioni e una certa somma di denaro a uno studio legale, che finalmente cominciò a fare ricerche anche sui rami collaterali arrivando finalmente a trovare me. Ma qual era questo gioco di prestigio?
le stanze segrete
Si tratta di un esperimento di manipolazione del pensiero. Ci sono due stanze, come in figura, che vengono mostrate a chi vuole partecipare al gioco. Le stanze hanno solo una porta di ingresso, e c’è un corridoio a gomito che non permette di vedere quale viene aperta. Il mago entra nel corridoio, e quando il partecipante è pronto entra in una stanza. A questo punto il partecipante arriva e bussa a una porta… e il mago esce invariabilmente dall’altra. Il trucco è ingegnoso: le due stanze sono in realtà comunicanti, perché la parte arancione della parete che le divide è scorrevole. La parte davvero complicata è capire come farla scorrere. Le piastrelle ai lati della parete sono collegate a un insieme di ingranaggi, e c’è una (lunga) combinazione di pressioni sulle varie piastrelle che permette di azionare il meccanismo. La lettera che ho ricevuto conteneva un’altra busta chiusa con la combinazione da usare, che ho imparato a memoria prima di distruggere il foglio.

Come sfruttare questa conoscenza? Ho pensato di registrare una trasmissione televisiva dove dimostro la mia capacità non tanto di leggere nel pensiero ma di sapere attraversare i muri. Una troupe è venuta con me, ha filmato le stanze e poi siamo tutti usciti dalla struttura. A questo punto io sono entrato da solo; una volta dentro il conduttore ha lanciato una moneta e a seconda se fosse uscito testa o croce mi diceva “esci dalla porta di destra” oppure “esci dalla porta di sinistra”, cosa che potevo fare senza problemi. Abbiamo ripetuto la stessa scena quarantadue volte, tra una battuta e l’altra. Una volta, due, tre potevo essere stato fortunato: ma con quarantadue volte era chiaro che potevo davvero attraversare i muri, in un modo o nell’altro!

Tutto bene? Macché. Quelle stanza erano parte della Fondazione Houdini, e quindi chiunque poteva visitarle. Un network concorrente chiese la possibilità di accesso per mezza giornata, e filmò esattamente la stessa mia scena. Naturalmente per circa metà delle volte il mio alter ego non poté uscire dalla porta giusta, ma questo non era affatto un problema: in fase di postproduzione tagliarono tutti i tentativi infruttuosi e il giorno e l’ora stessa in cui il mio programma andò in onda trasmisero la loro versione, per dimostrare che era tutta una finta. Siamo andati in tribunale, e i giudici hanno visionato fotogramma per fotogramma le due registrazioni: non c’era nessuna possibilità di capire quale fosse reale. Addio ai miei sogni di gloria.

Questo racconto evidenzia le tre caratteristiche di base delle dimostrazioni a conoscenza zero. La prima è che, come avevo già detto la settimana scorsa, una dimostrazione a conoscenza zero non dà mai la certezza, ma solo una probabilità che possiamo rendere grande a piacere di essere vera. Questo può spaventare un matematico, abituato alla precisione totale: ma qui lavoriamo fuori dall’iperuranio e possiamo permetterci un po’ di sciatteria. La seconda caratteristica è forse la più sconcertante: la “prova della dimostrazione” non è a sua volta una dimostrazione! Infatti la troupe che ha girato le scene con me è convinta che io possa attraversare il muro tra le due stanze, non importa come, ma la presunta prova (il video con la mia performance) può essere ricreato anche senza conoscere il segreto del passaggio tra le due stanze, proprio come col filmato che avevo proposto la settimana scorsa. Infine la terza caratteristica è legata alla casualità. Quando entro in una stanza, nessuno sa quale sarà l’esito del lancio della moneta! Se non fosse così e una successione di esiti fosse definita a priori, il mio alter ego saprebbe già dove andare, e chiunque giuardasse il video – che stavolta non deve nemmeno essere editato – penserebbe che anche lui conosce il segreto. Insomma, se vogliamo essere convinti della dimostrazione a conoscenza zero dobbiamo per forza introdurre un elemento di casualità.

C’è altro? Sì. ma ne parlerò un’altra volta :-)

CIA World Factbook

A me sembra ovvio che l’improvvisa chiusura del CIA World Factbook non è una questione di soldi. I dati quelli della CIA devono continuare a cercarli, e il sito lo potevano gestire tre stagisti in croce. Molto banalmente, per l’amministrazione Trump i fatti sono solo delle scocciature: e visto che non è così semplice modificare i giornali del passato ha fatto in modo di scegliere la via più semplice, cancellandoli e stop.

Ventilazione IVA

scontrino con "ventilazione iva" Sabato scorso siamo andati da un macellaio a fare la spesa. Stavo buttando lo scontrino, quando ho notato la frase asteriscata *VI = ventilazione iva, e il fatto che l’IVA indicata fosse zero. Sono andato a caccia di informazioni, e Wikipedia mi ha spiegato che la ventilazione IVA è un procedimento facoltativo che può usare chi vende beni con aliquote IVA diverse e vuole semplificarsi la vita. In pratica, si separano gli acquisti destinati alla successiva vendita da quelli come il pagamento delle utenze o i costi del carburante; per questi ultimi il conteggio IVA resta lo stesso, mentre per i primi si paga un’imposta calcolata a partire dalle fatture del mese precedente, suddividendo i ricavi allo stesso modo di come erano le aliquote sugli acquisti. Se quindi a gennaio ho comprato per il 15% beni ad aliquota 4%, per il 50% beni ad aliquota 10% e per il restante 35% beni ad aliquota 22%, calcolerò l’IVA al 4% sul 15% dei miei ricavi, e così via. In questo modo non devo complicare la gestione del mio magazzino, e il risultato finale sarà una buona approssimazione di quello che avrei comunque pagato. Mi sembra un’idea interessante, e mi domando come mai non me ne sono mai accorto prima… La legge relativa è addirittura del 1972.