Come se la passa Internet Archive?

Un anno e mezzo fa scrivevo sulle cause legali che Internet Archive stava affrontando per il suo “libera tutti” rispetto alla propria biblioteca virtuale durante la pandemia 2020. Cosa è successo? Dal punto di vista strettamente finanziario, le cose sono andate bene: c’è stato un accordo extragiudiziario che immagino non sia stato indolore, ma comunque è sopportabile. In compenso, però, moltissimi libri non sono più ottenibili in prestito attraverso IA.

Ma i guai per quanto riguarda il salvataggio delle informazioni su Internet non finiscono qui. Leggo su Hdblog che il NYT e il Guardian hanno fatto in modo che IA non possa più salvare le loro pagine. Motivo? quei dati sarebbero usati dagli scraper per avere materiale di addestramento per gli LLM, e le testate hanno fatto accordi di esclusiva per vendere questi dati. A differenza dei commentatori di quell’articolo – ma dovreste sapere tutti che leggere i commenti serve solo e unicamente per comprendere il pensiero dei leoni da tastiera – io sono convinto che sia davvero così, e non mi sento nemmeno di dare torto agli editori. Quello che però secondo me non si sta cercando di fare è uno spostamento di paradigma. Guardiamo le cose da un altro punto di vista: a me, e a molti altri, non serve recuperare tutti quei dati, ma solamente verificare ogni tanto una fonte, sia essa la citazione di un libro o un brano di un articolo di giornale. Se ci fosse un sistema in cui si può ottenere la pagina di un libro o anche solo lo snippet relativo, e non può essere richiesta un’altra pagina di quel libro se non dopo un’ora, nessuno si metterebbe a piratare libri via Internet Archive. E se si potesse prendere un articolo di un giornale ogni ora, di nuovo gli scraper non riuscirebbero a fare nulla, e sarebbero comunque obbligati a stringere accordi con le testate per usare quei dati. Quello che mi piacerebbe, insomma, è un sistema di throttling: limitando artificialmente la quantità di dati che si possono scaricare nell’unità di tempo si manterrebbe la possibilità di usare l’archivio come un archivio, salvando al contempo i diritti dei produttori. È davvero una cosa così complicata tecnicamente?

Rispondi

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.