Le tante vite dell’archivio storico della Stampa


Tra le tante vittime che la fine di Adobe Flash sta mietendo, c’è anche l’archivio storico della Stampa. Il sito, che conteneva tutti i numeri del quotidiano dal 1867 al 2005, aveva infatti un’interfaccia Flash, e da oggi non è “disponibile a causa di prolungate attività di manutenzione.” Di per sé le pagine erano state distribuite in formato JPEG; ma il problema, come aveva scritto Mario Tedeschini Lalli, era che non si capiva bene chi stia effettivamente gestendo il sito, tra fallimenti vari degli enti preposti.

Ieri sulla Stampa è apparso un articolo più o meno rassicurante: la regione Piemonte si è assunta l’onere di far rifare l’interfaccia al CSI, e in due mesi si dovrebbe tornare ad avere a disposizione l’archivio. Perché dico “più o meno rassicurante”? Semplice: perché c’è scritto che l’archivio «sarà aggiornato con le ultime versioni degli applicativi di lettura e protetto con nuovi sistemi antintrusione» (grassetto mio). Perché servono sistemi antintrusione? Non ne ho la più pallida idea, come non ho idea se il CSI userà software libero o un’interfaccia proprietaria per la visualizzazione, se il materiale sarà conforme agli standard aperti internazionali – il che permetterebbe di rientrare nelle collezioni di Europeana con gli altri significativi progetti europei, pur se Europeana non è molto considerata dal nostro ministro Franceschini. Spero inoltre che l’interfaccia sarà accessibie e l’OCR, quando presente, sarà disponibile ai non vedenti. Insomma tutte le cose che oramai ci si aspetta da un archivo di questa importanza.

Quello che però so è che fortunatamente le scansioni delle singole pagine dei giornali sono state rilasciate secondo una licenza Creative Commons, per la precisione la CC-by-nc-nd-it 2.5 che permette l’uso non commerciale e senza creare opere derivate indicando l’autore originale. Questo significa che per esempio non possono stare su Wikipedia, dove tutto il materiale può anche essere riusato commercialmente; ma che possono essere salvati da qualcun altro. Ecco dunque che gli amici di Internet Archive hanno scaricato l’archivio – è quasi un TB – e stanno lentamente mettendolo a disposizione. Tra l’altro vedo un vantaggio: a questo punto sarà possibile anche migliorare manualmente i risultati dell’OCR, che vi assicuro essere problematico con copie di cento e più anni fa. Un lavoro costosissimo, ma che potrà essere man mano fatto da chi è interessato a qualche articolo specifico. Non è una cosa bellissima?

Aggiornamento: (16 dicembre) È ora presente su Internet Archive anche la collezione relativa.

4 comments

  1. ” a questo punto sarà possibile anche migliorare manualmente i risultati dell’OCR, che vi assicuro essere problematico con copie di cento e più anni fa. Un lavoro costosissimo, ma che potrà essere man mano fatto da chi è interessato a qualche articolo specifico. Non è una cosa bellissima?”

    vedo materiale per molte tesi di laurea, sia “informatiche” (es. OCR ) sia “umanistiche” (, ma non ne escludo altre) ;

    fosse per me “obbligherei” le università a contribuire ai progetti open di cui usufruiscono (… o a registrare brevetti se lo ritengono opportuno e/o remunerativo)

    • Dicevo… mah, non capisco perché uno dovrebbe fuggire come la peste un accesso realizzato dalla tale società in due mesi (Natale compreso). Comunque è un peccato che Internet Archive non riceva una palata di soldi pubblici per i servizi che offre.