standard | i miei post su Voices

Tutti parlano degli ebook, molti ne hanno persino letto qualcuno; non sono in tanti però a rendersi conto che la differenza di formato all’interno della galassia ebook è molto maggiore di quella tra i libri cartacei, dove possiamo avere il tascabile e il grande libro d’arte, la brossura e il rilegato, e poco più. Eccovi una guida per non perdervi tra i vari formati, e che magari vi potrà anche aiutare a scegliere quale dispositivo può fare più al caso vostro.
Il primo formato possibile per un ebook è… il txt. Il caro vecchio file testuale, insomma, che fa tanto effetto macchina da scrivere e fa gridare al miracolo se appaiono delle lettere realmente accentate e non cose cosi`. Per essere precisi, è vero che nel formato txt i caratteri sono monospaziati e che è improbabile trovare anche solo effetti banali come grassetto e corsivo; ma un dispositivo moderno dovrebbe comunque essere in grado di mostrare lettere dell’alfabeto greco o cirillico, per esempio; quindi la situazione non è così critica come potrebbe sembrare di primo acchito. Inoltre, se il testo è formattato in maniera corretta, l’andare a capo non è prefissato ma viene deciso a seconda della dimensione del font e della riga logica. In gergo si dice che il testo è liquido; la cosa è estremamente importante, soprattutto se il vostro dispositivo è piccolo (6 pollici, se non addirittura 5) e voi iniziate ad avere una certa età e quindi preferite ingrandire i caratteri al costo di dover cambiare “pagina” più spesso. In pratica, però, è difficile trovare ebook in formato txt; più facile che ci capiti di dovere aprire una nota scritta velocemente e quindi non formattata, anche se temo che la maggior parte della gente la prepari comunque in Word.
Una variante, almeno dal punto di vista logico, del formato testo è l’html. Tra la fine degli anni ’90 e l’inizio degli anni 2000 sembrava che tutti – o almeno quei pochi che erano allora in rete – scrivessero paginate e paginate in html. In fin dei conti anche html è un formato liquido; a differenza del txt permette anche una formattazione della pagina e tutti i browser lo visualizzano, quindi sembrerebbe un’ottima scelta, no? No. Il suo punto debole è proprio legato al suo successo nello scorso millennio: il linguaggio è stato tirato per la giacchetta per fargli fare cose per cui non era adatto, e chi scrisse il codice dei browser più noti fu costretto ad aggiungere mille eccezioni per visualizzare pagine malscritte. Aggiungiamo poi la banale osservazione che il testo è facilmente modificabile ed è impossibile proteggerlo, e capiamo subito che non avrebbe mai potuto diventare uno standard commerciale per un prodotto da distribuire come un ebook. Mettiamola così: i lettori di ebook permettono di aprire pagine html come legacy, ma non c’è più nessuno che scrive in html testi che non siano la semplice paginetta. Men che meno potete comprare libri in html, almeno per quel che so io.
Passiamo ora al primo formato effettivamente usato negli ebook che si possono acquistare, oltre che in quelli autoprodotti: il pdf. Anche qua stiamo parlando di una tecnologia non certo recentissima: la prima versione del formato fu definita da Adobe nel 1993. Oggi le specifiche del pdf non sono più proprietarie ma sono divenute uno standard ISO, il 32000:1. Non che questo significhi moltissimo – si sa che gli standard sono tutto meno che standardizzati –- ma perlomeno permette di avere un minimo di concorrenza nello scegliere il programma che li crea e li visualizza, che non deve essere più necessariamente Acrobat.
C’è una differenza concettuale stratosferica tra il pdf e i formati citati in precedenza: il pdf infatti non è un formato liquido ma a descrizione di pagina. Detto in altro modo, ogni elemento che forma la pagina – una lettera, la riga di una figura vettoriale o il pixel di un’immagine – è associato a una posizione specifica all’interno della pagina: se si ingrandisce o rimpicciolisce la pagina si allontanerà o avvicinerà ai suoi estremi. ma sempre nella stessa posizione relativa.
Questa sua proprietà lo rende quasi insostituibile nel preparare e-book scientifici, di quelli pieni di formule: bisogna ammettere che i formati fluidi non lo sono mai abbastanza quando apici, pedici e simboli vari sono sparsi a piene mani per la pagina. D’altra parte un conto è leggere un e-book in pdf su un pc, o anche solo su un iPad che comunque ha uno schermo da dieci pollici di diagonale; ma leggerlo su uno schermo di sei pollici o anche meno, per quanto alta sia la risoluzione del display, è un’impresa lasciata solo a chi ha dai dodici decimi di vista in su. E mentre si può ingrandire un formato fluido e avere sempre una pagina virtuale intera, ingrandendo un pdf si è costretti a spostarlo a destra e sinistra per leggere una riga… non certo la migliore “reading experience”!
Sono però ragionevolmente certo che chiunque abbia acquistato un Kindle non abbia affatto idea di tutti questi formati, e si limiti al “formato Kindle”; l’azw. La storia di questo formato è anch’essa piuttosto lunga – non ve l’avevo detto che gli ebook saranno l’ultimo grido della moda ma hanno un notevole passato alle loro spalle? – e inizia nel 2000, quando in Francia nasce un’azienda, Mobipocket, che produce un software per la lettura degli ebook sui dispositivi di allora seguendo uno standard da lei denominato PRC. Mobipocket venne comprata nel 2005 da Amazon; il formato PRC venne leggermente modificato sintatticamente e gli venne aggiunta la possibilità di inserire la protezione elettronica dei contenuti, il famigerato DRM (Digital Rights Management, gestione dei diritti digitali). I Kindle, bontà loro, permettono però anche di leggere i documenti senza il lucchetto DRM, che generalmente hanno estensione non .prc ma .mobi.
Naturalmente, essendo nato per la visione su lettori di piccole dimensioni, mobi e azw sono formati liquidi; e un po’ come capita per i prodotti Apple, l’avere un controllo abbastanza ferreo sull’hardware fa sì che il formato di output sia piacevole.
Tutti i possessori di lettori ebook diversi dal Kindle, però, non leggono il formato azw, e prediligono la cosa più vicina a uno standard che abbiamo al momento: il formato ePub. Questo formato è stato definito dall’IDPF, International Digital Publishing Forum, ed è basato su XML; questo significa che, a differenza dell’HTML, c’è la sicurezza di avere un testo sintatticamente corretto e quindi i lettori epub possono concentrarsi sulla resa visiva, semplificandosi la vita. Anche in questo caso il formato non è nuovissimo: la versione 2 che si usa adesso è stata rilasciata nel 2007 (e la 2.0.1 attuale nel 2010) ma il tutto è figlio di un altro formato ancora, Open eBook Publication Structure (OEB), sviluppato già nel 1999.
Epub è in realtà la somma di tre standard: Open Publication Structure (OPS), per gli elementi di markup; Open Packaging Format (OPF), per la struttura esterna del documento; Open Container Format (OCF), che è più generale e permette di mantenere all’interno dello stesso documento più versioni alternative. La gestione dei DRM è inserita nello standard ma facoltativa: questo significa che un file .epub può essere o no liberamente utilizzabile. È in fase di completamento la versione 3.0 della specifica, che sarà bellissima e favolosa… sempre che anche i produttori di hardware decidano di implementarla nei loro dispositivi, cosa che non è affatto detta. In effetti il formato epub soffre a causa del suo successo: non è affatto detto che i dispositivi sul mercato, o se per questo gli emulatori per PC, applichino tutte le caratteristiche dello standard. In pratica un file che si legge molto bene su un dispositivo può avere una formattazione pessima su un altro, nonostante il testo sia comunque liquido; nelle prove che ho fatto io ho scoperto che il file CSS, che è quello che regola l’associazione tra markup sintattico e visualizzazione semantica ed è nascosto all’interno di un documento epub, viene letto in maniera molto creativa. Finché si tratta di un romanzo le differenze sono poco visibili, ma un testo appena un po’ più arzigogolato può far un brutto effetto all’ignaro lettore.
Termino la carrellata con un formato probabilmente sconosciuto ai più ma molto interessante, soprattutto per i documenti con molte immagini, è il DjVu (si pronuncia alla francese, déjà vu). Questo formato nacque agli AT&T Labs nel 1996; nel 1999 ci fu la prima versione dello standard ancora supportata (la 21) e nel 2006 l’ultima rilasciata (la 27). Il bello di DjVu è che il formato è stato appositamente studiato non solo per inviare documenti grafici ma anche pensando alla fruizione in rete. Le immagini sono infatti divise in varie parti (testo e sfondo, per esempio), ciascuna delle quali codificata nella maniera ottimale (il testo può essere trattato via OCR per ridurne il peso) e in maniera progressiva, in modo che si possa iniziare a vedere qualcosa prima che tutta la pagina sia caricata. Inoltre il formato prevede vari layer, e quindi è possibile avere logicamente insieme le scansioni di un libro e il suo testo, che potrebbe essere letto da un software apposito.
Purtroppo i file djvu non sono letti da molti dispositivi, anche se per i terminali Android c’è un software apposito: inoltre, come per il pdf, il formato non è liquido ma legato alla pagina, e quindi leggerli risulta scomodo per un terminale piccolo. A mio parere vale però la pena di tenerlo presente, nonostante tutto.
Oh, intendiamoci: di formati ce ne sono ancora tanti altri, come il lettore curioso può andare a verificare su Wikipedia in lingua inglese. Ma la vita è troppo breve, e che senso ha studiare ogni singola minuzia se tanto non la si troverà mai all’atto pratico?

Quando ho parlato di calcolatori e alfabeti ho barato. Più precisamente, ho omesso di parlare dei vari insiemi di caratteri che assomigliavano vagamente all’ASCII, nel senso che lettere e numeri stavano al loro posto ma altri caratteri no. Chi è vecchio come me forse ricorda ancora l’Apple ][, con i suoi caratteri in negativo (ma solo maiuscoli! O erano quelli lampeggianti? Chi se lo ricorda più…) Chi ha giusto qualche anno in meno invece dovrebbe riuscire a ricordarsi il font semigrafico dei primi PC IBM: la cosiddetta “code page 437“, che per mezzo di magheggi vari permetteva anche di usare le posizioni riservate ai caratteri di controllo per fare le cornicette. E comunque Windows aveva la sua propria codifica a otto bit, Windows-1252 (no, non ne avevano provate altre 1251! Semplicemente, i vari Windows 125x corrispondono logicamente agli ISO-8859-y, e permettono di scrivere in alfabeti diversi da quelli latini standard). Anche Apple andava avanti per conto proprio, e fino a OS X aveva il suo charset, Mac OS Roman. Ma anche ora che siamo più o meno tutti d’accordo a usare Unicode in una versione o nell’altra non è che le cose funzionino così bene…
[una schermata tipica di un gioco Apple - da http://www.fadden.com/techmisc/cassette-protect.htm] [Il font dei primi PC IBM - da Wikipedia, File:Codepage-437.png]
Continue reading Calcolatori e codifiche →

i miei post su Voices

Category Archives: standard

I formati per gli ebook

Calcolatori e alfabeti

Calcolatori e codifiche

Un altro blog di .mau.