Wikipedia tradotta con Google Translate?

Mi è capitato di finire su it.que.wiki. Vista da lontano pare un semplice clone di Wikipedia, ma se si comincia a leggere ci si accorge di qualcosa di strano. Il testo pare essere tradotto automaticamente dalla Wikipedia in lingua inglese. Quale sia la logica di tutto questo mi sfugge :-) (sì, la logica del sito in generale è “se qualcuno finisce da noi ci guadagniamo con gli ad”, ma a questo punto fai più in fretta a clonare direttamente la versione linguistica corretta, no?)

Tartinville reloaded

Gino Lucrezi ha trovato un’altra strada per cui Google potrebbe avere avuto un’idea di chi fosse Tartinville. È infatti vero che nessuna Wikipedia parla di lui, ma esisteva comunque un elemento Wikidata. I più attenti e intraprendenti tra i miei ventun lettori sanno che cos’è Wikidata; per gli altri, è un’enorme base dati che è stata ideata alcuni anni fa per conservare tutte le informazioni che non cambiano nelle varie lingue se non per la rappresentazione. Gennaio, janvier, January sono essenzialmente la stessa cosa; se una persona è nata a gennaio, tanto vale avere l’informazione in un solo punto e replicarla nelle varie wiki, il tutto in modo trasparente all’utente. Inoltre, nel miglior spirito wikipedico, questi dati sono a disposizione di tutti i sistemi automatici per costruire nuova informazione a partire da essi.

Il problema però si sposta solo. Il motore di ricerca di Google è sicuramente felicissimo di usare Wikidata, perché non deve nemmeno far fatica a parsificare (per i non informatici: “cavare un ragno dal buco da”) un testo. Ma come vedete dal link che ho postato, che fotografa la situazione a questa mattina prima di quando mi sono messo ad aggiungere dati, di informazioni già predigerite non ce n’erano. C’era solo un link a una fonte esterna che dava più informazioni che però sono appunto da parsificare; e non mi sembra comunque facile. Diciamo che il mistero di infittisce…

C’è un giudice ad Ankara

Oggi la Corte Costituzionale turca ha deliberato che il blocco a Wikipedia che ivi persiste dall’aprile 2017 viola il diritto alla libertà di espressione e quindi deve essere eliminato. Trovate tutta la storia del blocco su Wikipedia :-) oppure, se preferite i miei riassunti, ne parlai qui e qui (per quanto riguarda il secondo post, la Turchia ha chiesto una proroga che scadrà tra qualche settimana per fornire ulteriori informazioni).

Io non posso e non voglio entrare sul tema “le accuse per cui la Turchia finanziava il terrorismo islamico in funzione anti-Assad” siano vere o false; che i turchi siano ora entrati in territorio siriano è invece acclarato. Non so nemmeno se il governo turco accetterà questa delibera. Però posso dire che un governo che non riesce a convincere i suoi cittadini della falsità di una fonte e decide che la scelta più semplice è bloccarla non mi pare molto sicuro di sé.

Titolisti vil razza dannata – reprise

Ieri è stata pubblicata sul Giornale un’inchiesta riguardo a Wikipedia. (Che io sappia, non c’è un link, dovete fidarvi), con interviste al vostro affezionato titolare e a Frieda. Il testo dell’intervista riporta correttamente le nostre affermazioni, ve lo anticipo subito: il titolo no, come già successo altrove. Non mi lamento tanto della frase “L’enciclopedia del mondo è già vecchia”, dove la scelta del termine è ovviamente legata al punto di vista del quotidiano, ma al catenaccio che dice “Calano gli autori – l’aggiornamento dei testi è più lento e meno frequente”. Le statistiche di Wikipedia sono pubbliche. Nella figura vedete quella relativa agli editor attivi, mentre per le pagine modificate potete andare qui. È indubbio che dal 2013 al 2014 c’è stato un calo di contributori; ma da lì in poi il loro numero è rimasto costante, con fluttuazioni legate al mese dell’anno. Possiamo dire che il numero è “stagnante” come nel testo (di nuovo: la scelta dei termini non è mai neutra, ma non ho il diritto di sindacare) ma non certo in calo. Lo stesso per le modifiche: un matematico rompipalle come me può affermare che avere un numero stabile di modifiche e un numero crescente di pagine significa che si fanno meno modifiche per singola voce, ma lì si entra in un terreno più complicato, perché ci sono voci che naturalmente richiedono sempre meno modifiche man mano che si assestano. Quello che continuo a chiedermi è che cosa ci guadagnano i titolisti a scrivere qualcosa che poi viene smentito nel corpo dell’articolo…

Ah, il catenaccio termina con “L’utopia del sapere cooperativo è entrata in crisi” che è tecnicamente corretto ma un po’ fuori contesto; ha più senso unito alla mia frase “siamo una riserva indiana”. In pratica, la Rete di trent’anni fa non esiste più, e si viaggia verso l’individualismo e la ricerca affannosa di like personali; da qui la crisi del sapere cooperativo, che però è da misurarsi rispetto al totale degli utenti e non nei numeri assoluti che per l’appunto restano costanti. Riconosco però che questo concetto non si può certo riassumere in poche parole, quindi non mi preoccupo più di tanto!

Titolisti, vil razza dannata

Una decina di giorni fa si è scoperto che una voce di Wikipedia creata nel 2004 era falsa, o più precisamente partiva da una base reale (un campo di concentramento a Varsavia nella seconda guerra mondiale) ma aveva “trasformato” il campo in uno di sterminio. Quel falso storico era presente in varie edizioni linguistiche: l’articolo più visitato era come capita spesso quello sulla Wikipedia in lingua inglese, ma c’era anche una versione in lingua italiana. Fin qua nulla di davvero nuovo, purtroppo: Wikipedia è uno dei terreni preferiti dai revisionisti, in questo caso polacchi.

Martedì scorso il Corriere ha pubblicato un seguito dell’articolo, dove parlo anch’io con il cappellino di Wikimedia Italia. La settimana scorsa ero stato al telefono quaranta minuti abbondanti: diciamo che se avessi potuto rivedere il mio virgolettato avrei suggerito qualche modifica, ma nel complesso direi che il mio pensiero è stato riportato correttamente. Wikipedia non è una fonte primaria, il che significa che si deve fidare di quanto scrivono altre fonti che si spera siano valide; in caso di guerre di edit si cerca di evitare il più possibile di andare a una votazione, perché la verità non si decide a maggioranza; ma anche che non possiamo sapere se un utente bannato all’infinito si è reiscritto con un altro nome e ora si comporta in maniera costruttiva. (Occhei, non ho aggiunto che all’atto pratico ci accorgiamo subito dallo stile di interazione di chi si tratta… È inoltre vero – o almeno questo è il mio punto di vista – che quando si scopre che qualcosa ampiamente creduto è falso è meglio lasciarlo scritto, indicando che è falso e le fonti che dimostrano la falsità, rispetto a cancellarlo. I complottisti diranno comunque che le fonti riportate sono fabbricate ad arte, ma non rischiamo che qualcuno magari in buona fede aggiunga di nuovo le informazioni errate.

Peccato che poi ci sia il titolo (ben spalleggiato dal catenaccio). Titolo:

Wikipedia e la bufala sul Polocausto: «Meglio gli errori che un controllo dall’alto». Così funziona l’enciclopedia libera

Quello che io affermo è che un comitato redazionale (“controllo dall’alto”, se volete dirlo così) porta inevitabilmente ad avere un punto di vista specifico nelle voci, che può essere o no corrispondente alla verità. Possiamo fare il classico esempio: la voce “Fascismo” nella prima edizione della Treccani era stata direttamente scritta da Mussolini. Il modello “dal basso” di Wikipedia è diverso, non migliore di quello di un’enciclopedia standard; è probabilmente più prono ad avere errori, che però per la massima parte durano relativamente poco. (Nel caso in questione, non credo che la bufala del campo di sterminio fosse solo citata su Wikipedia).

Ma quello che è peggio è il catenaccio:

Il portale, costruito dall’opera di volontari, non ha mai introdotto alcun sistema per prevenire le storie false. «La comunità è sempre riuscita a mantenere l’equilibrio nelle opinioni»

Fatevi una domanda e datevi una risposta, direbbe Marzullo. Quali sono i sistemi per prevenire storie false? Quello che tipicamente si usa (ehm, diciamo si dovrebbe usare, visto quello che troviamo in giro) è il non pubblicare nulla fino a che non c’è una ragionevole certezza di verità. Wikipedia ovviamente non fa così, visto che non ci sono controlli a priori sull’inserimento di contenuti: ma un meccanismo c’è, ed è quello dei template di avviso citati del resto nell’articolo: voce da controllare e mancanza di fonti.


Questi avvisi hanno più di dieci anni di esistenza (anche se non c’erano ancora quando è stata creata la voce sul cosiddetto campo di sterminio di Varsavia) e sono nati proprio per aiutare l’utente ignaro. È vero che chi scrive su Wikipedia non è di solito un esperto, ma se è abbastanza bravo può notare che c’è qualcosa che non torna e segnalare così a tutti di fare attenzione. Poi ci sarà sempre chi non legge gli avvisi, ma c’è anche chi inoltra sempre bufale così malfatte da far pensare che tanto parlare con lui è tempo perso.

Bene, lasciamo Wikipedia e torniamo ai titolisti dei giornali. Cosa succede se il lettore che è come sempre di fretta non legge l’articolo ma si limita al titolo? Si fa un’idea del tutto sbagliata di quello che succede. E qui non ci si può neppure appellare alla solita scusa “non c’è abbastanza spazio”, perché il catenaccio ha più libertà. Capite perché io affermo sempre che i titolisti saranno i primi ad andare al muro quando ci sarà la rivoluzione?

Google e la direttiva copyright: chi l’avrebbe mai detto?

Immaginate una felice città in cui si trovano varie panetterie e un grande supermercato che tra gli scaffali vende anche il pane di queste panetterie. A un certo punto i panettieri si accorgono che nessuno viene più in negozio da loro, perché è più comodo fare un unico giro al supermercato, e quindi si accordano per stabilire che il supermercato deve pagare loro il pane più di quanto loro lo facciano pagare ai loro clienti. Il direttore del supermercato ascolta le lamentele dei negozianti e risponde “Capisco. Vorrà dire che da domani venderò solo pane confezionato industriale”, al che i panettieri gridano allo scandalo perché il supermercato vuole intimidirli.

Ecco a grandi linee cosa sta succedendo in Francia. Ve la ricordate tutta la storia sulla direttiva europea riguardo al copyright, e per la precisione sull’articolo 15 (ex 11) che introduceva un nuovo diritto d’autore su chi raccoglie e ripubblica gli estratti (“snippets”) delle notizie presentate dai giornali. Di per sé i vari stati membri dell’Unione Europea hanno due anni di tempo per implementare nelle leggi nazionali la direttiva, ma i francesi evidentemente avevano fretta – d’altra parte uno degli europarlamentari più attivi a favore della direttiva è stato Jean-Marie Cavada – e quindi a luglio hanno già emanato la legge al riguardo, che copia pedissequamente il testo della direttiva e quindi non richiederà procedure di infrazione. Google ha preso atto della cosa e ha deciso di rispettare la legge alla lettera: se una testata giornalistica vuole esercitare i propri diritti, basta che lo indichi nel file robots.txt del proprio sito, o nei singoli file o addirittura in porzioni specifiche del testo, e loro si limiteranno a riportare il titolo della notizia senza estratti.

Risultato? Diciamo che gli editori non l’hanno presa troppo bene. Qui potete leggere le prime righe del commento di Carlo Perrone (GEDI, ex Secolo XIX); qui potete vedere di come un’agenzia (che il mio amico Federico mi dice essere vicina all’UE) grida al latrocinio da parte di Google che vuole bypassare i diritti dei media. Beh, su: non è proprio così. Capisco che tutta la narrazione che i giornali hanno propinato in quest’anno abbondante si basa sul fatto che Google News ruba loro i proventi senza fare alcun lavoro se non raccogliere automaticamente i loro testi. Potremmo discutere all’infinito se sia vero o falso: non solo l’abbiamo già fatto fino allo sfinimento, ma soprattutto non è un mio problema, non essendo io né Google né un media. Però non possiamo pensare che Google sia obbligato a fornire un suo servizio (quello degli snippet) solo perché gli editori vogliono essere pagati: a Mountain View avranno fatto i loro conti e avranno deciso di forzare la mano. Perché sì, in un certo senso è vero che c’è un ricatto: come avrete notato, Google non ha scelto di bloccare a priori gli estratti, ma costringe le singole testate ad autobloccarsi, immagino per far partire una guerra tra poveri. Epperò resta il punto di partenza: se gli editori sono davvero convinti che le rassegne stampa automatiche toglievano loro ricavi, a questo punto avranno comunque dei soldi in più anche se non arrivano da Google, no? (Come, “no”? Volete forse dire che non ho capito nulla della loro posizione?)

Non mi stancherò mai di ripeterlo: c’è indubbiamente un problema di raccolta pubblicitaria legata alla fruizione delle notizie, ma la soluzione non può essere peggio del problema. È probabile che molta gente si accontenti dei titoli o poco più – gli snippet, insomma – e quindi non vada a leggere le notizie sui siti dei singoli giornali, nonostante i tentativi di clickbaiting di molte testate. Ora, se le notizie di base sono comunque le stesse tra i vari giornali mettere una tassa da far pagare alle terze parti è controproducente: o questi trovano qualcuno che comunque accetta di lasciarle libere, oppure chiudono baracca e burattini e la gente di cui sopra andrà avanti lo stesso senza finire sui siti delle singole testate. Un accordo diretto su modi migliori per mandare i lettori dai motori di ricerca ai siti dei giornali sarebbe stato più furbo: non so se le due parti l’abbiano mai davvero perseguito, ma sicuramente un obbligo ope legis porta alla prevaricazione da chi comunque ha il coltello dalla parte del manico. La chiusura di servizi come Google News può sembrare a prima vista un lose/lose, ma guardando i numeri chi ci perde davvero è solo una delle due parti, per quanto l’altra poi possa piangere. Mi aspetto sempre una confutazione che non sia a base di slogan, ma non trattengo certo il fiato.

Cosa cambia tutto questo per Wikipedia? Al momento nulla. Noi infatti non usiamo estratti degli articoli, perché li riformuliamo sempre; il nostro problema con l’articolo 15 è legato al titolo delle notizie, che per noi è un dato bibliografico ma di per sé risulta tutelato. Il fatto che Google non lo ritenga tale non significa molto, se non per vedere il risultato di un’eventuale contesa legale: ma noi dobbiamo restare sul sicuro e ci atterremo a un’interpretazione il più ampia possibile dei limiti. Per il momento, quindi, aspettatevi che quando la direttiva sarà legge anche in Italia troverete con ogni probabilità un dato in meno sulle fonti (ma il link resterà, non preoccupatevi: non dobbiamo certo fare ripicche.)

toh, ci si inventa una nuova licenza

Leggo sul Post che le Big5 (i gruppi librari più importanti al mondo) hanno citato a giudizio Audible, la società di Amazon specializzata in audiolibri. Come mai? Portava i libri che offriva al lettor… ehm, all’ascoltatore? Ovviamente no. La cosa è molto più sottile. Ultimamente Audible ha prodotto una nuova funzione, “Captions”, che dovrebbe essere resa disponibile dal 10 settembre. Questa funzione è pensata per i bambini che stanno imparando a leggere: man mano che il libro viene letto, un sistema di riconoscimento del parlato traduce i suoni in parole e le mostra una per volta su uno schermo. ArsTechnica spiega un po’ più a fondo la cosa, pur essendo costretta anch’essa a fare alcune ipotesi non essendoci alcuna specifica ufficiale. Gli editori americani contestano che la licenza che loro concedono ad Audible non permette di fare una cosa come quella. Se si associasse al testo letto quello presente nella versione scritta del libro, si potrebbe seguire che in effetti si sta usando qualcosa (il testo scritto) su cui non è stata ottenuta la licenza; non è un caso che quali di Amazon, che sono delle faina ma hanno anche fior di avvocati, abbiano deciso di fare altrimenti. Gli editori hanno pertanto scelto un’altra strada, fortunatamente esplicitata a pagina 3 delle cento pagine della citazione a giudizio. Proprio perché la tecnologia è automatica e quindi con un certo margine di errore – fino al 6% secondo Audible – succederebbe che

Audible Captions could directly compete with both books (physical and eBooks) and authorized cross-format (incorporating both text and audio) products, the latter which benefit consumers by not relying on faulty transcription technology and for which Publishers and authors are compensated.

Questi i fatti. Il mio commento? Innanzitutto, quello che mi preme far notare è che gli editori richiedono un nuovo tipo di copyright, proprio come a inizio anno hanno fatto per la famigerata snippet tax nella direttiva comunitaria sull’e-commerce. Come scrivevo sopra, per gli editori la versione audio+testo generato è diversa da quella audio+testo ufficiale, e qui non ci sono dubbi, che da quella solo audio, di cui sarebbe un formato derivato. Audible ribatte che non si può parlare di opera derivata, perché il testo è inestricalmente legato all’audio e non può essere usato in modo autonomo. Ora, per quanto io non abbia così a cuore Amazon, mi infastidisce molto di più questo ampliamento strisciante dei diritti d’autore, soprattutto perché l’ipocrisia degli editori parla dei mancati compensi loro o degli autori. Non mi stancherò mai di ripeterlo: in questi casi gli autori, salvo eccezioni davvero rarissime, contano zero. Un contratto standard, almeno qui in Italia, cede all’editore tutti i diritti, quindi i soldi per l’autore semplicemente non arriveranno.

Io non pretendo che chiunque segua il modello Wikipedia, con testi e immagini liberamente disponibili anche per essere usati in opere commerciali: non lo faccio sempre nemmeno io, tra i libri pubblicati ufficialmente per cui cedo i diritti e i testi come quelli di questo blog per cui uso una licenza di riuso non commerciale. Però la mia idea di opera derivata consiste in qualcosa che possa essere fruito in modo indipendente da quella originaria, e che non sia una mera rappresentazione. In questo caso l’indipendenza certo non si ha, per come Captions è stato pensato. Possiamo al più chiederci se a un bambino serva davvero un software che può fare errori: la mia risposta è che entrambe le parti in causa hanno esplicitamente alzato la probabilità di errore, ciascuna per i propri scopi. Stiamo parlando di libri letti professionalmente, quindi ben scanditi: potrebbero esserci errori di punteggiatura, ma le parole dovrebbero essere in massima parte corrette.

Chiudo con una considerazione sulla “rappresentazione”. Tra quattro giorni comincia Wiki Loves Monuments, e come capita da vari anni Wikimedia Italia ha passato mesi alla caccia delle autorizzazioni per fotografare liberamente almeno nel mese di settembre le tante opere d’arte italiane. Già per le opere antiche è un problema, ma per quelle contemporanee è praticamente impossibile, perché gli archi e i progetisti hanno il copyright non solo per l’opera in 3D ma anche per le foto, che sono viste appunto come opere derivate. Ma come si può fruire della foto di un palazzo o di una statua? E quale sarebbe la differenza tra vederla in foto o trovarsela di fronte? Ecco, il problema rimane questo: i diritti d’autore sono ormai un modo per impedire la creatività rimanendo fissi a quanto già fatto e cercando di sfruttarlo anche per cose che non si pensavano nemmeno.

Il blocco turco a Wikipedia e la Corte europea dei diritti dell’uomo

Come spero ricordiate, da più di due anni non è possibile accedere a una qualunque edizione di Wikipedia dalla Turchia. Il motivo è semplice: erano state scritte cose che non piacevano. Lo scorso maggio la Wikimedia Foundation ha presentato un ricorso alla Corte Europea dei diritti dell’uomo. Bene: in tempi assolutamente rapidi per la Corte (che spesso anzi decide di non avere giurisdizione…) il 5 giugno scorso il ricorso è stato messo in corsia privilegiata e il 5 luglio la Corte ha mandato una richiesta di informazioni alla Turchia, che ha ora tempo fino a fine ottobre per le controdeduzioni. Maggiori informazioni sul sito WMF.

Non so se ci saranno risultati pratici, ma almeno è un segnale che qualcuno pensa ai problemi della censura.