Quando Wikipedia non è sul pezzo

Stamattina magari avete sentito oppure letto delle dimissioni del presidente del Consiglio Europeo per la ricerca, deluso perché Bruxelles non ha voluto accettare la sua proposta di un programma paneuropeo per combattere l’infezione CoViD-19. Magari vi siete anche chiesti se – visto che il presidente in questione si chiama Mauro Ferrari – fosse italiano oppure no, e siete andati su Wikipedia a leggere qualcosa in più. Beh, io l’ho fatto: ho trovato una biografia (tendente al comunicato stampa…) ferma all’inizio del 2014, quando in un’intervista televisiva alle Jene definì Stamina come «il primo caso importante di medicina rigenerativa in Italia». Nessun cenno nemmeno alla presidenza dell ERC, nonostante la nomina fosse arrivata nell’aprile scorso; la cronologia della voce mostra a partire dalla fine del 2016 solo modifiche estetiche e tecniche. Per dire, non era nemmeno indicato il giorno di nascita: il knowledge graph di Google lo mostrava, ma immagino recuperandolo dal sito di Giorgio dell’Arti che però indica un luogo errato di nascita.

Vabbè, mi è bastato un attimo per aggiungere due righe di testo, e non molto tempo in più per trovare e inserire anche le fonti su luogo e data di nascita. Però la mancanza di quelle informazioni è un brutto segno per Wikipedia. Mi è perfettamente chiaro che la struttura stessa dell’enciclopedia non può dare garanzie di aggiornamento puntuale e generalizzato: ogni contributore fa quello che gli interessa, e pertanto nessuno si doveva arrabbiare se quando ancora c’erano i campionati i tabellini di presenze e gol delle serie minori erano aggiornati in tempo praticamente reale. Però vedere che nessuno si occupi di aggiornare l’enciclopedia con notizie che si trovano nelle homepage dei quotidiani mi fa temere che stiamo entrando nella fase “tanto c’è qualcun altro che fa le cose per me”, una china davvero pericolosa per il futuro. Intendiamoci: meglio nessuna informazione che informazioni errate, e ci sono moltissime aree di Wikipedia dove non c’è poi bisogno di aggiornamenti puntuali. Forse però tra qualche anno le biografie di molte persone viventi saranno irrimediabilmente datate, e bisognerà trovare un’altra fonte per ottenerle. (Ehm… adesso che ci penso potrebbe non essere una pessima idea! Così magari la gente smetterà di usare Wikipedia per farsi pubblicità…)

Aggiornamento: (9 aprile) Stamattina ho scoperto che ieri è stata pubblicata una nota del Consiglio Scientifico dell’ERC che afferma che dieci giorni fa il consiglio aveva chiesto all’unanimità a Ferrari di dimettersi. Bene, questa informazione era stata aggiunta nella voce Wikipedia. Le cose forse vanno meno peggio di quanto temessi.

Gli assistenti vocali e il primo soccorso

Grazie agli amici di LSDI ho scoperto questo articolo di Mashable che riporta una ricerca dell’università dell’Alberta su quanto gli assistenti vocali “funzionino” nel caso di richieste legate al primo soccorso. Spoiler: non funzionano. Dei quattro sistemi testati, due non riuscivano nemmeno a capire le domande poste: gli altri due le comprendevano nel 90% dei casi, ma davano risposte sensate una volta su due.

Oggettivamente non mi sarei aspettato molto di diverso, almeno nel caso dei due assistenti meno peggiori: per gli altri due c’è effettivamente un problema, come quando alla domanda “voglio morire” la risposta è stata “come posso aiutarti?”. Il problema è che dovrebbe essere ovvio che gli assistenti non “sanno” nulla: al più sanno dove cercare le informazioni, e spesso la fonte è Wikipedia (o sperabilmente Wikidata, che ha informazioni più facilmente digeribili da una macchina). Qual è la probabilità che – per quanta cura ci si possa mettere – le informazioni sul primo soccorso ivi presenti siano valide? Ben poco. Basta vedere che già il triage ospedaliero, fatto da esseri umani qualificati, non sempre ci azzecca. Perché un assistente vocale possa dare risultati decenti occorre (a) che qualcuno metta su da qualche parte informazioni buone, coerenti e “macchinizzabili”, e (b) che chi programma gli assistenti vocali li faccia puntare a quella fonte quando si riconosce il campo d’azione. Io sono abbastanza convinto che chi fa il software di cui al punto (b) queste cose le sappia abbastanza bene, e non è certo un caso che sempre l’articolo riporta come quelli di Amazon abbiano chiesto lumi su come si potrebbe fare meglio; ma resta il punto di partenza che non si possono fare le nozze con i fichi secchi, e soprattutto che non è che pubblicizzi il tuo assistente vocale per mostrare come è bravo a suggerirti di chiamare il 112. Per quello basta il Salvavita Beghelli…

Wikipedia tradotta con Google Translate?

Mi è capitato di finire su it.que.wiki. Vista da lontano pare un semplice clone di Wikipedia, ma se si comincia a leggere ci si accorge di qualcosa di strano. Il testo pare essere tradotto automaticamente dalla Wikipedia in lingua inglese. Quale sia la logica di tutto questo mi sfugge :-) (sì, la logica del sito in generale è “se qualcuno finisce da noi ci guadagniamo con gli ad”, ma a questo punto fai più in fretta a clonare direttamente la versione linguistica corretta, no?)

Tartinville reloaded

Gino Lucrezi ha trovato un’altra strada per cui Google potrebbe avere avuto un’idea di chi fosse Tartinville. È infatti vero che nessuna Wikipedia parla di lui, ma esisteva comunque un elemento Wikidata. I più attenti e intraprendenti tra i miei ventun lettori sanno che cos’è Wikidata; per gli altri, è un’enorme base dati che è stata ideata alcuni anni fa per conservare tutte le informazioni che non cambiano nelle varie lingue se non per la rappresentazione. Gennaio, janvier, January sono essenzialmente la stessa cosa; se una persona è nata a gennaio, tanto vale avere l’informazione in un solo punto e replicarla nelle varie wiki, il tutto in modo trasparente all’utente. Inoltre, nel miglior spirito wikipedico, questi dati sono a disposizione di tutti i sistemi automatici per costruire nuova informazione a partire da essi.

Il problema però si sposta solo. Il motore di ricerca di Google è sicuramente felicissimo di usare Wikidata, perché non deve nemmeno far fatica a parsificare (per i non informatici: “cavare un ragno dal buco da”) un testo. Ma come vedete dal link che ho postato, che fotografa la situazione a questa mattina prima di quando mi sono messo ad aggiungere dati, di informazioni già predigerite non ce n’erano. C’era solo un link a una fonte esterna che dava più informazioni che però sono appunto da parsificare; e non mi sembra comunque facile. Diciamo che il mistero di infittisce…

C’è un giudice ad Ankara

Oggi la Corte Costituzionale turca ha deliberato che il blocco a Wikipedia che ivi persiste dall’aprile 2017 viola il diritto alla libertà di espressione e quindi deve essere eliminato. Trovate tutta la storia del blocco su Wikipedia :-) oppure, se preferite i miei riassunti, ne parlai qui e qui (per quanto riguarda il secondo post, la Turchia ha chiesto una proroga che scadrà tra qualche settimana per fornire ulteriori informazioni).

Io non posso e non voglio entrare sul tema “le accuse per cui la Turchia finanziava il terrorismo islamico in funzione anti-Assad” siano vere o false; che i turchi siano ora entrati in territorio siriano è invece acclarato. Non so nemmeno se il governo turco accetterà questa delibera. Però posso dire che un governo che non riesce a convincere i suoi cittadini della falsità di una fonte e decide che la scelta più semplice è bloccarla non mi pare molto sicuro di sé.

Titolisti vil razza dannata – reprise

Ieri è stata pubblicata sul Giornale un’inchiesta riguardo a Wikipedia. (Che io sappia, non c’è un link, dovete fidarvi), con interviste al vostro affezionato titolare e a Frieda. Il testo dell’intervista riporta correttamente le nostre affermazioni, ve lo anticipo subito: il titolo no, come già successo altrove. Non mi lamento tanto della frase “L’enciclopedia del mondo è già vecchia”, dove la scelta del termine è ovviamente legata al punto di vista del quotidiano, ma al catenaccio che dice “Calano gli autori – l’aggiornamento dei testi è più lento e meno frequente”. Le statistiche di Wikipedia sono pubbliche. Nella figura vedete quella relativa agli editor attivi, mentre per le pagine modificate potete andare qui. È indubbio che dal 2013 al 2014 c’è stato un calo di contributori; ma da lì in poi il loro numero è rimasto costante, con fluttuazioni legate al mese dell’anno. Possiamo dire che il numero è “stagnante” come nel testo (di nuovo: la scelta dei termini non è mai neutra, ma non ho il diritto di sindacare) ma non certo in calo. Lo stesso per le modifiche: un matematico rompipalle come me può affermare che avere un numero stabile di modifiche e un numero crescente di pagine significa che si fanno meno modifiche per singola voce, ma lì si entra in un terreno più complicato, perché ci sono voci che naturalmente richiedono sempre meno modifiche man mano che si assestano. Quello che continuo a chiedermi è che cosa ci guadagnano i titolisti a scrivere qualcosa che poi viene smentito nel corpo dell’articolo…

Ah, il catenaccio termina con “L’utopia del sapere cooperativo è entrata in crisi” che è tecnicamente corretto ma un po’ fuori contesto; ha più senso unito alla mia frase “siamo una riserva indiana”. In pratica, la Rete di trent’anni fa non esiste più, e si viaggia verso l’individualismo e la ricerca affannosa di like personali; da qui la crisi del sapere cooperativo, che però è da misurarsi rispetto al totale degli utenti e non nei numeri assoluti che per l’appunto restano costanti. Riconosco però che questo concetto non si può certo riassumere in poche parole, quindi non mi preoccupo più di tanto!

Titolisti, vil razza dannata

Una decina di giorni fa si è scoperto che una voce di Wikipedia creata nel 2004 era falsa, o più precisamente partiva da una base reale (un campo di concentramento a Varsavia nella seconda guerra mondiale) ma aveva “trasformato” il campo in uno di sterminio. Quel falso storico era presente in varie edizioni linguistiche: l’articolo più visitato era come capita spesso quello sulla Wikipedia in lingua inglese, ma c’era anche una versione in lingua italiana. Fin qua nulla di davvero nuovo, purtroppo: Wikipedia è uno dei terreni preferiti dai revisionisti, in questo caso polacchi.

Martedì scorso il Corriere ha pubblicato un seguito dell’articolo, dove parlo anch’io con il cappellino di Wikimedia Italia. La settimana scorsa ero stato al telefono quaranta minuti abbondanti: diciamo che se avessi potuto rivedere il mio virgolettato avrei suggerito qualche modifica, ma nel complesso direi che il mio pensiero è stato riportato correttamente. Wikipedia non è una fonte primaria, il che significa che si deve fidare di quanto scrivono altre fonti che si spera siano valide; in caso di guerre di edit si cerca di evitare il più possibile di andare a una votazione, perché la verità non si decide a maggioranza; ma anche che non possiamo sapere se un utente bannato all’infinito si è reiscritto con un altro nome e ora si comporta in maniera costruttiva. (Occhei, non ho aggiunto che all’atto pratico ci accorgiamo subito dallo stile di interazione di chi si tratta… È inoltre vero – o almeno questo è il mio punto di vista – che quando si scopre che qualcosa ampiamente creduto è falso è meglio lasciarlo scritto, indicando che è falso e le fonti che dimostrano la falsità, rispetto a cancellarlo. I complottisti diranno comunque che le fonti riportate sono fabbricate ad arte, ma non rischiamo che qualcuno magari in buona fede aggiunga di nuovo le informazioni errate.

Peccato che poi ci sia il titolo (ben spalleggiato dal catenaccio). Titolo:

Wikipedia e la bufala sul Polocausto: «Meglio gli errori che un controllo dall’alto». Così funziona l’enciclopedia libera

Quello che io affermo è che un comitato redazionale (“controllo dall’alto”, se volete dirlo così) porta inevitabilmente ad avere un punto di vista specifico nelle voci, che può essere o no corrispondente alla verità. Possiamo fare il classico esempio: la voce “Fascismo” nella prima edizione della Treccani era stata direttamente scritta da Mussolini. Il modello “dal basso” di Wikipedia è diverso, non migliore di quello di un’enciclopedia standard; è probabilmente più prono ad avere errori, che però per la massima parte durano relativamente poco. (Nel caso in questione, non credo che la bufala del campo di sterminio fosse solo citata su Wikipedia).

Ma quello che è peggio è il catenaccio:

Il portale, costruito dall’opera di volontari, non ha mai introdotto alcun sistema per prevenire le storie false. «La comunità è sempre riuscita a mantenere l’equilibrio nelle opinioni»

Fatevi una domanda e datevi una risposta, direbbe Marzullo. Quali sono i sistemi per prevenire storie false? Quello che tipicamente si usa (ehm, diciamo si dovrebbe usare, visto quello che troviamo in giro) è il non pubblicare nulla fino a che non c’è una ragionevole certezza di verità. Wikipedia ovviamente non fa così, visto che non ci sono controlli a priori sull’inserimento di contenuti: ma un meccanismo c’è, ed è quello dei template di avviso citati del resto nell’articolo: voce da controllare e mancanza di fonti.


Questi avvisi hanno più di dieci anni di esistenza (anche se non c’erano ancora quando è stata creata la voce sul cosiddetto campo di sterminio di Varsavia) e sono nati proprio per aiutare l’utente ignaro. È vero che chi scrive su Wikipedia non è di solito un esperto, ma se è abbastanza bravo può notare che c’è qualcosa che non torna e segnalare così a tutti di fare attenzione. Poi ci sarà sempre chi non legge gli avvisi, ma c’è anche chi inoltra sempre bufale così malfatte da far pensare che tanto parlare con lui è tempo perso.

Bene, lasciamo Wikipedia e torniamo ai titolisti dei giornali. Cosa succede se il lettore che è come sempre di fretta non legge l’articolo ma si limita al titolo? Si fa un’idea del tutto sbagliata di quello che succede. E qui non ci si può neppure appellare alla solita scusa “non c’è abbastanza spazio”, perché il catenaccio ha più libertà. Capite perché io affermo sempre che i titolisti saranno i primi ad andare al muro quando ci sarà la rivoluzione?

Google e la direttiva copyright: chi l’avrebbe mai detto?

Immaginate una felice città in cui si trovano varie panetterie e un grande supermercato che tra gli scaffali vende anche il pane di queste panetterie. A un certo punto i panettieri si accorgono che nessuno viene più in negozio da loro, perché è più comodo fare un unico giro al supermercato, e quindi si accordano per stabilire che il supermercato deve pagare loro il pane più di quanto loro lo facciano pagare ai loro clienti. Il direttore del supermercato ascolta le lamentele dei negozianti e risponde “Capisco. Vorrà dire che da domani venderò solo pane confezionato industriale”, al che i panettieri gridano allo scandalo perché il supermercato vuole intimidirli.

Ecco a grandi linee cosa sta succedendo in Francia. Ve la ricordate tutta la storia sulla direttiva europea riguardo al copyright, e per la precisione sull’articolo 15 (ex 11) che introduceva un nuovo diritto d’autore su chi raccoglie e ripubblica gli estratti (“snippets”) delle notizie presentate dai giornali. Di per sé i vari stati membri dell’Unione Europea hanno due anni di tempo per implementare nelle leggi nazionali la direttiva, ma i francesi evidentemente avevano fretta – d’altra parte uno degli europarlamentari più attivi a favore della direttiva è stato Jean-Marie Cavada – e quindi a luglio hanno già emanato la legge al riguardo, che copia pedissequamente il testo della direttiva e quindi non richiederà procedure di infrazione. Google ha preso atto della cosa e ha deciso di rispettare la legge alla lettera: se una testata giornalistica vuole esercitare i propri diritti, basta che lo indichi nel file robots.txt del proprio sito, o nei singoli file o addirittura in porzioni specifiche del testo, e loro si limiteranno a riportare il titolo della notizia senza estratti.

Risultato? Diciamo che gli editori non l’hanno presa troppo bene. Qui potete leggere le prime righe del commento di Carlo Perrone (GEDI, ex Secolo XIX); qui potete vedere di come un’agenzia (che il mio amico Federico mi dice essere vicina all’UE) grida al latrocinio da parte di Google che vuole bypassare i diritti dei media. Beh, su: non è proprio così. Capisco che tutta la narrazione che i giornali hanno propinato in quest’anno abbondante si basa sul fatto che Google News ruba loro i proventi senza fare alcun lavoro se non raccogliere automaticamente i loro testi. Potremmo discutere all’infinito se sia vero o falso: non solo l’abbiamo già fatto fino allo sfinimento, ma soprattutto non è un mio problema, non essendo io né Google né un media. Però non possiamo pensare che Google sia obbligato a fornire un suo servizio (quello degli snippet) solo perché gli editori vogliono essere pagati: a Mountain View avranno fatto i loro conti e avranno deciso di forzare la mano. Perché sì, in un certo senso è vero che c’è un ricatto: come avrete notato, Google non ha scelto di bloccare a priori gli estratti, ma costringe le singole testate ad autobloccarsi, immagino per far partire una guerra tra poveri. Epperò resta il punto di partenza: se gli editori sono davvero convinti che le rassegne stampa automatiche toglievano loro ricavi, a questo punto avranno comunque dei soldi in più anche se non arrivano da Google, no? (Come, “no”? Volete forse dire che non ho capito nulla della loro posizione?)

Non mi stancherò mai di ripeterlo: c’è indubbiamente un problema di raccolta pubblicitaria legata alla fruizione delle notizie, ma la soluzione non può essere peggio del problema. È probabile che molta gente si accontenti dei titoli o poco più – gli snippet, insomma – e quindi non vada a leggere le notizie sui siti dei singoli giornali, nonostante i tentativi di clickbaiting di molte testate. Ora, se le notizie di base sono comunque le stesse tra i vari giornali mettere una tassa da far pagare alle terze parti è controproducente: o questi trovano qualcuno che comunque accetta di lasciarle libere, oppure chiudono baracca e burattini e la gente di cui sopra andrà avanti lo stesso senza finire sui siti delle singole testate. Un accordo diretto su modi migliori per mandare i lettori dai motori di ricerca ai siti dei giornali sarebbe stato più furbo: non so se le due parti l’abbiano mai davvero perseguito, ma sicuramente un obbligo ope legis porta alla prevaricazione da chi comunque ha il coltello dalla parte del manico. La chiusura di servizi come Google News può sembrare a prima vista un lose/lose, ma guardando i numeri chi ci perde davvero è solo una delle due parti, per quanto l’altra poi possa piangere. Mi aspetto sempre una confutazione che non sia a base di slogan, ma non trattengo certo il fiato.

Cosa cambia tutto questo per Wikipedia? Al momento nulla. Noi infatti non usiamo estratti degli articoli, perché li riformuliamo sempre; il nostro problema con l’articolo 15 è legato al titolo delle notizie, che per noi è un dato bibliografico ma di per sé risulta tutelato. Il fatto che Google non lo ritenga tale non significa molto, se non per vedere il risultato di un’eventuale contesa legale: ma noi dobbiamo restare sul sicuro e ci atterremo a un’interpretazione il più ampia possibile dei limiti. Per il momento, quindi, aspettatevi che quando la direttiva sarà legge anche in Italia troverete con ogni probabilità un dato in meno sulle fonti (ma il link resterà, non preoccupatevi: non dobbiamo certo fare ripicche.)