All posts by .mau.

matematto non praticante

Creative Commons, Wikipedia e condivisione della conoscenza

La scorsa settimana mi è stato chiesto come mai Wikipedia usi anche immagini 3D ottenute con Wolfram Mathematica, e se la cosa non vada contro le policy dell’enciclopedia libera. La domanda in effetti non è così peregrina e merita qualche parola in più per rispondere, facendo una breve storia delle licenze libere.

Il movimento per il software libero – o se preferite, Richard Stallman che è il suo incontrastato leader – ha indubbiamente dei modi che potremmo a volte definire talebani. Il testo della GNU General Public License (GPL) è stato studiato non solo per dare la libertà ai programmatori di usare e modificare il software – che deve infatti essere distribuito anche con il codice sorgente – ma per fare da grimaldello contro il codice proprietario: qualunque programma che contenga parti di codice sotto la licenza GPL deve essere rilasciato secondo la stessa licenza. Nasce così il concetto di licenza virale: termine usato in genere con un’accezione negativa da chi fa notare come non si è così liberi se si è obbligati alla libertà. Peggio ancora, il software ha una brutta abitudine: non si riscrive mai nulla da zero ma si preparano librerie (brutta traslitterazione, in italiano si sarebbe dovuto dire “biblioteche”) di funzioni che vengono usate come mattoni e a cui si aggiunge la malta della parte davvero nuova, mettendo tutto insieme con la compilazione. Bene: la GPL impone che il software così creato abbia la stessa licenza. Dal punto di vista di Stallman questo è il comportamento ideale da seguire: per la maggior parte dei programmatori la cosa pareva un filo troppo e così si è giunti al compromesso di inventarsi una licenza d’uso apposta per le librerie: la Lesser General Public License (LGPL) che con un po’ di acrobazie tra il legalese e il programmese specifica che se la libreria viene semplicemente compilata con il resto del programma allora non ci sono problemi.

Ma un programma ha anche la sua documentazione! Ecco così che Stallman inventò anche una licenza apposta per la documentazione: la Gnu Free Documentation License (GFDL). Non ci crederete, ma qualcuno si è lamentato perché questa non era una licenza abbastanza libera, e ha continuato a usare la GPL anche per la documentazione! Il motivo, nel caso ve lo chiedeste, è che nella versione originale della licenza c’era la possibilità di indicare che certe parti del testo non potessero venire modificate. Ad ogni modo la GFDL fu la licenza scelta inizialmente per Wikipedia. La scelta fu quasi obbligata, perché al tempo essa era l’unica licenza libera disponibile. Col tempo poi nacquero le Creative Commons, che nascevano pensando proprio alla condivisione dei testi, e avevano un grande vantaggio competitivo: non era necessario aggiungere tutto il testo della GFDL quando si citava un brano, per quanto piccolo fosse. Ci fu un periodo piuttosto lungo in cui Wikipedia e GNU cercarono di capire se il testo dell’enciclopedia, già piuttosto corposo, poteva cambiare di versione. Alla fine si trovò un compromesso e venne definita la versione 1.3 della GFDL con la “clausola Wikipedia”: l’enciclopedia, o meglio un qualunque “Massive Multiauthor Collaboration Site” (sito collaborativo multiautore di massa) avrebbe potuto licenziare il proprio testo sia con la GFDL che con la CC-BY-SA, purché nessuno di chi aveva contribuito materiale solo con la prima licenza avesse obiezioni e le presentasse entro alcuni mesi dalla pubblicazione della nuova versione. Anche il mondo delle licenze libere è complicato.

Fin qui la nuda cronaca. Quello che dovrebbe però essere chiaro è che almeno in linea di principio l’output di un programma potrebbe avere la stessa licenza d’uso del programma stesso: vedi il caso dei file compilati a partire da software sotto GPL, o banalmente programmi che aggiungono parte di sé stessi nei file di output – un’idea a prima vista balzana, ma che secondo me potrebbe portare a interessanti risultati quando unita al DRM, cioè alla gestione dei diritti digitali. Ma per fortuna questo non è il caso di Mathematica, almeno presumo. Le immagini create sono di proprietà di chi ha fornito i dati di ingresso al programma: se lui ha speso soldi per comprarlo e poi vuole diffondere la conoscenza, buon per tutti. Ma questo, almeno a mio parere, è anche un risultato del vantaggio delle licenze Creative Commons rispetto a quelle GNU: il fatto stesso di poter scegliere quali diritti riservarsi, e di poterlo fare volta per volta, dà una maggiore libertà rispetto al tutto-o-niente stallmaniano. Fatene buon uso, di questa libertà!

La dura legge dei cookie

Le avvisaglie si erano già notate un mese o due fa, ma nell’ultima settimana c’è stata un’escalation incredibile. Tutti o quasi i siti mostrano un avviso che spunta sulla pagina e che ci comunica che il sito usa i cookie e se noi vogliamo continuare a stare sul sito dobbiamo accettarli. In effetti non mi è mai capitato di trovare un sito che permetta di rifiutare i cookie e ti lasci continuare la navigazione: non è poi così strano, come vedremo tra poco. Il guaio è che tutta questa storia avrebbe anche una sua logica: peccato che ormai sia diventata non solo inutile ma persino controproducente…

La storia inizia addirittura nel 1994, quando Netscape introdusse i primi cookie per sapere se l’utente era già passato dal suo sito. Il cookie non è altro che un’informazione che viene passata avanti e indietro tra un browser e un sito quando si va a leggere una pagina web, e permette di trasformare quello che inizialmente era un sistema “a domanda, rispondo” in un’interazione vera e propria. (Per la cronaca, Netscape brevettò i cookie, e il brevetto sembra ora essere in mano a Microsoft). Almeno in linea teorica, dunque, i cookie dipendono dal browser usato e dal sito contattato: in pratica le cose sono un po’ diverse, come vedremo.

Si può fare a meno dei cookie? Non sempre, proprio perché diventeremmo come Dory in Alla ricerca di Nemo: ci serve spesso sapere un po’ del nostro passato. I cookie sono tutti uguali? Assolutamente no. Ci sono cookie di sessione, che quando chiudiamo il browser svaniscono nel nulla. Ci sono cookie di autenticazione, che usiamo per esempio quando facciamo acquisti in rete per farci riconoscere. Ci sono cookie analytics, che sono quelli che contano quanta gente è andata a vedere il nostro bellissimo e importantissimo sito senza però tenere a mente chi ci è andato. Ci sono infine cookie di profilazione, che sono quelli usati per farci vedere la cosiddetta “pubblicità mirata” – che poi sembra spesso che prendano la mira ad occhi chiusi, ma tant’è – e quindi mantengono molte, forse troppe informazioni su di noi a nostra insaputa. Peggio ancora, soprattutto questi ultimi cookie possono essere di terze parti; così può capitare che io vada sul sito B e il server sappia che sono stato sul sito A. Non esattamente una bella cosa.

L’Unione Europea, che è sempre stata attenta alla privacy, trattava questi temi già nel 2002(!), e nel 2003 abbiamo avuto il nostro Codice per la tutela dei dati personali. Nel 2009 c’è stato un nuovo pronunciamento UE, nel 2012 e nel 2013 sono state emesse delle linee guida, e finalmente a maggio 2014 il Garante per la Privacy ha emesso la sua sentenza, anche a seguito di una consultazione pubblica dei cui risultati non sono riuscito a trovare traccia, e dando un anno di tempo a tutti per adeguarsi. Ricordo qualche piccolo commento l’anno scorso, ma come sempre ci siamo ridotti all’ultimo momento, sperando sempre che cambiasse qualcosa o almeno che ci fosse qualcuno da cui copiare il codice.

Bene: dal 2 giugno la norma è in vigore, e così abbiamo tutti questi begli avvisi ovunque. Beh, su Facebook io non li ho visti, e su Google nemmeno, a dire il vero; e dire che quelli dovrebbero essere i siti principe che ci profilano. Noi poveri tenutari di blog possiamo fare come Massimo Mantellini, che ha deciso di fare resistenza attiva e non mettere nulla; oppure cercare soluzioni precotte come quelle di Iubenda che almeno tra i miei contatti sembra andare per la maggiore. Io ho scelto una via di mezzo, che dovrebbe seguire le direttive del Garante: in fin dei conti non ho pubblicità e quindi non mi è mai stato necessario profilare gli utenti. In questo caso è permesso evitare di chiedere all’utente di accettare i cookie, e si può semplicemente mostrare l’informativa sui cookie presenti; il plugin Cookie Law Info mi permette di mettere un avviso che dopo un po’ se ne va via da solo e non rompe troppo il visitatore – almeno spero.

Visto che poi il Garante permette la

«possibilità per l’utente di manifestare le proprie opzioni in merito all’uso dei cookie da parte del sito anche attraverso le impostazioni del browser, indicando almeno la procedura da eseguire per configurare tali impostazioni»

ho pensato di inserire nell’informativa un link a questa guida di Salvatore Aranzulla che spiega come si può aprire una sessione del browser per navigare in incognito. In questo modo tutti i cookie vengono cancellati quando si chiude la finestra, e il Garante è contento. La cosa più divertente è che in questo modo probabilmente il numero di visitatori unici misurato dai cookie analytics crescerà, il che male non fa per l’ego dei blogger; anzi forse la cosa più divertente è che la navigazione in incognito viene tipicamente usata… per visitare i siti porno, il che dimostra come questo continui ad essere una delle forze innovative principali per l’umanità.

Una considerazione finale: sono già apparsi script per nascondere gli avvisi sui cookie, rendendoli quindi inutili. D’altra parte, come potete leggere per esempio qui, sono già disponibili varie tecniche per profilare un utente che non usano cookie, e quindi non sono toccate da questa normativa; e ci sono siti come http://fingerprint.pet-portal.eu/ – non metto apposta il link – che come proof-of-concept ti fanno una fotografia della tua utenza… e peggio ancora usando tecniche indipendenti dal browser con cui ti connetti. Insomma, la solita idea magari nata con le migliori intenzioni ma che all’atto pratico è diventata di impiccio solo per chi forse non sapeva neppure cosa succedeva dietro le quinte e certamente non faceva nulla di male con i dati degli utenti, e soprattutto rende la vita più complicata a tutti noi.

Post Scriptum: dopo una discussione su Twitter, mi sono accorto che il Garante avrebbe potuto anche dire che nel caso di semplice obbligo di informativa era sufficiente che l’informativa stessa fosse richiamata dalla home page del sito e/o in una locazione specifica (un po’ come il file robots.txt). Il risultato pratico per il navigatore era lo stesso, e la complicazione per il gestore del sito molto minore…

Aggiornamento: (6 giugno) Il Garante ha aggiunto dei chiarimenti che chiariscono poco – sarebbe stato più comodo avere qualche esempio specifico 🙂

Twitter: il primo medium molti-a-uno

Capire a che serve Twitter non è facile. La mia impressione è che nemmeno chi l’ha sviluppato avesse le idee chiare. Le leggende dicono che la lunghezza massima dei messaggi è stata posta a 140 caratteri perché quella è la lunghezza di un sms: peccato che nei paesi occidentali si possano inserire 160 caratteri con qualche trucchetto (si usano caratteri di 7 bit anziché di 8) e che in Cina e Giappone i caratteri sono 70. In realtà quella lunghezza è stata scelta ispirandosi agli sms ma senza nessun vero vincolo. Abbreviazioni come RT per “retweet” e lo stesso cancelletto # per l’hashtag sono nate dal basso, cioè dagli utenti, e ufficializzate solo in seguito. Molti vip reali o presunti ritengono che il valore di Twitter risieda nell’avere tanti seguaci; moltissimi che vip non sono ritengono che il valore di Twitter risieda nel riuscire a farsi ritwittare un proprio messaggio da un vip reale o presunto. Diciamo che nei cieli c’è grande confusione. Una cosa che non mi pare sia però stata molto evidenziata è che Twitter può essere considerato il primo esempio di un tipo di comunicazione che non si era (quasi) mai visto nel mondo reale: quella molti-a-uno. Per capirlo meglio, può essere utile vedere come gli altri tipi di comunicazione sono stati declinati nel passato e nel presente.

La comunicazione più semplice che si possa fare è quella uno-a-uno. Io e te parliamo tra di noi: praticamente lo facciamo da quando l’umanità ha acquisito l’uso della parola. La tecnologia ha semplicemente reso più facile parlare con persone che non si trovano davanti a noi; prima col telefono, poi con i sistemi di instant messaging. Notate che sto esplicitamente rifiutando la convenzione che la comunicazione debbe essere orale: ma chi è abituato a lavorare sulla Rete non ci fa nemmeno più caso. Notate però anche che non considero i sistemi offline, come la posta elettronica: è sì comunicazione anch’essa, ma di tipo un po’ diverso. Poi si passa alla comunicazione uno-a-molti. Si parte dal capo che grida ordini al gruppo di cacciatori e si arriva al comizio del leader davanti a centinaia di migliaia di simpatizzanti (qualche migliaio secondo le stime della questura). Radio e televisione sono poi paradigmatici per la comunicazione uno-a-molti, e non è un caso che siano i media più ambiti; ora naturalmente la seconda più che la prima, ma si sa che Video killed the radio star. In questi casi i “molti” possono essere addirittura decine di milioni di persone, che ricevono contemporaneamente le stesse informazioni, o disinformazioni. Vi sembra poco?

L’esempio più tipico di comunicazione uno-a-molti in Rete è indubbiamente il sito web, che viene scritto per un pubblico di dimensione indefinita anche se in effetto off-line. I sistemi molti-a-molti sono già meno comuni: si può però pensare a quello che capita durante una cena tra amici, dove si formano e si riformano gruppetti per chiacchierare. Si sa che si arriva presto alla cacofonia e quindi è piuttosto difficile scalare un sistema di questo tipo: ve ne sarete accorti tutti quando in una cena con più di dieci persone parte subito la spaccatura. In Rete si può fare qualcosa in più. Pensate per esempio alle chatroom: riusciamo ad arrivare senza problemi a qualche decina di persone che interagiscono contemporanemente, anche se non si può superare di molto il centinaio di utenti. D’accordo, non è che tutti prestino attenzione davvero a tutto, ma potenzialmente è così: e sennò si passa a sistemi molti-a-molti di tipo offline, come i forum e all’epoca i newsgroup.

E finalmente passiamo a Twitter. Certo, con Twitter si può fare comunicazione uno-a-uno, coi messaggi diretti. Si può fare comunicazione uno-a-molti, come i sedicenti vip fanno quando postano profondi, ponderati pensieri-pillole. Si può anche fare comunicazione molti-a-molti, anche se è oggettivamente difficile riuscire a fare delle vere conversazioni multiple. Ma soprattutto è possibile, e anzi il sistema stesso lo favorisce, avere conversazioni molti-a-uno. Pensateci un attimo: cosa fate quando viene definito un hashtag per un certo evento e voi lasciate scorrere i twit relativi a quell’hashtag? Proprio così: state facendo convergere su un unico punto – voi – i mirabolanti pensieri di tanta gente. Non tutti i pensieri, ovvio, ma quelli sul tema che ci interessa in quel momento. Provate a far mente locale e scoprire se c’è qualche altro sistema duepuntozero funziona allo stesso modo… Poi provate a pensare se esiste qualche sistema vecchio stile che mette in pratica la comunicazione molti-a-uno. Vi anticipo che la risposta è positiva: come capita quasi sempre, la Rete non ha inventato nulla ma si è limitata a semplificare la fruizione di un paradigma esistente. Ci siete arrivati da soli? Volete sapere qual è stato l’esempio tipico di comunicazione molti-a-uno prima di Twitter?

La risposta è semplicissima: il cosiddetto “eco della stampa”. Le grandi aziende un tempo pagavano qualche società perché si leggesse la mazzetta dei quotidiani del giorno, trovasse le parti che riguardavano le aziende stesse, fotocopiasse quei ritagli e assemblasse una raccolta personalizzata. Certo, a questo punto mi direte “ma tanto vale allora fare una ricerca con Google!” Sì e no. Sì, perché è vero che la ricerca – che può anche essere personalizzata per data – è un esempio di molti-a-uno; no, perché è comunque una ricerca offline. Se c’è un evento in corso, Google semplicemente non può starci dietro: molto meglio la convenzione di usare tutti lo stesso mezzo, appunto Twitter, e sfruttarlo per le sue capacità intrinseche. Come scrivevo sopra, la brevità dei twit diventa un vantaggio, perché ci permette di aggiornarci all’istante. Del resto, Twitter l’ha implicitamente capito, permettendo la creazione di liste (vediamo cosa dicono le persone che a nostro personale giudizio forniscono contenuti simili) e ora il mute (eliminare i messaggi delle persone che usano i tag che ci interessano ma scrivono cose che non ci interessano). Geniale, no?

Wikipedia e il recentismo

All’inizio di giugno sul sito di Wu Ming è apparsa una ricostruzione della storia della voce di Wikipedia relativa a Vittorio Arrigoni, il cooperante italiano ucciso da una fazione palestinese nel 2011. Il testo è una svalangata di byte, come d’uso per loro, ma chi riesce a giungere sino in fondo avrà una ricostruzione completa e fondamentalmente accurata di cosa è successo. C’era solo un errore tecnico (è vero che chiunque può fare patrolling, cioè verificare la qualità delle modifiche all’enciclopedia; ma non è vero che chiunque possa cancellare una voce) che ho segnalato col cappellino di portavoce Wikimedia Italia ed è stata immediatamente recepita nei commenti al post. Ben vengano queste ricostruzioni, soprattutto considerando che purtroppo gli storici contemporanei, almeno in Italia, non si stanno ancora occupando di Wikipedia. Ma non ci sono solo fatti, ma anche opinioni! Nel seguito, e sperando di essere un po’ più conciso [EDIT: no, non ce l’ho fatta. Sara stato l’influsso dei Wu Ming?], vi racconto come la storia viene letta dal punto di vista di un vecchio wikipediano come me. Ribadisco che quelle che scriverò qui sono opinioni, non fatti; ma spero riconoscerete che sono opinioni piuttosto bene informate…

Continue reading Wikipedia e il recentismo

Google Flu Trends non sta tanto bene

Uno dei maggiori successi che gli estimatori dell’utilità dei Big Data citano a ogni piè sospinto è il progetto Google Flu Trends: un insieme di stringhe di ricerca sul motore di ricerca che permette di stimare le epidemie di influenza negli Stati Uniti molto più velocemente di quanto riesca a fare il CDC (Centers for Disease Control and Prevention). Più precisamente, Google Flu Trends predice il numero di visite ai medici a causa di un’influenza, senza attendere i dati ottenuti direttamente dal CDC, che ovviamente deve aspettare che vengano raccolte ed elaborate le relazioni dei medici. Google invece vede in tempo reale le ricerche legate – o meglio, correlate – a un’epidemia di influenza e dà il suo responso: non solo per gli USA, ma anche per varie nazioni in tutto il mondo, dalla Francia che è stata la prima a dotarsi di un sistema di misurazione in formato elettronico alla Russia.

[previsioni di epidemia di influenza, da Google Flu Trends]

Tutto bene, insomma? Mica tanto. È notizia di questi giorni (qui il link di New Scientist, qui invece una segnalazione dallo Scientific American) che quest’anno le previsioni sono state sbagliate, come del resto l’anno scorso e due anni fa. Insomma sono tre anni di fila che Google Flu Trends sbaglia le previsioni: l’anno scorso, riportava Nature, ha sovrastimato i casi di influenza realmente capitati, prevedendone quasi il doppio. Se volessimo malignare, potremmo affermare che le previsioni sono state corrette solo per il tempo strettamente necessario a pubblicare i primi articoli e libri sul tema, e sfruttare poi l'”effetto copincolla” per farlo diventare un articolo di fede. “Ma certo che è vero! Guarda in quanti ne parlano, ed è persino citato l’articolo con i risultati originali!”

Continue reading Google Flu Trends non sta tanto bene

E se il David di Michelangelo fosse sotto Creative Commons?

[David e fucile] È possibile che qualcuno di coloro che sta leggendo questo post si sia chiesto come sia possibile che il MiBACT, nella persona del ministro Dario Franceschini, twitti che l’immagine del David di Michelangelo che imbraccia un fucile (da 2500 euro nella versione base, tra l’altro) “violi la legge”. Le offese in fin dei conti sono negli occhi di chi osserva, ma la legge dovrebbe essere uguale per tutti… e il David non è certamente sotto copyright, no? E non è neppure vietato pubblicizzare armi, no? Leggendo il Post si trova qualche informazione in più, ma anche da lì non si capisce quale sia la legge al riguardo. Provo a darvi qualche spiegazione, e già che ci sono prendo spunto da quella pubblicità per mostrare con un esempio pratico qual è il significato delle varie sigle delle licenze Creative Commons, che ci danno la possibilità di scegliere quali dei nostri diritti ci interessa tutelare.

Continue reading E se il David di Michelangelo fosse sotto Creative Commons?

Boia chi molla: bugia, maledetta bugia o?

A fine gennaio il Cittadino Angelo Tofalo, pentastellato desideroso di un quarto d’ora di pubblicità, a un certo punto ha gridato “boia chi molla!” nella sordida e grigia aula del Parlamento italiano. Qualche ora dopo ha specificato su Facebook che il suo non era affatto un motto fascista, citando la corrispondente voce su Wikipedia che espliciterebbe che la frase venne pronunciata per la prima volta nel 1799 durante la Repubblica Napoletana dalla nobildonna Eleonora Pimentel Fonseca, e poi nel 1848 durante le Cinque Giornate di Milano. Potremmo aprire una discussione sul fatto che qualunque sia l’origine dell’espressione oramai essa è automaticamente associata ai fascismi vecchi e nuovi, ma QUI NON SI PARLA DI POLITICA… anche perché è molto più interessante mettersi a parlare di cosa succede quando si parla di fonti.

Continue reading Boia chi molla: bugia, maledetta bugia o?