Eccovi due storie apparentemente simili, avvenute a distanza di un secolo e mezzo. Intorno alla metà del XIX secolo, Londra era regolarmente colpita da epidemie di colera. Ai tempi non si conosceva ancora la causa della malattia, anzi non si immaginava neppure l’esistenza dei batteri: un medico, John Snow, ebbe però l’idea che potesse essere dovuta alla cattiva qualità dell’acqua. ALl’ennesima epidemia si mise così a fare una ricerca a tappeto per scoprire qual era la compagnia dell’acqua che serviva le case dove c’erano stati casi di colera – sì, allora c’erano compagnie concorrenti – e confrontando dati e date riuscì a scoprire la fonte contaminata iniziale da cui la malattia iniziò a propagarsi e mietere vittime. In questo modo in seguito si riuscì a bloccare i focolai di infezione sul nascere.
Nel 2009, quando arrivò l’allarme dell’influenza aviaria – il famigerato ceppo H1N1 – negli USA il CDC (centro per controllo e prevenzione delle malattie) avrebbe voluto monitorare i dati sulle persone colpite da influenza, ma si accorsero che i risultati erano sempre in ritardo di un paio di settimane, a causa dei problemi nel raccoglierli e smistarli. A Google decisero però un altro approccio: fecero un match tra le 50 milioni di ricerche più comuni sui suoi server e i dati delle ondate di influenza tra il 2003 e il 2008. L’idea è che chi ha l’influenza fa una ricerca su cosa può prendere per curarsi. Trovato un elenco di 45 stringhe di ricerca con la correlazione maggiore, iniziò a controllarli: i risultati vennero così ottenuti in tempo reale.
La storia si ripete, a distanza di 150 anni e limitandosi a sfruttare i metodi moderni? Macché. I due episodi sono completamente diversi, anche se il risultato è lo stesso. Nel primo caso, Snow ebbe un’intuizione (il colera è colpa dell’acqua malsana), raccolse i dati e verificò che l’intuizione avesse un senso: che ci fosse cioè un rapporto causa-effetto tra linea servita da una conduttura dell’acquedotto e casi di colera. Nel secondo caso non c’è nulla di tutto questo: a parte che le ricerche web sull’influenza sono un effetto – non una causa – dell’avere l’influenza, tanto a Google ciò non importava affatto. Quello che contava non era infatti trovare un rapporto causa-effetto, ma una correlazione tra due fatti. Se una delle 45 stringhe fosse stata “the Simpsons”, nessuno avrebbe battuto ciglio, né si sarebbe messo a cercare che cosa legasse Homer Simpson al naso che cola. Anzi, non è nemmeno detto che qualcuno si prenda la briga di verificare quali sono le stringhe correlate: basta che funzionino, e siamo tutti contenti.
Ecco. La rivoluzione dei Big Data è tutta qui: il cambio di paradigma, da predizione a correlazione. Naturalmente ci sono premesse e conseguenze di questa frasetta, ed esse sono le caratteristiche che si vedono più facilmente: però sono appunto lemmi e corollari, non il teorema principale. Vediamone alcune.
Perché i Big Data nascono adesso? semplice.
- Abbiamo a disposizione una quantità enorme di dati, in formato digitale, e questi dati crescono sempre più. Viktor Mayer-Schönberger e Kenneth N. Cukier, nel loro libro Big data: Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, raccontano che mentre nella precedente rivoluzione paradigmatica – quella della stampa a caratteri mobili – ci vollero cinquant’anni per raddoppiare la quantità di informazione presente in Europa, ora il raddoppio avviene ogni tre anni.
- Abbiamo a disposizione una quantità ancora più enorme di potenza di calcolo. Sempre Mayer-Schönberger e Cukier affermano che nel 1986 il 40% della potenza di calcolo globale era data… dalle calcolatrici digitali, ma oggi la cosa è completamente diversa: soprattutto l’aumento della potenza di calcolo è maggiore di quello dell’informazione prodotta, e quindi le cose si semplificano.
Ma non tutto è oro quello che luccica: non è che basta prendere tanti dati e tanta potenza di calcolo per ottenere dei risultati, come sa bene chi guarda le previsioni del tempo.
- I dati che abbiamo sono “sporchi”: non abbiamo la possibilità di verificare se c’è qualcosa da togliere, perché per farlo dovremmo usare una rete semantica e nonostante quello che si sente dire in giro non esiste ancora. Pertanto siamo costretti a tenere conto dei possibili errori. Notate la differenza con i campioni statistici, cioè quello che abbiamo fatto negli ultimi cent’anni: non avendo la capacità di usare tutti i dati, la parte faticosa del lavoro era riuscire a sceglierne pochi ma giusti, in modo da essere in grado di trattarli.
- La strutturazione delle basi dati che abbiamo usato fino ad oggi è intrinsecamente basata sulla logica causa-effetto: se non la possiamo / vogliamo / dobbiamo più usare (scegliete voi il vero che preferite) bisogna ripensare anche quella struttura.
Duemilacinquecento anni di filosofia (e di teologia, che è ben diversa dalla religione…) ci hanno cablato in modo tale che ci sembra impossibile che qualcosa possa funzionare senza rapporto di causa-effetto: eppure è così. I motori di ricerca non “divinano” quello che noi stiamo digitando; guardano semplicemente quali sono le ricerche che funzionano di più e te le propongono. I traduttori automatici fanno schifo, lo sappiamo tutti: però da quando hanno lasciato perdere il banale approccio a regole (cat=gatto, on=su, is=è table=tavolo, the=(articolo), il che porta a “the cat is on the table” = “il gatto è su il tavolo”) e sono passati a un approccio ibrido statistico ora fanno un po’ meno schifo e si riesce ad avere una seppur minima idea di quello che c’è scritto.
Insomma, avere tanti dati a disposizione è una condizione necessaria, ma non sufficiente per tirarci fuori qualcosa di utile: un’altra condizione necessaria è avere idee da testare e verificare. Le idee devono naturalmente essere non-standard: se fossero standard ricadremmo nella logica causa-effetto, e allora i Big Data tornano a essere controproducenti perché dobbiamo metterci a ripulirli. Serve altro? Magari ne parlerò un’altra volta.