Eccovi due storie apparentemente simili, avvenute a distanza di un secolo e mezzo. Intorno alla metà del XIX secolo, Londra era regolarmente colpita da epidemie di colera. Ai tempi non si conosceva ancora la causa della malattia, anzi non si immaginava neppure l’esistenza dei batteri: un medico, John Snow, ebbe però l’idea che potesse essere dovuta alla cattiva qualità dell’acqua. ALl’ennesima epidemia si mise così a fare una ricerca a tappeto per scoprire qual era la compagnia dell’acqua che serviva le case dove c’erano stati casi di colera – sì, allora c’erano compagnie concorrenti – e confrontando dati e date riuscì a scoprire la fonte contaminata iniziale da cui la malattia iniziò a propagarsi e mietere vittime. In questo modo in seguito si riuscì a bloccare i focolai di infezione sul nascere.
Nel 2009, quando arrivò l’allarme dell’influenza aviaria – il famigerato ceppo H1N1 – negli USA il CDC (centro per controllo e prevenzione delle malattie) avrebbe voluto monitorare i dati sulle persone colpite da influenza, ma si accorsero che i risultati erano sempre in ritardo di un paio di settimane, a causa dei problemi nel raccoglierli e smistarli. A Google decisero però un altro approccio: fecero un match tra le 50 milioni di ricerche più comuni sui suoi server e i dati delle ondate di influenza tra il 2003 e il 2008. L’idea è che chi ha l’influenza fa una ricerca su cosa può prendere per curarsi. Trovato un elenco di 45 stringhe di ricerca con la correlazione maggiore, iniziò a controllarli: i risultati vennero così ottenuti in tempo reale.
Continue reading Big Data: cosa NON sono