Category Archives: big data

la grande truffa del ventunesimo secolo?

Big Data: cosa NON sono

Eccovi due storie apparentemente simili, avvenute a distanza di un secolo e mezzo. Intorno alla metà del XIX secolo, Londra era regolarmente colpita da epidemie di colera. Ai tempi non si conosceva ancora la causa della malattia, anzi non si immaginava neppure l’esistenza dei batteri: un medico, John Snow, ebbe però l’idea che potesse essere dovuta alla cattiva qualità dell’acqua. ALl’ennesima epidemia si mise così a fare una ricerca a tappeto per scoprire qual era la compagnia dell’acqua che serviva le case dove c’erano stati casi di colera – sì, allora c’erano compagnie concorrenti – e confrontando dati e date riuscì a scoprire la fonte contaminata iniziale da cui la malattia iniziò a propagarsi e mietere vittime. In questo modo in seguito si riuscì a bloccare i focolai di infezione sul nascere.
Nel 2009, quando arrivò l’allarme dell’influenza aviaria – il famigerato ceppo H1N1 – negli USA il CDC (centro per controllo e prevenzione delle malattie) avrebbe voluto monitorare i dati sulle persone colpite da influenza, ma si accorsero che i risultati erano sempre in ritardo di un paio di settimane, a causa dei problemi nel raccoglierli e smistarli. A Google decisero però un altro approccio: fecero un match tra le 50 milioni di ricerche più comuni sui suoi server e i dati delle ondate di influenza tra il 2003 e il 2008. L’idea è che chi ha l’influenza fa una ricerca su cosa può prendere per curarsi. Trovato un elenco di 45 stringhe di ricerca con la correlazione maggiore, iniziò a controllarli: i risultati vennero così ottenuti in tempo reale.
Continue reading Big Data: cosa NON sono

Google Flu Trends non sta tanto bene

Uno dei maggiori successi che gli estimatori dell’utilità dei Big Data citano a ogni piè sospinto è il progetto Google Flu Trends: un insieme di stringhe di ricerca sul motore di ricerca che permette di stimare le epidemie di influenza negli Stati Uniti molto più velocemente di quanto riesca a fare il CDC (Centers for Disease Control and Prevention). Più precisamente, Google Flu Trends predice il numero di visite ai medici a causa di un’influenza, senza attendere i dati ottenuti direttamente dal CDC, che ovviamente deve aspettare che vengano raccolte ed elaborate le relazioni dei medici. Google invece vede in tempo reale le ricerche legate – o meglio, correlate – a un’epidemia di influenza e dà il suo responso: non solo per gli USA, ma anche per varie nazioni in tutto il mondo, dalla Francia che è stata la prima a dotarsi di un sistema di misurazione in formato elettronico alla Russia.

[previsioni di epidemia di influenza, da Google Flu Trends]

Tutto bene, insomma? Mica tanto. È notizia di questi giorni (qui il link di New Scientist, qui invece una segnalazione dallo Scientific American) che quest’anno le previsioni sono state sbagliate, come del resto l’anno scorso e due anni fa. Insomma sono tre anni di fila che Google Flu Trends sbaglia le previsioni: l’anno scorso, riportava Nature, ha sovrastimato i casi di influenza realmente capitati, prevedendone quasi il doppio. Se volessimo malignare, potremmo affermare che le previsioni sono state corrette solo per il tempo strettamente necessario a pubblicare i primi articoli e libri sul tema, e sfruttare poi l'”effetto copincolla” per farlo diventare un articolo di fede. “Ma certo che è vero! Guarda in quanti ne parlano, ed è persino citato l’articolo con i risultati originali!”

Continue reading Google Flu Trends non sta tanto bene