{"id":36,"date":"2013-12-10T00:03:22","date_gmt":"2013-12-09T23:03:22","guid":{"rendered":"http:\/\/xmau.com\/wp\/voices\/2013\/12\/10\/big_data_cosa_non_sono\/"},"modified":"2014-10-23T10:56:37","modified_gmt":"2014-10-23T09:56:37","slug":"big_data_cosa_non_sono","status":"publish","type":"post","link":"https:\/\/xmau.com\/voices\/2013\/12\/big_data_cosa_non_sono\/","title":{"rendered":"Big Data: cosa NON sono"},"content":{"rendered":"<p>Eccovi due storie apparentemente simili, avvenute a distanza di un secolo e mezzo. Intorno alla met\u00e0 del XIX secolo, Londra era regolarmente colpita da epidemie di colera. Ai tempi non si conosceva ancora la causa della malattia, anzi non si immaginava neppure l&#8217;esistenza dei batteri: un medico, John Snow, ebbe per\u00f2 l&#8217;idea che potesse essere dovuta alla cattiva qualit\u00e0 dell&#8217;acqua. ALl&#8217;ennesima epidemia si mise cos\u00ec a fare una ricerca a tappeto per scoprire qual era la compagnia dell&#8217;acqua che serviva le case dove c&#8217;erano stati casi di colera &#8211; s\u00ec, allora c&#8217;erano compagnie concorrenti &#8211; e confrontando dati e date riusc\u00ec a scoprire la fonte contaminata iniziale da cui la malattia inizi\u00f2 a propagarsi e mietere vittime. In questo modo in seguito si riusc\u00ec a bloccare i focolai di infezione sul nascere.<br \/>\nNel 2009, quando arriv\u00f2 l&#8217;allarme dell&#8217;influenza aviaria &#8211; il famigerato ceppo H1N1 &#8211; negli USA il CDC (centro per controllo e prevenzione delle malattie) avrebbe voluto monitorare i dati sulle persone colpite da influenza, ma si accorsero che i risultati erano sempre in ritardo di un paio di settimane, a causa dei problemi nel raccoglierli e smistarli. A Google decisero per\u00f2 un altro approccio: fecero un match tra le 50 milioni di ricerche pi\u00f9 comuni sui suoi server e i dati delle ondate di influenza tra il 2003 e il 2008. L&#8217;idea \u00e8 che chi ha l&#8217;influenza fa una ricerca su cosa pu\u00f2 prendere per curarsi. Trovato un elenco di 45 stringhe di ricerca con la correlazione maggiore, inizi\u00f2 a controllarli: i risultati vennero cos\u00ec ottenuti in tempo reale.<br \/>\n<!--more-->La storia si ripete, a distanza di 150 anni e limitandosi a sfruttare i metodi moderni? Macch\u00e9. I due episodi sono completamente diversi, anche se il risultato \u00e8 lo stesso. Nel primo caso, Snow ebbe un&#8217;intuizione (il colera \u00e8 colpa dell&#8217;acqua malsana), raccolse i dati e verific\u00f2 che l&#8217;intuizione avesse un senso: che ci fosse cio\u00e8 un rapporto causa-effetto tra linea servita da una conduttura dell&#8217;acquedotto e casi di colera. Nel secondo caso non c&#8217;\u00e8 nulla di tutto questo: a parte che le ricerche web sull&#8217;influenza sono un effetto &#8211; non una causa &#8211; dell&#8217;avere l&#8217;influenza, tanto a Google ci\u00f2 non importava affatto. Quello che contava non era infatti trovare un rapporto causa-effetto, ma una correlazione tra due fatti. Se una delle 45 stringhe fosse stata &#8220;the Simpsons&#8221;, nessuno avrebbe battuto ciglio, n\u00e9 si sarebbe messo a cercare che cosa legasse Homer Simpson al naso che cola. Anzi, non \u00e8 nemmeno detto che qualcuno si prenda la briga di verificare quali sono le stringhe correlate: basta che funzionino, e siamo tutti contenti.<br \/>\nEcco. La rivoluzione dei Big Data \u00e8 tutta qui: il cambio di paradigma, <b>da predizione a correlazione<\/b>. Naturalmente ci sono premesse e conseguenze di questa frasetta, ed esse sono le caratteristiche che si vedono pi\u00f9 facilmente: per\u00f2 sono appunto lemmi e corollari, non il teorema principale. Vediamone alcune.<br \/>\nPerch\u00e9 i Big Data nascono adesso? semplice.<\/p>\n<ul>\n<li>Abbiamo a disposizione una quantit\u00e0 enorme di dati, in formato digitale, e questi dati crescono sempre pi\u00f9. Viktor Mayer-Sch\u00f6nberger e Kenneth N. Cukier, nel loro libro <a href=\"http:\/\/www.amazon.it\/dp\/8811682479\/?tag=notizioledima-21\">Big data: Una rivoluzione che trasformer\u00e0 il nostro modo di vivere e gi\u00e0 minaccia la nostra libert\u00e0<\/a>, raccontano che mentre nella precedente rivoluzione paradigmatica &#8211; quella della stampa a caratteri mobili &#8211; ci vollero cinquant&#8217;anni per raddoppiare la quantit\u00e0 di informazione presente in Europa, ora il raddoppio avviene ogni <b>tre<\/b> anni.<\/li>\n<li>Abbiamo a disposizione una quantit\u00e0 ancora pi\u00f9 enorme di potenza di calcolo. Sempre Mayer-Sch\u00f6nberger e Cukier affermano che nel 1986 il 40% della potenza di calcolo globale era data&#8230; dalle calcolatrici digitali, ma oggi la cosa \u00e8 completamente diversa: soprattutto l&#8217;aumento della potenza di calcolo \u00e8 maggiore di quello dell&#8217;informazione prodotta, e quindi le cose si semplificano.<\/li>\n<\/ul>\n<p>Ma non tutto \u00e8 oro quello che luccica: non \u00e8 che basta prendere tanti dati e tanta potenza di calcolo per ottenere dei risultati, come sa bene chi guarda le previsioni del tempo.<\/p>\n<ul>\n<li>I dati che abbiamo sono &#8220;sporchi&#8221;: non abbiamo la possibilit\u00e0 di verificare se c&#8217;\u00e8 qualcosa da togliere, perch\u00e9 per farlo dovremmo usare una rete semantica e nonostante quello che si sente dire in giro non esiste ancora. Pertanto siamo costretti a tenere conto dei possibili errori. Notate la differenza con i campioni statistici, cio\u00e8 quello che abbiamo fatto negli ultimi cent&#8217;anni: non avendo la capacit\u00e0 di usare tutti i dati, la parte faticosa del lavoro era riuscire a sceglierne pochi ma giusti, in modo da essere in grado di trattarli.<\/li>\n<li>La strutturazione delle basi dati che abbiamo usato fino ad oggi \u00e8 intrinsecamente basata sulla logica causa-effetto: se non la possiamo \/ vogliamo \/ dobbiamo pi\u00f9 usare (scegliete voi il vero che preferite) bisogna ripensare anche quella struttura.<\/li>\n<\/ul>\n<p>Duemilacinquecento anni di filosofia (e di teologia, che \u00e8 ben diversa dalla religione&#8230;) ci hanno cablato in modo tale che ci sembra impossibile che qualcosa possa funzionare senza rapporto di causa-effetto: eppure \u00e8 cos\u00ec. I motori di ricerca non &#8220;divinano&#8221; quello che noi stiamo digitando; guardano semplicemente quali sono le ricerche che funzionano di pi\u00f9 e te le propongono. I traduttori automatici fanno schifo, lo sappiamo tutti: per\u00f2 da quando hanno lasciato perdere il banale approccio a regole (cat=gatto, on=su, is=\u00e8 table=tavolo, the=(articolo), il che porta a &#8220;the cat is on the table&#8221; = &#8220;il gatto \u00e8 su il tavolo&#8221;) e sono passati a un approccio ibrido statistico ora fanno un po&#8217; meno schifo e si riesce ad avere una seppur minima idea di quello che c&#8217;\u00e8 scritto.<br \/>\nInsomma, avere tanti dati a disposizione \u00e8 una condizione necessaria, ma non sufficiente per tirarci fuori qualcosa di utile: un&#8217;altra condizione necessaria \u00e8 avere idee da testare e verificare. Le idee devono naturalmente essere non-standard: se fossero standard ricadremmo nella logica causa-effetto, e allora i Big Data tornano a essere controproducenti perch\u00e9 dobbiamo metterci a ripulirli. Serve altro? Magari ne parler\u00f2 un&#8217;altra volta.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Si parla tanto di Big Data, ma non si spiega quasi mai qual \u00e8 la rottura del paradigma che essi portano. Bisogna proprio pensare in maniera diversa!<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"activitypub_content_warning":"","activitypub_content_visibility":"","activitypub_max_image_attachments":4,"activitypub_interaction_policy_quote":"anyone","activitypub_status":"","footnotes":"","jetpack_post_was_ever_published":false},"categories":[13],"tags":[],"class_list":["post-36","post","type-post","status-publish","format-standard","hentry","category-bigdata"],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/phh2za-A","jetpack-related-posts":[],"_links":{"self":[{"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/posts\/36","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/comments?post=36"}],"version-history":[{"count":1,"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/posts\/36\/revisions"}],"predecessor-version":[{"id":71,"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/posts\/36\/revisions\/71"}],"wp:attachment":[{"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/media?parent=36"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/categories?post=36"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/xmau.com\/voices\/wp-json\/wp\/v2\/tags?post=36"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}