{"id":47,"date":"2014-03-16T18:05:00","date_gmt":"2014-03-16T17:05:00","guid":{"rendered":"http:\/\/xmau.com\/wp\/voices\/?p=47"},"modified":"2014-10-23T10:54:18","modified_gmt":"2014-10-23T09:54:18","slug":"google-flu-non-sta-tanto-bene","status":"publish","type":"post","link":"https:\/\/xmau.com\/wp\/voices\/2014\/03\/google-flu-non-sta-tanto-bene\/","title":{"rendered":"Google Flu Trends non sta tanto bene"},"content":{"rendered":"<p>Uno dei maggiori successi che gli estimatori dell&#8217;utilit\u00e0 dei Big Data citano a ogni pi\u00e8 sospinto \u00e8 il progetto <a href=\"http:\/\/www.google.org\/flutrends\/\">Google Flu Trends<\/a>: un insieme di stringhe di ricerca sul motore di ricerca che permette di stimare le epidemie di influenza negli Stati Uniti molto pi\u00f9 velocemente di quanto riesca a fare il CDC (Centers for Disease Control and Prevention). Pi\u00f9 precisamente, Google Flu Trends predice il numero di visite ai medici a causa di un&#8217;influenza, senza attendere i dati ottenuti direttamente dal CDC, che ovviamente deve aspettare che vengano raccolte ed elaborate le relazioni dei medici. Google invece vede in tempo reale le ricerche legate &#8211; o meglio, <i>correlate<\/i> &#8211; a un&#8217;epidemia di influenza e d\u00e0 il suo responso: non solo per gli USA, ma anche per varie nazioni in tutto il mondo, dalla Francia che \u00e8 stata la prima a dotarsi di un sistema di misurazione in formato elettronico alla Russia. <\/p>\n<p><a href=\"https:\/\/i0.wp.com\/xmau.com\/wp\/voices\/wp-content\/uploads\/sites\/10\/2014\/03\/googleflu.png\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" data-attachment-id=\"50\" data-permalink=\"https:\/\/xmau.com\/wp\/voices\/2014\/03\/google-flu-non-sta-tanto-bene\/googleflu\/\" data-orig-file=\"https:\/\/i0.wp.com\/xmau.com\/wp\/voices\/wp-content\/uploads\/sites\/10\/2014\/03\/googleflu.png?fit=988%2C629&amp;ssl=1\" data-orig-size=\"988,629\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;}\" data-image-title=\"googleflu\" data-image-description=\"&lt;p&gt;la home page di Google Flu Trend&lt;\/p&gt;\n\" data-image-caption=\"\" data-large-file=\"https:\/\/i0.wp.com\/xmau.com\/wp\/voices\/wp-content\/uploads\/sites\/10\/2014\/03\/googleflu.png?fit=474%2C302&amp;ssl=1\" src=\"https:\/\/i0.wp.com\/xmau.com\/wp\/voices\/wp-content\/uploads\/sites\/10\/2014\/03\/googleflu.png?resize=300%2C190\" alt=\"[previsioni di epidemia di influenza, da Google Flu Trends]\" width=\"300\" height=\"190\" class=\"aligncenter size-medium wp-image-50\" srcset=\"https:\/\/i0.wp.com\/xmau.com\/wp\/voices\/wp-content\/uploads\/sites\/10\/2014\/03\/googleflu.png?resize=300%2C190&amp;ssl=1 300w, https:\/\/i0.wp.com\/xmau.com\/wp\/voices\/wp-content\/uploads\/sites\/10\/2014\/03\/googleflu.png?w=988&amp;ssl=1 988w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<p>Tutto bene, insomma? Mica tanto. \u00c8 notizia di questi giorni (<a href=\"http:\/\/www.newscientist.com\/article\/dn25217-google-flu-trends-gets-it-wrong-three-years-running.html\">qui<\/a> il link di New Scientist, <a href=\"http:\/\/blogs.scientificamerican.com\/observations\/2014\/03\/13\/why-big-data-isnt-necessarily-better-data\/\">qui<\/a> invece una segnalazione dallo Scientific American) che quest&#8217;anno le previsioni sono state sbagliate, come del resto l&#8217;anno scorso e due anni fa. Insomma sono tre anni di fila che Google Flu Trends sbaglia le previsioni: l&#8217;anno scorso, <a href=\"http:\/\/www.nature.com\/news\/when-google-got-flu-wrong-1.12413http:\/\/\">riportava Nature<\/a>, ha sovrastimato i casi di influenza realmente capitati, prevedendone quasi il doppio. Se volessimo malignare, potremmo affermare che le previsioni sono state corrette solo per il tempo strettamente necessario a pubblicare i primi articoli e libri sul tema, e sfruttare poi l'&#8221;effetto copincolla&#8221; per farlo diventare un articolo di fede. &#8220;Ma certo che \u00e8 vero! Guarda in quanti ne parlano, ed \u00e8 persino citato l&#8217;articolo con i risultati originali!&#8221;<\/p>\n<p><!--more-->Questa debacle dimostra che i Big Data sono solo il prodotto di un hype, e non hanno alcuna rilevanza pratica? Beh, no. Guardando i risultati in altri campi, i programmi che giocano a scacchi sfruttano enormi basi dati, e sconfiggono anche i migliori grandi maestri. La traduzione automatica, come anche il riconoscimento del parlato, hanno fatto passi da gigante da quando l&#8217;approccio a regole \u00e8 stato integrato da un &#8220;banale&#8221; motore di inferenza puramente statistica, senza alcuna conoscenza semantica. Qualcosa di buono, insomma, c&#8217;\u00e8: ma evidentemente non \u00e8 ancora <i>cos\u00ec<\/i> buono. Cosa pu\u00f2 essere andato male? Ecco qualche possibile ipotesi.<\/p>\n<p>Innanzitutto, i risultati ottenuti potrebbero semplicemente essere stati frutti del <b>caso<\/b>. Le tecniche predittive di Google sono in fin dei conti puramente statistiche: pu\u00f2 darsi che nei primi anni le cose siano andate bene, ma ora ci sia stata una striscia negativa. (Una doverosa parentesi: tutto questo non ha assolutamente nulla a che fare con la legge dei grandi numeri, o meglio con il modo in cui viene abitualmente presentata da sedicenti divulgatori che non sanno nulla di ci\u00f2 che stanno spiegando. Non \u00e8 che se i primi risultati erano positivi allora i seguenti devono per forza essere negativi: possono essere positivi o negativi con le stesse probabilit\u00e0 iniziali, solo che noi siamo implicitamente convinti che i primi risultati non fossero casuali e allora abbiamo un bias. Martin Gardner aveva spiegato molto bene la ragione per cui i sostenitori del paranormale affermavano che molti &#8220;sensitivi&#8221; perdevano dopo qualche tempo le loro doti: \u00e8 un banale effetto della probabilit\u00e0 condizionata. Fine della parentesi). A me tale ipotesi pare per\u00f2 un po&#8217; troppo semplicistica. \u00c8 vero che alcune delle chiavi di ricerca usate da Google Flu Trends erano a prima vista improbabili, ed \u00e8 vero che uno dei paradigmi dei Big Data \u00e8 il mantra &#8220;correlazione, non causa-effetto; ma molte altre chiavi sono plausibili, e non si vede perch\u00e9 il caso dovrebbe giocare un ruolo cos\u00ec importante.<\/p>\n<p>Il secondo motivo per questi errori, immagino il pi\u00f9 amato dai fautori dei Big Data, \u00e8 che <b>i dati non erano sufficienti<\/b>, o perlomeno sono da tarare. Un portavoce di Google, secondo l&#8217;articolo sullo Scientific American, ha dichiarato che \u00abNoi riesaminiano il modello di Google Flu Trends ogni anno, per vedere come migliorarlo. L&#8217;ultimo aggiornamento \u00e8 stato fatto nell&#8217;ottobre 2013 per la stagione 2013-14\u00bb. \u00c8 chiaro che per trovare le correlazioni iniziali tra ricerche su Google ed epidemie di influenza \u00e8 stato necessario mappare le osservazioni &#8211; le ricerche, cio\u00e8 &#8211; del passato con i dati ufficiali sui focolai di epidemia. Ma \u00e8 da relativamente poco tempo che la massa di dati relativi alle ricerche \u00e8 sufficiente per avvalorare l&#8217;ipotesi su cui i Big Data si basano, cio\u00e8 che i dati a disposizione siano cos\u00ec tanti da poter trovare correlazioni senza dovere usare tecniche statistiche; quindi non si deve fare altro che tarare nuovamente gli algoritmi, tenendo conto dei nuovi dati ottenuti nel frattempo. Anche se questa ipotesi \u00e8 a prima vista allettante, a uno sguardo pi\u00f9 attento ci si accorge che \u00e8 rovinosa. Se non abbiamo alcun modo per valutare a priori quanto grandi devono essere i Big Data per assicurarci di ottenere risultati validi, allora usarli non ha nessun senso: ci troveremmo nella situazione dell&#8217;allenatore di calcio che afferma &#8220;se la squadra vince \u00e8 merito dei miei schemi, se perde la colpa \u00e8 vostra che non li avete applicati&#8221;. Sono capace anch&#8217;io a fare previsioni cos\u00ec.<\/p>\n<p>C&#8217;\u00e8 poi una terza ipotesi, che in un certo senso \u00e8 molto pi\u00f9 preoccupante per il &#8220;modello Big Data&#8221;: l&#8217;<b>ingresso del feedback<\/b>. Il fatto che il grande pubblico sia venuto a conoscenza dell&#8217;algoritmo di Google Flu Trends &#8211; beh, non l&#8217;algoritmo vero e proprio ma la sua esistenza e la sua composizione almeno a grandi linee &#8211; fa s\u00ec che le ricerche siano influenzate \ud83d\ude42 da questa conoscenza. In due parole: pi\u00f9 se ne parla, peggio funziona, come suggerito da <a href=\"https:\/\/drive.google.com\/file\/d\/0B1Ul69AUsTn1WWdJUnJFYnNDbkk\/preview\">questo articolo<\/a>. Un esempio banale pu\u00f2 spiegare meglio la cosa: se sento tanta gente parlare dell&#8217;ultimo video virale mi viene voglia di andare a vederlo, e faccio cos\u00ec diventare il video ancora pi\u00f9 virale. Calcolare l&#8217;effetto del feedback e tarare gli algoritmi per tenerne conto pu\u00f2 rivelarsi impossibile: dopo che negli anni &#8217;20 del secolo scorso Lotka e Volterra studiarono le equazioni che regolano il <a href=\"https:\/\/it.wikipedia.org\/wiki\/Equazioni_di_Lotka-Volterra\">rapporto preda-predatore<\/a>, si \u00e8 scoperto che passando da due a cinque specie \u00e8 possibile giungere rapidamente al caos in senso matematico, cio\u00e8 all&#8217;impredicibilit\u00e0 dell&#8217;evoluzione delle popolazioni. Isaac Asimov, che nel suo Ciclo della Fondazione aveva previsto in maniera incredibilmente valida i Big Data con la sua psicostoria, lo spiegava bene: perch\u00e9 la Seconda Fondazione potesse assicurare con il suo operato che la Galassia seguisse il percorso tracciato da Hari Seldon, essa doveva rimanere sconosciuta a tutti &#8220;per non perturbare le equazioni&#8221;. Insomma, perch\u00e9 i modelli basati sui Big Data funzionino non basta che i dati siano disponibili a tutti; ma occorre anche che nessuno sappia come vengano usati. Non so voi, ma &#8220;i Poteri Che Nessuno Sa Essere Quelli Davvero Forti&#8221; mi preoccupano molto pi\u00f9 dei comuni &#8220;poteri forti&#8221;.<\/p>\n<p>Il mio punto di vista, infine, \u00e8 molto pi\u00f9 pragmatico e pu\u00f2 venire riassunto dallo slogan <b>good enough<\/b>. I Big Data funzionano. Funzionano molto meglio di quanto potessimo ingenuamente immaginare prima di averli messi in pratica. Diciamo che funzionano sufficientemente bene. Ecco: la parola magica \u00e8 il &#8220;abbastanza&#8221;. Io posso dare in pasto a Google Translate un testo di un quotidiano scritto in cinese e ottenere un risultato non completamente incomprensibile: ma ci devo mettere molto del mio per ricavarne un senso. Visto alla rovescia, anche se io non sono certo un madrelingua inglese le mie traduzioni dall&#8217;italiano sono migliori di quelle di Google Translate, e qualcosa questo lo vorr\u00e0 ben dire. Spero che non sia wishful thinking, ma la mia sensazione \u00e8 che finch\u00e9 ci troviamo in un dominio molto limitato le macchine ci supereranno senza problemi, e per esempio sto aspettando il momento in cui il migliore giocatore di Go sia un computer; ma nella maggior parte dei casi saremo noi umani a dover prendere i dati e usare la nostra intelligenza naturale in unione all&#8217;intelligenza artificiale dei computer per ottenere risultati davvero utili. L&#8217;approccio puramente statistico all&#8217;intelligenza artificale di questo inizio di ventunesimo secolo \u00e8 stato un miglioramento enorme rispetto all&#8217;approccio &#8220;a regole&#8221; del secolo scorso, ma a mio parere \u00e8 ormai arrivato al capolinea. Avremo ancora anni se non decenni di effetti anche globali legati ai Big Data, ma per avere una vera svolta dovremo aspettare un genio che si inventi una metodologia completamente diversa.<\/p>\n<p>Un&#8217;ultima considerazione: tra le nazioni per cui Google Flu Trends d\u00e0 previsioni non \u00e8 presente l&#8217;Italia. Presumo che il motivo sia che da noi non ci sono enti che forniscono questi dati, o se ci sono non li danno automaticamente a disposizione a Google. Chiss\u00e0 se prima o poi i nostri governi riusciranno a capire non solo l&#8217;importanza dei Big Data ma anche quella degli Open Data, i dati liberamente utilizzabili!<\/p>\n<p>Post Scriptum: gi\u00e0 che stavo parlando di Isaac Asimov e del ciclo della Fondazione, avrei dovuto aggiungere che Google Flu Trends non prevedette l&#8217;epidemia &#8220;anomala&#8221; di influenza del 2009 legata al virus H1N1, quello dell&#8217;aviaria. Non mi pare per\u00f2 giusto dargli chiss\u00e0 quale colpa al riguardo: proprio perch\u00e9 le caratteristiche di quella epidemia non erano standard, un modello predittivo molto probabilmente \u00e8 votato al fallimento. La situazione \u00e8 la stessa che nel ciclo di romanzi del Buon Dottore si ebbe con l&#8217;arrivo del Mulo: un evento singolo impredicibile porta a risultati ancora pi\u00f9 impredicibili. &#8220;Cigno nero&#8221;, nessuno? Chiss\u00e0, forse noi umani saremo ancora per un po&#8217; in grado di rispondere meglio a eventi di questo genere&#8230;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Uno dei maggiori successi che gli estimatori dell&#8217;utilit\u00e0 dei Big Data citano a ogni pi\u00e8 sospinto \u00e8 il progetto Google Flu Trends: un insieme di stringhe di ricerca sul motore di ricerca che permette di stimare le epidemie di influenza negli Stati Uniti molto pi\u00f9 velocemente di quanto riesca a fare il CDC (Centers for &hellip; <a href=\"https:\/\/xmau.com\/wp\/voices\/2014\/03\/google-flu-non-sta-tanto-bene\/\" class=\"more-link\">Continue reading <span class=\"screen-reader-text\">Google Flu Trends non sta tanto bene<\/span> <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","activitypub_content_warning":"","activitypub_content_visibility":"","activitypub_max_image_attachments":4,"activitypub_interaction_policy_quote":"anyone","activitypub_status":"","footnotes":"","jetpack_post_was_ever_published":false},"categories":[13],"tags":[7,6,8],"class_list":["post-47","post","type-post","status-publish","format-standard","hentry","category-bigdata","tag-big-data","tag-google-flu","tag-previsioni"],"modified_by":".mau.","jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/p6hXMn-L","jetpack-related-posts":[],"_links":{"self":[{"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/posts\/47","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/comments?post=47"}],"version-history":[{"count":9,"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/posts\/47\/revisions"}],"predecessor-version":[{"id":57,"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/posts\/47\/revisions\/57"}],"wp:attachment":[{"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/media?parent=47"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/categories?post=47"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/xmau.com\/wp\/voices\/wp-json\/wp\/v2\/tags?post=47"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}