saper leggere le statistiche

Qualche giorno fa ISTAT, in collaborazione con l’Istituto Superiore di Sanità ha pubblicato un dossier sul numero di morti nel primo trimestre 2020 relativo a una gran parte dei comuni italiani (87% in numero e 86% come popolazione). Anche se non completi, sono assolutamente significativi: non si deve nemmeno più parlare di campione, con questi numeri. Che si è scoperto? Che in media a marzo in Italia c’è stato il 49% di morti in più rispetto alla media dei cinque anni precedenti, e che in certe province l’aumento è stato terribile: Bergamo (568%), Cremona (391%), Lodi (371%), Brescia (291%), Piacenza (264%), Parma (208%), Lecco (174%), Pavia (133%), Mantova (122%), Pesaro
e Urbino (120%). In compenso nella provincia di Roma c’è stato il 9% di morti in meno rispetto alla media degli anni precedenti. Cosa possiamo dedurre da tutto questo? Parecchio, anche se alcune di queste cose si potevano immaginare lo stesso, se si sa un po’ di matematica.

La prima cosa da far presente è smontare una volta per tutte la bufala che girava a inizio aprile, dicendo che nel primo trimestre era morta meno gente dell’anno precedente, e di cui aveva parlato anche il Post. La prima volta che l’ho vista sono andato sul sito italiaora.org usato per prendere i dati da comparare, e il fatto stesso che fossero dati che cambiano in tempo reale mi ha fatto immaginare che quelle erano semplici proiezioni, non tarate sul picco dei morti perché i dati non c’erano ancora. Ma del resto com’è possibile che a nessuno venga in mente che usare due fonti diverse per i dati 2019 e 2020 può portare a qualche problema?

Ma credo che sia altrettanto importante, se non persino di più, dare un’occhiata a come si fanno le statistiche. Per prima cosa, ISTAT non ha confrontato il 2020 con il 2019, ma con la media dei cinque anni precedenti. Perché? Semplice. Ci sono sempre fluttuazioni da un anno all’altro, dovute a eventi eccezionali – quest’anno CoViD-19, nel 2003 l’ondata di caldo – oppure eventi ricorrenti che non avvengono sempre allo stesso modo; per esempio, l’influenza “normale” quest’anno è meno virulenta e quindi stava facendo meno morti. Prendere un certo numero di anni precedenti e fare la media permette di smussare i picchi e avere una base di partenza più oggettiva. La seconda cosa è il buon vecchio pollo di Trilussa: un dato medio da solo dice molto poco, perché non sappiamo la distribuzione dei dati parziali che porta a quella media. Personalmente non parlerei nemmeno del +49% su base nazionale, perché non significa nulla. Scendendo a livello di provincia, le deviazioni dalla norma cominciano a diventare interessanti, soprattutto quando sono grandi. Il -9% di Roma conta poco; ma non conta molto nemmeno il +13% di Bari, indipentemente dal fatto che il numero ufficiale di morti per Covid in marzo è il 3% del totale. Superare il 100% rispetto alla media degli anni precedenti, invece, fa subito pensare a una causa esterna e che il numero ufficiale di morti a causa Covid è con ogni probabilità sottostimato. Infine, c’è una discreta correlazione tra zone dell’Italia e cambio del numero di morti, il che avrebbe dovuto far pensare a un rilassamento del lockdown in tempi separati, con noi lombardi che per esempio restiamo ancora bloccati e le regioni del Sud che cominciano a ripartire. Perché non lo si fa? Posso immaginare di chi sia la colpa, ma non lo posso dire :-) Quello che si può dire è però che se si sa leggere una statistica si imparano molte cose….

8 comments

  1. tra le cose interessanti, e istruttive, il dato del gap percentuale a Piacenza-Parma_Reggio_Modena…a scalare. Un altro dato, minore, che non è stato preso in esame, o che non ho notato leggendo il report, è che, col lockdown, sicuramente sono calati i decessi per incidenti stradali, infortuni sul lavoro… Un numero piccolo, ma c’è anche quello

    • a marzo 2019 saranno morte tra le 60000 e le 70000 persone. I morti sul lavoro in tutto il 2019 sono stati 1089; i morti per incidenti stradali nel 2018 sono stati 3334. Sono numeri troppo piccoli per fare la differenza.

  2. E’ molto istruttivo vedere la conta dei morti per stato e confrontarli, specie per mettere in luce meglio come vanno gli stati europei, al di la’ dei proclami ufficiali.

  3. Quando c’erano circa 1000 vittime al giorno avevo provato a fare i conti della serva.
    In Italia siamo 60 milioni, con vita media 80 anni.
    Semplificando considero una vita esattamente di 80 anni per tutti.
    In questo caso nei prossimi 80 anni moriranno tutti coloro che sono vivi oggi, e solo loro.
    Facendo il calcolo fa circa 2000 morti al giorno.
    Forse il calcolo e’ sbagliato ed e’ stata solo fortuna, non so …

    • è una buona prima approssimazione. Se stiamo facendo calcoli spannometrici va più che bene, la proponeva anche Brian Kernighan nel suo Millions, Billions, Zillions.

  4. In Germania, i dati fino al 12 aprile mostrano solo da fine marzo in poi un lieve eccesso di mortalità rispetto alla media dei 5 anni precedenti, più accentuato nei Länder o Kreisen dove ci sono stati focolai di Covid 19.
    Dato che però le vittime di Covid in genere muoiono parecchio tempo dopo l’insorgere dell’infezione, probabilmente si vedrà un incremento.
    Il tasso percentuale è cmq molto inferiore a quello italiano.
    https://www.destatis.de/DE/Themen/Querschnitt/Corona/Gesellschaft/bevoelkerung-sterbefaelle.html
    https://www.welt.de/vermischtes/article207835277/Corona-Daten-weisen-auf-Uebersterblichkeit-in-Deutschland-hin.html?cid=onsite.onsitesearch

  5. Sì, il lavoro sui dati statistici è oramai chiaro, nonostante tutti i difetti dei dati disponibili sembra un (tragico) capitolo chiuso. Poco dopo la fase della “psicosi” ricordo quella del “ne muoiono pochi e tutti già malati” che però finì presto. Ora il problema però è quanti moriranno per via del MES e, guardando alla crisi greca, ci vorranno anni anche solo per osare ipotizzare che esista un simile dato!