Covid: ancora probabilità malcalcolate

Il mio amico Gabriele mi ha segnalato questo video con una conferenza stampa del presidente dell’Istat Gian Carlo Blangiardi. Nella conferenza, spiega (giustamente) che il valore del 2,5% di sieropositivi ha il vantaggio di essere stato calcolato su un campione statisticamente ben fatto, e aggiunge (sempre giustamente) che c’è una variabilità molto grande tra luogo e luogo. Ma poi termina con “un conto alla buona” (parole sue), dicendo

Se uno in una giornata incontra 20 persone […] ha il 50% circa di probabilità di avere incontrato almeno una persona che sia positiva.

È davvero così? Proviamo a fare i conti.

Il 2,5% di positivi significa che una persona su 40 in media è positiva, quindi 39 persone su 40 non lo sono. Facendo l’ipotesi che tutte e venti le persone che incontriamo siano statisticamente indipendenti, e quindi il fatto che una di loro sia positiva o negativa non ci dice nulla sulle altre 19, la probabilità che tutte loro siano negative è (39/40)^20. Google mi dice che il risultato è 0.6026+; in pratica, qualcosa in più del 60%. Ergo, la probabilità che ci sia almeno un positivo è leggermente meno del 40% (39,7% circa, inutile usare più cifre significative). Per completezza, se non c’è l’indipendenza statistica e per esempio incontriamo due congiunti questa probabilità è ancora minore; ma lasciamo perdere.

Come mai questa differenza? Semplice (si fa per dire…). Se Blangiardi avesse detto “in media avremmo incontrato un positivo” l’affermazione sarebbe stata corretta. La parolina magica in questo è “media”: se siamo sfortunati incontreremo due persone positive e se siamo davvero sfortunati ne incontreremo tre o più. Quindi, come direbbe Trilussa con il suo famoso pollo, la media è di una persona anche se è più probabile non avere incontrare nessun positivo che averne incontrato almeno uno.

Come non mi stancherò mai di ricordare, il cervello umano non si è evoluto per calcolare le probabilità. Agli ominidi non conveniva stimare la probabilità che una tigre dai denti a sciabola li assalisse: era molto meglio stare sul sicuro ed evitare di cacciarsi nei guai. Questo vale anche per chi ha studiato matematica, intendiamoci! Come avete visto, per calcolare la probabilità esatta anch’io ho dovuto fare i conti espliciti, o meglio farli fare a qualcun altro. Quello che si può imparare a fare è però accorgersi che il conto naif non funziona. Ora, è già spiacevole quando un giornalista o un politico cercano di semplificare sbagliando tutto (ricordate Gallera e l’indice di contagio a 0.51?). Ma se lo fa il presidente dell’istituto nazionale di statistica comincio davvero a preoccuparmi.

logistica e rette
Ecco perché usare l’andamento lineare al posto di una logistica non funziona.

Già che ci sono, aggiungo un grafico che forse aiuta a comprendere meglio quanto avevo scritto l’altro giorno sul non usare un’approssimazione lineare sulle curve dei contagi. Come forse ricorderete, un modello semplicistico ma abbastanza corretto della diffusione di un contagio (o di un pettegolezzo…) è la curva logistica. In pratica, all’inizio la diffusione è minima, poi cresce tumultuosamente per tornare ad appiattirsi verso la fine, quando non c’è più quasi nessuno da contagiare.

Nella figura qui a fianco ho sovrapposto alla logistica due rette, che corrispondono ad approssimazioni lineari. Le rette sono più o meno pendenti a seconda di quanto è lunga la fase iniziale e finale della logistica; ma anche nel caso peggiore in cui la retta corrispondesse alla diagonale del quadrato (e quindi l’esplosione della logistica fosse molto più rapida) potete immediatamente notare come la stima lineare sia molto esagerata quando la percentuale di casi sul totale della popolazione è bassa, e sottovalutata quando la percentuale è alta.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.