Medie paradossali

La media aritmetica, di cui ho già parlato in passato, sembra in fin dei conti una cosa piuttosto tranquilla. Sì, è vero che non è sempre proprio il numero migliore per rappresentare schematicamente e con poca spesa un insieme di elementi: una famiglia con 1,6 figli, ad esempio, non la vediamo certo in giro. Però possiamo immaginare che la media aritmetica sia per così dire un numero "stabile", visto che in un certo qual modo tempera gli eccessi dei singoli elementi. Ma non sempre è così! Eccovi tre paradossi, che vanno contro quello che ci aspetteremmo da una funzione per così dire civile.

1. Non è detto che si possa sempre trovare una velocità media

[un viaggio un poco strano]Sappiamo che calcolare la velocità istantanea a cui ci stiamo muovendo non è in realtà possibile, visto che per trovarla dobbiamo dividere lo spazio percorso per il tempo impiegato, e otterremmo un'espressione 0/0. Insomma, Newton e Leibniz, quando hanno inventato il calcolo differenziale, hanno ben avuto dei problemi, no? Quello che facciamo in pratica è calcolare la distanza percorsa in un'intervallo di tempo molto piccolo, calcolare la velocità media in quell'intervallo, e sperare che intanto la velocità sia rimasta costante. Ma anche se la velocità cambia nel tempo, possiamo immaginare che, se ad esempio la velocità media durante un percorso è di 100 Km/h, possiamo trovare un intervallo di un'ora - anche se a priori non si sa a che istante farlo iniziare - in cui si siano percorsi esattamente 100 chilometri. Ovvio, no? Basta fare un grafico spazio-tempo, costruire una finestrella equivalente a un'ora, e spostarla man mano. Scommetto che ci deve anche essere un teorema che si studia in analisi matematica!

Peccato che non sia per nulla vero. Supponiamo di fare un percorso di 250 km in due ore e mezzo, quindi a una media di cento all'ora, alla velocità indicata nella figura qui a fianco: nella prima, terza e quinta mezz'ora andiamo a 92 Km/h, e nella seconda e quarta a 112 Km/h. Prendiamo adesso un qualunque istante iniziale; nell'ora successiva avremo fatto esattamente trenta minuti alla velocità maggiore e gli altri 30 a quella minore, percorrendo dunque 102 chilometri. Ma avremmo potuto anche fare diversamente: se i vari tratti fossero stati percorsi rispettivamente a 88 e 108 Km/h, in un qualunque tratto di un'ora la distanza totale percorsa è di 98 chilometri. D'accordo, gli esempi numerici che ho fatto sono impossibili da ottenersi in pratica, ma non è difficile modificarli per ottenere lo stesso risultato con una tabella di marcia verosimile: non l'ho fatto perché non vale la pena di complicare i conti da fare.

Dov'è il trucco? Il trucco è che non c'è nessun trucco! Se avessi scelto come unità di misura un sottomultiplo esatto del tempo totale percorso (nel nostro caso mezz'ora, oppure 50 minuti) il ragionamento fatto sopra sarebbe stato corretto. Se dividiamo esattamente il percorso in tante parti, o tutte le parti hanno la stessa velocità media oppure ci sono due parti vicine, una con velocità media inferiore e una superiore alla media globale, e in questo caso il ragionamento ella finestrella funziona. Nel nostro caso non possiamo dividere il percorso in questo modo, quindi il ragionamento non regge.

2. Anche se due medie parziali crescono, la media delle medie decresce

Uno potrebbe immaginare che la media di due medie sia in un certo senso coerente: se le medie parziali crescono nel tempo, anche quella globale deve crescere. Peccato che nemmeno in questo caso l'affermazione sia vera! In letteratura, il fatto è noto come Paradosso di Simpson: la pagina su wikipedia fa un esempio numerico del paradosso, esempio che riprendo qua. Supponiamo di avere questa ipotetica situazione:

Lavoratorisenza diploma con diploma Totale
Giovani2080100
Anziani12030150
Totale140110250
e la statistica seguente su quanti di questi lavoratori siano disoccupati:
Tasso disoccupaz. senza diplomacon diploma
Giovani30%15%
Anziani5%3,33%

Come si vede, sia tra i giovani che tra gli anziani il maggior numero di disoccupati si ha tra chi non è diplomato. Se però si calcola il numero esatto di lavoratori disoccupati a partire dalle percentuali, e si ricava qual è la percentuale complessiva di disoccupati, senza considerare le età. Come si può vedere, in realtà i disoccupati diplomati sono percentualmente di più di quelli non diplomati!

% disoccupati
senza diploma 12/140 = 8,6%
con diploma 13/110 = 11,8%

Di nuovo, non c'è trucco e non c'è inganno. I numeri sono proprio quelli, e di qui non si scappa. Quello che succede è che c'è una correlazione implicita tra i dati, nel senso che ci sono molti più disoccupati giovani che anziani, e molti più diplomati giovani che anziani. La media normalizza, e quindi non ci fa più vedere questa differenza nei valori assoluti; differenza che però c'è, come si vede nella tabella dei valori assoluti qui sotto, e che porta appunto al risultato apparentemente paradossale.

Disoccupati senza diplomacon diplomaTotale
Giovani 61218
Anziani 617
Totale121325

Insomma, prima di trarre conclusioni dai valori delle medie parziali, state sempre attenti a vedere quali sono i dati originali!

3. Se A è in media meglio di B, e B è meglio di C, C può essere in media meglio di A

[quattro dadi un poco particolari]D'accordo: non si può nemmeno fare la media delle medie. Però almeno la media una proprietà transitiva ce l'avrà bene, no? Insomma, se in media la scelta A è preferibile a B e la B a C, è ovvio che A è preferibile a C, no? Beh, non proprio. Supponiamo di avere i seguenti quattro dadi qui a fianco. Lanciamo ora i dadi A e B. In media B darà il risultato maggiore in quattro casi su sei: quando esce 5 (tre volte su sei) e quando esce 1 ma con A esce 0 (3/6 * 2/6, cioè una volta su sei). Se lanciamo i dadi B e C, in media C darà il risultato maggiore in quattro casi su sei: quando esce 6 (due volte su sei) e quando esce 2 ma con B esce 1 (4/6 * 3/6, cioè due volte su sei). Se lanciamo i dadi C e D, il conto è ancora più facile; C vince se e solo se esce 6, quindi in due casi su sei, e pertanto D vincerà in media in quattro casi su sei.

Ricapitoliamo: B supera A in media 4 volte su 6; C supera B in media 4 volte su 6; D supera C in media 4 volte su 6. Prendiamo ora A e D; è immediato che A vince se e solo se esce 4, quindi 4 volte su sei. Oops... non era D che avrebbe dovuto vincere quattro volte su sei? Ecco, appunto. Ve l'avevo detto di stare attenti. Ancora una volta non c'è nessun paradosso, in realtà: semplicemente, quando si hanno più di due scelte possibili le preferenze non sono transitive. Per la cronaca, ci si può anche limitare a tre soli dadi, mettendoci su i valori (3 3 5 5 7 7), (2 2 4 4 9 9), (1 1 6 6 8 8). In questo caso, però, i conti da fare sono un po' più complicati, e quindi ho preferito un esempio non minimale ma più semplice da vedersi. Un suggerimento: provate a costruire i quattro dadi, e invitare qualche amico a fare una partitina, lasciandogli graziosamente scegliere ogni volta per primo quale dado lanciare...

(Il tutto è stato ispirato dall'articolo di Philippe Boulanger Il n'y a pas moyen de moyenner!, Jeux Math, Dossier Pour La Science, Avr-Jui 2008)

© Maurizio Codogno, 10 ottobre 2009
torna a .mau.matematicalight