Un tipo ha un cestino di mele. Io gli chiedo “qual è il peso medio di una delle tue mele?” e lui risponde “142 virrgola 857 grammi”. Cosa posso inferire da questa frase? Che il mio interlocutore non ha idea di come si arrotondano i risultati, che il cestino contiene 7 mele, o un multiplo di 7, e probabilmente che la bilancia che ha usato non è molto sensibile. Quel numero si ottiene infatti dividendo 1000 per 7 e mantenendo un numero assurdo di cifre, che sono tutto tranne che significative.
E cosa pensereste se vi dico che ho chiesto a dieci persone di dare un voto da 1 a 10 al mio blog – solo voti interi – e che la media che ho ottennuto è 9,248? Occhei, immagino che la prima cosa che vi verrebbe in mente è che gli interpellati hanno mentito; la seconda è che è impossibile che la media aritmetica di dieci numeri interi sia un valore con più di una cifra decimale.
Quest’ultima cosa, oltre che con il buonsenso, è stata trattata da Nicholas Brown e James Heathers in un loro articolo del 2016; gli autori hanno chiamato questo controllo il GRIM test, dal retroacronimo “granularity-related inconsistency of means” (inconsistenza delle medie dovuta alla granularità”. Il GRIM test si applica quando il numero di osservazioni da cui si ricava la media è molto piccolo, come capita spesso nelle scienze molli; esso indica probabilmente che i dati sono costruiti a caso da una persona che non è avvezza alla matematica, a differenza che nel primo caso in cui l’interlocutore non è comunque avvezzo alla matematica ma ha probabilmente fatto i conti senza rendersi conto che le precisione non può essere troppo elevata. C
Come Erik Seligman racconta nel suo Math Mutation, Brown e Heathers notano che potrebbero esserci anche altre ragioni per il GRIM effects; per esempio i dati sono stati calcolati su un insieme di dimensioni maggiori di quello finale, perché alcuni dati sono stati espunti in un secondo tempo perché incompleti. Resta però un punto fondamentale: gli articoli accademici che non superano il GRIM test sono troppi – più della metà degli articoli controllati dai due ricercatori – e non superare il test dà la certezza che ci sia qualcosa che non va. Soprattutto, ciò rende impossibile un controllo sui dati di partenza, che dovrebbe essere alla base della replicabilità dei risultati. Mettiamola così: per fortuna la gente non sa barare bene.