statistiche per fare bella figura

Lunedì Andrea Monti mi ha segnalato questo articolo di Repubblica, insieme alle sue considerazioni al riguardo. Lasciate pure perdere l’articolo originale, a meno che non siate interessati al gossip; chi vuole proprio sapere qual è stato l’esperimento condotto farà meglio a leggere l’articolo originale. Per chi ha fretta, l’esperimento, condotto su 60 volontari trentini, ha misurato la loro propensione a “vendere” i loro dati personali – in forma anonima e aggregata – ottenuti dall’uso del loro smartphone, scoprendo che il valore percepito è molto basso, e gli unici dati che sembrano avere un minimo interesse sono quelli degli spostamenti effettuati. Magari un’altra volta parlerò dei risultati: adesso mi sembra più interessante guardare la metodologia usata.

Io non ho certo le competenze statistiche necessarie per fare un’analisi completa dei risultati, ma c’è una cosa che mi ha lasciato molto perplesso, anche se devo dire che non è certo il primo caso che mi è capitato di vedere. Andrea ha perfettamente ragione quando fa notare che il campione usato non è assolutamente rappresentativo per tutta una serie di motivi: è stato scelto con lo snowballing, cioè chiedendo agli sperimentatori di cercare nuovi amici; si limita a una sola piattaforma software e a un gruppo di persone di una certa categoria sociale; e soprattutto è davvero limitato – 60 persone non sono certo un campione statisticamente valido. Differiamo solo nelle conclusioni: io sono più ottimista di lui e ritengo che quel paper ha un interesse sociologico, anche se solo qualitativo e non certo quantitativo. (Lasciamo stare l’articolo su Repubblica, se non per apprezzare che ha vari link tra cui quello al paper originale: un risultatone rispetto al tipico articolo che si può leggere sull’italica rete) Insomma, si può vedere che a quanto pare esistono alcune persone che non sembrano attribuire un grande valore ai propri dati personali, ancorché anonimizzati.

Ma resta il problema di base: perché un articolo deve avere tutta quella messe di parametri statistici, quando il campione di base è così ridotto? Qual è il valore aggiunto? Sarei lieto se qualche statistico si palesasse qui nei commenti e mi dimostrasse che ho torto, ma per quanto mi riguarda quei numeri non hanno un vero valore se non quello di intimidire chi non è abituato a trattarli… o se preferite bisogna inserirli perché l’articolo venga accettato da una qualche rivista; questo non è certo l’unico paper che spenda e spanda tutti questi dati, quindi potrebbe benissimo essere una necessità pratica per la pubblicazione.