Come sapete, in Italia è vietato diffondere sondaggi elettorali nelle due settimane precedenti al voto. Come anche sapete, per qualche anno abbiamo visto corse di cavalli, qualificazioni di Formula 1, e financo conclavi che davano nomi stranamente simili a leader di partito e dati incongrui con quanto indicato ma compatibili con percentuali di voto. Poi c’è stata una stretta anche su quei post. Solo Fabrizio Rondolino ha sempre continuato imperterrito a postare, senza nemmeno far finta di nascondere i dati. Prima delle elezioni mi ero salvato una schermata – qui a fianco – e ora mi è venuta voglia di controllare cosa è successo. Vediamo:
In Campania il sondaggio diceva De Luca 48,5-52,5, Caldoro 28,5-32,5, Ciarambino 14-18; i risultati sono stati De Luca 69,5, Caldoro 18,1, Ciarambino 9,9.
In Liguria avevamo Toti 52-56, Sansa 36-40; i risultati danno Toti 56,1 e Sansa 38,9.
In Puglia, Fitto 39,5-43,5, Emiliano 36-40, Laricchia 14-18; invece Fitto 38,9, Emiliano 46,8, Laricchia 11,1.
In Veneto, Zaia 72-76, Lorenzoni 16-20, Cappelletti 1,5-5,5; i risultati danno Zaia 76,8, Lorenzoni 15,7, Cappelletti 3,2.
Nelle Marche, Acquaroli 48-52, Mangialardi 35-39, Mercorelli 7-11 contro Acquaroli 49,1, Mangialardi 37,3, Mercorelli 8,6.
In Toscana, Ceccardi 41,5-45,5, Giani 40,5-44,5, Galletti 8-12; alla fine, Ceccardi 40,4, Giani 48,6, Galletti 6,4.
Che possiamo dire? In Liguria, Veneto, Marche i sondaggi ci hanno più o meno preso, nel senso che siamo nei limiti della forchetta. Occhei, tecnicamente Zaia è al 77 contro un 76 teorico, ma non stiamo a sottilizzare. In Campania era stato indovinato il vincitore, ma i dati sono completamente sballati (De Luca +17%, Caldoro -10%, Ciarambino -4% sui limiti della forchetta). Nelle altre due regioni, che benignamente potremmo considerare definite Too close to call, gli errori sono stati comunque importanti: in Toscana abbiamo Ceccardi -1, Giani +4, Galletti -1,5 (sempre sugli estremi della forchetta, non sulla media; altrimenti a che serve dare una forchetta?) e in Puglia Fitto -0,5, Emiliano +7, Laricchia -3.
In pratica, Opinio può tecnicamente dire di avere indovinato tutti i risultati, nel senso che nei quattro casi in cui ha indicato un vincitore sicuro costui ha effettivamente vinto. Ma dal punto di vista del lettore digiuno di statistica i suoi risultati sono stati piuttosto mediocri, se non addirittura erronei. Chi è che sbaglia? Tutti, direi :-) Credo che sarebbe davvero necessario un corso accelerato di lettura dei dati, ma anche una taratura maggiore dei sondaggisti…
Ultimo aggiornamento: 2020-10-22 09:49
Se dovessi costruire un modello predittivo sull’esito di un’elezione lo definirei con le grandezze
V_m = sum_i P(i)v_m(i)
dove i sono elementi di un campione rappresentativo della popolazione(*);
P(i) è la probabilità che i-esimo vada a votare
v_m(i) è la probabilità che i-esimo voti per m se andasse a votare
P e v dovrebbero essere funzioni di diversi descrittori, tra cui la risposta a domanda diretta (ma non solo), e il modello dovrebbe essere ottimizzato con le consuete tecniche del machine learning ammesso di avere i dati delle elezioni passate per vari campioni in modo da eseguire training e validazione.
(*) il “campione rappresentativo della popolazione” sarebbe molto più facile da comporre rispetto al campione rappresentativo di chi andrà a votare, vero grosso problema dei sondaggi elettorali. Questo problema si cercherebbe di affrontarlo attraverso la definizione di P.
Il problema di questo approccio è ovviamente il solito problema di modelli ML applicati a contesti umani, cioè il modello potrebbe funzionare benissimo con i dati a disposizione fino al tempo t, pur con tutte le validazioni rigorose del caso, ma non funzionare più dopo t perché la popolazione vede cose nuove reagendo in modo non previsto dal modello.