eh, i sondaggi (italiani)

Come sapete, in Italia è vietato diffondere sondaggi elettorali nelle due settimane precedenti al voto. Come anche sapete, per qualche anno abbiamo visto corse di cavalli, qualificazioni di Formula 1, e financo conclavi che davano nomi stranamente simili a leader di partito e dati incongrui con quanto indicato ma compatibili con percentuali di voto. Poi c’è stata una stretta anche su quei post. Solo Fabrizio Rondolino ha sempre continuato imperterrito a postare, senza nemmeno far finta di nascondere i dati. Prima delle elezioni mi ero salvato una schermata – qui a fianco – e ora mi è venuta voglia di controllare cosa è successo. Vediamo:

In Campania il sondaggio diceva De Luca 48,5-52,5, Caldoro 28,5-32,5, Ciarambino 14-18; i risultati sono stati De Luca 69,5, Caldoro 18,1, Ciarambino 9,9.

In Liguria avevamo Toti 52-56, Sansa 36-40; i risultati danno Toti 56,1 e Sansa 38,9.

In Puglia, Fitto 39,5-43,5, Emiliano 36-40, Laricchia 14-18; invece Fitto 38,9, Emiliano 46,8, Laricchia 11,1.

In Veneto, Zaia 72-76, Lorenzoni 16-20, Cappelletti 1,5-5,5; i risultati danno Zaia 76,8, Lorenzoni 15,7, Cappelletti 3,2.

Nelle Marche, Acquaroli 48-52, Mangialardi 35-39, Mercorelli 7-11 contro Acquaroli 49,1, Mangialardi 37,3, Mercorelli 8,6.

In Toscana, Ceccardi 41,5-45,5, Giani 40,5-44,5, Galletti 8-12; alla fine, Ceccardi 40,4, Giani 48,6, Galletti 6,4.

Che possiamo dire? In Liguria, Veneto, Marche i sondaggi ci hanno più o meno preso, nel senso che siamo nei limiti della forchetta. Occhei, tecnicamente Zaia è al 77 contro un 76 teorico, ma non stiamo a sottilizzare. In Campania era stato indovinato il vincitore, ma i dati sono completamente sballati (De Luca +17%, Caldoro -10%, Ciarambino -4% sui limiti della forchetta). Nelle altre due regioni, che benignamente potremmo considerare definite Too close to call, gli errori sono stati comunque importanti: in Toscana abbiamo Ceccardi -1, Giani +4, Galletti -1,5 (sempre sugli estremi della forchetta, non sulla media; altrimenti a che serve dare una forchetta?) e in Puglia Fitto -0,5, Emiliano +7, Laricchia -3.

In pratica, Opinio può tecnicamente dire di avere indovinato tutti i risultati, nel senso che nei quattro casi in cui ha indicato un vincitore sicuro costui ha effettivamente vinto. Ma dal punto di vista del lettore digiuno di statistica i suoi risultati sono stati piuttosto mediocri, se non addirittura erronei. Chi è che sbaglia? Tutti, direi :-) Credo che sarebbe davvero necessario un corso accelerato di lettura dei dati, ma anche una taratura maggiore dei sondaggisti…

One comment

  1. Se dovessi costruire un modello predittivo sull’esito di un’elezione lo definirei con le grandezze

    V_m = sum_i P(i)v_m(i)

    dove i sono elementi di un campione rappresentativo della popolazione(*);
    P(i) è la probabilità che i-esimo vada a votare
    v_m(i) è la probabilità che i-esimo voti per m se andasse a votare

    P e v dovrebbero essere funzioni di diversi descrittori, tra cui la risposta a domanda diretta (ma non solo), e il modello dovrebbe essere ottimizzato con le consuete tecniche del machine learning ammesso di avere i dati delle elezioni passate per vari campioni in modo da eseguire training e validazione.

    (*) il “campione rappresentativo della popolazione” sarebbe molto più facile da comporre rispetto al campione rappresentativo di chi andrà a votare, vero grosso problema dei sondaggi elettorali. Questo problema si cercherebbe di affrontarlo attraverso la definizione di P.

    Il problema di questo approccio è ovviamente il solito problema di modelli ML applicati a contesti umani, cioè il modello potrebbe funzionare benissimo con i dati a disposizione fino al tempo t, pur con tutte le validazioni rigorose del caso, ma non funzionare più dopo t perché la popolazione vede cose nuove reagendo in modo non previsto dal modello.