Prove tecniche di brogli

Ieri ero partito lanciato con l'analisi del documento di Chantham House, ma e` proprio una stronzata, forse non ne vale la pena. Ci sono i soliti problemi di queste analisi affrettate: ipotesi a minchia (in che modo l'elezione del 2009 si dovrebbe paragonare al primo turno del 2005 senza mai considerare il secondo turno?), relazioni lineari che non esistono (in buona parte di quei plot puoi farci passare che vuoi), pochi spunti interessanti.
Ben piu` interessante e` l'analisi fatta da Beber e Sacco sul Washington Post, rilanciata senza controlli da Odifreddi su Repubblica (cartacea). Dico senza controlli perche` personalmente mi sono rifatto i conti e mi tornano numeri lievemente diversi (le province sono 30, non 29, forse l'articolo del WP e` stato fatto quando una provincia mancava ancora all'appello).
Comunque sia il punto e` il seguente: se l'ultima cifra dei voti di ciascun candidato in ogni provincia si puo` supporre casuale allora possiamo guardare le frequenze di ogni cifra e vedere se c'e` qualcosa che non va.
I risultati (del mio conto, con i dati di Chatham House) sono cosi`:

0 1 2 3 4 5 6 7 8 9
10 11 8 8 11 5 16 19 18 14

A occhio non e` un bel risultato, ma vediamo di essere quantitativi: il numero sette appare 19 volte su 120 tentativi (4 candidati per 30 province). Se ci facciamo il conto con la binomiale vediamo che la probabilita` di ottenere quel risultato o uno piu` improbabile e` ~6% (l'articolo del WP parla del 4%, ma i nostri dati sono differenti ...).
Non e` molto, ma non e` una scoperta.

L'articolo del WP poi procede ad analizzare il numero 5, anche lui e` un po' fuori media e compone le probabilita`. Questo e` sbagliato, le frequenze non sono indipendenti (la somma deve essere 120!) e bisogna fare il calcolo con piu` attenzione.
In particolare credo che la distribuzione corretta sia una multinomiale, ma calcolare gli intervalli nelle multinomiali e` al di la delle mie capacita` (ci ho provato, ho piantato il laptop nel conto dopo circa qualche ora che pensava a tutte le possibili combinazioni).

Ma la cosa veramente interessante e` un'altra: ho provato ad applicare esattamente lo stesso conto all'ultima cifra di ogni lista per ogni circoscrizione delle ultime elezioni europee in italia (63 dati).

Il risultato e`:

0 1 2 3 4 5 6 7 8 9
6 6 10 2 6 4 9 7 6 7

Prendiamo quel 2 che appare 10 volte: lo stesso conto del 7 di sopra ci dice che la probabilita` di ottenere quel risultato o uno peggio e` ~8%. Mica tanto distante. Di nuovo: non e` una scoperta.

Bisogna stare un po' attenti quando si fanno queste analisi, primo perche` il conto corretto va fatto a modino (la multinomiale!), secondo perche` si potrebbe scoprire l'ovvio: i risultati elettorali vengono comunicati a voce da esseri umani. Quale presidente di seggio comunicherebbe 11111 voti, anche se fosse vero?