Apro un topic attuale vista la data (e spero non abbia lo stesso successo di questo ).
Vorrei fare una verifica per vedere se i dati dei voti del referendum in oggetto, contati per circoscrizione, seguono la legge di Benford, difficilmente nota al tempo a chi averebbe "truccato".
(So che è stato già fatto, ma volevo farlo per curiosità e divertimento, ho gusti strani lo so).
Sarebbe bello avere dati più parcellizzati ma comunque per adesso uso i dati per circoscrizioni disponibili qui.
Le circoscrizioni infatti hanno grandezza molto diversa e quindi credo corretto che la legge debba valere.
Vorrei chiedere se mio modo di procedere sia corretto o meno.
Seguo i 2 approcci: classico e bayesiano. A proposito grazie davvero a tommik per il tutorial (a chi interessa il tema e è agli inizi ho trovato molto ben scritta anche questa pagina).
Si tratta in sostanza di considerare insieme tutti i numeri di sì e no di tutte le circoscrizioni e contare il numero di volte che tali numeri iniziano per 1,2,3,4,5,6,7,8 e 9.
Occorre verificare se il numero di ricorrenze segue la legge suddetta.
Questa è la tabella che ho usato.
Cifra | Occorrenze | % | %Benford |
---|---|---|---|
1 | 13 | 22,0 | 30,1 |
2 | 10 | 17,0 | 17,6 |
3 | 13 | 22,0 | 12,5 |
4 | 9 | 15,0 | 9,69 |
5 | 6 | 10,0 | 7,92 |
6 | 3 | 5,0 | 6,69 |
7 | 3 | 5,0 | 5,80 |
8 | 2 | 3,33 | 5,11 |
9 | 1 | 1,67 | 4,58 |
Per l'approccio classico pensavo di considerare prima per ogni cifra la distribuzione binomiale attesa e fare quindi una analisi di significatività, supponendo che i dati sulle singole cifre seguano la propria binomiale, come ipotesi nulla.
Il dubbio qui è come dai dati sulle singole cifre posso trarre una analisi di significatività globale.
Pensavo fosse legittimo fare:
$s_{"tot"}=0.5 \prod 2 s_i$
dove $s_i$ sono le significatività delle cifre da 1 a 9 (sto supponendo che siano tutte indipendenti anche se i realtà solo 8 lo sono, ma questo lo tralascio per ora, sarebbe una ulteriore curiosità).
E' corretto? A occhio mi pare troppo penalizzante per l'ipotesi.
(Scusate se la domanda è banale, non ho testi di riferimento da cui studio, solo letture passatempo.... forse pretendo troppo.)
Per l'approccio Bayesiano il tema è simile, seguirei in pratica il caso 2 e la procedura dell'esercizio 3 del tutorial di tommik.
Anche qui procederei cifra per cifra, questa volta mi sembrerebbe più semplice fare il calcolo globale, visto che non mi appare un'eresia (ma non è detto che non lo sia) dire che il prodotto dei vari rapporti sarebbe proprio il rapporto globale che si cerca considerando tutti i dati insieme e non cifra per cifra.
(Come curiosità qui trovo che anche il caso più critico della cifra 3 ha un rapporto maggiore di 1, anche se di poco, quindi anche quella cifra sarebbe a posto da sola).
Spero di non aver detto troppe sciocchezze o banalità.
EDIT
Credo che un errore sicuro sia proprio di considerare la distribuzione di ogni cifra scorrelata dalle altre, in realtà non è così (banalmente la somma delle occorrenze deve essere costante e questo va tenuto in qualche modo in conto, infatti si lavora con i gradi di libertà che appunto in questo caso sono 8). Un test $chi^2$ o simile forse bypassa tutto e risolve, ma i dubbi espressi mi restano.