Referendum 2 Giugno 1946 e (assurdità delle) ipotesi di brogli

da **Faussone** » 01/06/2020, 18:35

Buonasera a tutti.

Apro un topic attuale vista la data (e spero non abbia lo stesso successo di questo 8-)

).

Vorrei fare una verifica per vedere se i dati dei voti del referendum in oggetto, contati per circoscrizione, seguono la legge di Benford, difficilmente nota al tempo a chi averebbe "truccato".
(So che è stato già fatto, ma volevo farlo per curiosità e divertimento, ho gusti strani lo so).
Sarebbe bello avere dati più parcellizzati ma comunque per adesso uso i dati per circoscrizioni disponibili qui.
Le circoscrizioni infatti hanno grandezza molto diversa e quindi credo corretto che la legge debba valere.

Vorrei chiedere se mio modo di procedere sia corretto o meno.

Seguo i 2 approcci: classico e bayesiano. A proposito grazie davvero a tommik per il tutorial (a chi interessa il tema e è agli inizi ho trovato molto ben scritta anche questa pagina).

Si tratta in sostanza di considerare insieme tutti i numeri di sì e no di tutte le circoscrizioni e contare il numero di volte che tali numeri iniziano per 1,2,3,4,5,6,7,8 e 9.
Occorre verificare se il numero di ricorrenze segue la legge suddetta.

Questa è la tabella che ho usato.

Cifra	Occorrenze	%	%Benford
1	13	22,0	30,1
2	10	17,0	17,6
3	13	22,0	12,5
4	9	15,0	9,69
5	6	10,0	7,92
6	3	5,0	6,69
7	3	5,0	5,80
8	2	3,33	5,11
9	1	1,67	4,58

Per l'approccio classico pensavo di considerare prima per ogni cifra la distribuzione binomiale attesa e fare quindi una analisi di significatività, supponendo che i dati sulle singole cifre seguano la propria binomiale, come ipotesi nulla.
Il dubbio qui è come dai dati sulle singole cifre posso trarre una analisi di significatività globale.
Pensavo fosse legittimo fare:

$s_{"tot"}=0.5 \prod 2 s_i$

dove $s_i$ sono le significatività delle cifre da 1 a 9 (sto supponendo che siano tutte indipendenti anche se i realtà solo 8 lo sono, ma questo lo tralascio per ora, sarebbe una ulteriore curiosità).
E' corretto? A occhio mi pare troppo penalizzante per l'ipotesi.

(Scusate se la domanda è banale, non ho testi di riferimento da cui studio, solo letture passatempo.... forse pretendo troppo.)

Per l'approccio Bayesiano il tema è simile, seguirei in pratica il caso 2 e la procedura dell'esercizio 3 del tutorial di tommik.
Anche qui procederei cifra per cifra, questa volta mi sembrerebbe più semplice fare il calcolo globale, visto che non mi appare un'eresia (ma non è detto che non lo sia) dire che il prodotto dei vari rapporti sarebbe proprio il rapporto globale che si cerca considerando tutti i dati insieme e non cifra per cifra.
(Come curiosità qui trovo che anche il caso più critico della cifra 3 ha un rapporto maggiore di 1, anche se di poco, quindi anche quella cifra sarebbe a posto da sola).

Spero di non aver detto troppe sciocchezze o banalità.

EDIT
Credo che un errore sicuro sia proprio di considerare la distribuzione di ogni cifra scorrelata dalle altre, in realtà non è così (banalmente la somma delle occorrenze deve essere costante e questo va tenuto in qualche modo in conto, infatti si lavora con i gradi di libertà che appunto in questo caso sono 8). Un test $chi^2$ o simile forse bypassa tutto e risolve, ma i dubbi espressi mi restano.

da **Faussone** » 02/06/2020, 14:06

Dovrei esserci.

Il problema è che considerare ogni singola cifra e poi comporre il risultato è sbagliato.
Occorre direttamente considerare la probabilità di ottenere quella precisa serie $N=60$ (il doppio delle sezioni considerando sia i sì che i no) fatta di 9 cifre, date le probabilità attese per ogni cifra $p_i$ e il numero di occorrenze di ogni cifra $f_i$ (è la verosimiglianza se non faccio casini con le nomenclature).

Viene fuori quindi:

$P=\frac{N!}{\prod_{i=1}^{9}f_i!}\prod_{i=1}^{9}p_i^{f_i}$

Da qui si dovrebbe calcolare la significatività per l'approccio classico... il che non è possibile in maniera pratica o diretta, mentre invece si può potrebbe con l'approccio bayesiano, ma viene fuori un integrale un poco ostico....

Ovviamente una alternativa veloce è fare un test tipo $chi^2$ (il test $chi^2$ però con questi dati non è affidabile da quello che ho capito).

Referendum 2 Giugno 1946 e (assurdità delle) ipotesi di brogli

Referendum 2 Giugno 1946 e (assurdità delle) ipotesi di brogli

Re: Referendum 2 Giugno 1946 e (assurdità delle) ipotesi di brogli

Chi c’è in linea