Domanda banale o no? (binomiale, poisson o niente di tutto questo)

Messaggioda Flamber » 31/07/2019, 10:20

Ciao a tutti, mi è stato proposto questo quesito, e vorrei capire se il mio ragionamento è eccessivamente elaborato quando si potrebbe arrivare ad una conclusione banalmente.

Statisticamente si è valutato che il tasso di omicidi annuale negli Stati Uniti è di 0,5 ogni 100.000 abitanti.
In un na cittadina di 13.000 abitanti nell'ultimo anno, sono stati registrati 2 omicidi. Ci sono ragioni per credere che questa cittadina sia meno sicura rispetto alla media nazionale?


Ovviamente, la valutazione più intuitiva è semplicemente $2/13000 >0.5/100000$, e quindi istintivamente direi che la città in questione è meno sicura della media nazionale. Tuttavia, visto il contesto in cui questa domanda mi è stata posta, mi sembra strano che la risposta possa essere semplicemente questa, e quindi ho provato a fare delle considerazioni probabilistiche.

la probabilità di avere un omicidio è $p=0.5/100000$, il numero di abitanti è $n=13000$, quindi ho pensato di utilizzare una distribuzione binomiale, dove la v.a. X è il numero di omicidi nella cittadina in questione.

\( X\sim B(n,p) \)
\( p_X(k)=\mathbb{P}(X=k)=\begin{pmatrix}n\\k\end{pmatrix}\cdot p^k\cdot(1-p)^{n-k}\;\; \)
\(p_X(2)=\begin{pmatrix}13000\\2\end{pmatrix}\cdot\left(\frac{0.5}{100000}\right)^2\cdot\left(1-\frac{0.5}{10000}\right)^{12998}\;=\;0.001979\;\simeq\;0.2\%\)

Oppure, visto che $p$ è "piccola" ed $n$ è relativamente grande, si può utilizzare una Poisson con $\lambda=n*p$ che mi da un risultato analogo:

\(Y\sim P(\lambda)\)
$\lambda = n*p = 0,065$
\( p_Y(k)=\mathbb{P}(Y=k)=e^{-\lambda}\cdot\frac{\lambda^k}{k!} \)
\( p_Y(2)=e^{-0,065}\cdot\frac{\left(0,065\right)^2}2=\;0.001979\;\simeq\;0.2\% \)

Quindi, in una cittadina di 13.000 abitanti qualsiasi, la probabilità di avere 2 omicidi in un anno è di circa lo $0,2%$, questo, seguendo il mio ragionamento, mi fa pensare che la cittadina in questione ha un livello di sicurezza più basso rispetto alla media nazionale. Quindi mi sembra di aver fatto tantissimi calcoli (non io personalmente, parlo di Python :D ) per ottenere un risultato ovvio.

Vorrei avere qualche vostro parere, cosa ne pensate?
Avatar utente
Flamber
Advanced Member
Advanced Member
 
Messaggio: 931 di 2188
Iscritto il: 27/03/2012, 07:49

Re: Domanda banale o no? (binomiale, poisson o niente di tutto questo)

Messaggioda tommik » 31/07/2019, 10:34

Ciao @Flamber!

io prima di rispondere ad un messaggio leggo sempre la storia di chi scrive e mi sono accorto che sei un utente esperto che, in genere, dà risposte piuttosto che chiedere aiuto.....quindi non ti voglio togliere il gusto di risolvere l'esercizio e ti dò un paio di suggerimenti

1) le due distribuzioni, Poisson e Binomiale sono molto legate fra loro, nel senso che la Poisson è la distribuzione limite della Binomiale1.
Ciò per dire che, nell'esercizio in questione, l'uso della distribuzione Binomiale o Poisson è indifferente.


2) l'esercizio è semplice ma non così banale....una volta visto che la media è superiore a quello che ti aspetti ti si chiede una certa inferenza: la differenza riscontrata rientra o no nella "normale" variabilità del fenomeno?

In altri termini si chiede di sottoporre a prova il seguente sistema di ipotesi

${{: ( mathcal(H)_0: mu=5*10^(-6) ),( mathcal(H)_1: mu>5*10^(-6) ) :}$



Puoi guardare qualunque libro di base sul problema della Verifica di Ipotesi statistiche o anche qui sul forum...ci sono decine e decine di esercizi tutti svolti.

Ovviamente nel caso in questione

Flamber ha scritto:
...la valutazione più intuitiva è semplicemente $2/13000 >0.5/100000$,


la differenza è talmente alta che il test non potrà che convalidare la tua intuizione....ma pensa se la media nazionale fosse 10 ogni 100.000 persone.....ti troveresti sempre una media più alta di quella nazionale ovvero di circa 15 omicidi su 100.000 persone invece che 10 ma qui le cose comincerebbero ad essere complicate da risolvere "intuitivamente"

^^^^^^^^^^^^^^^^^^^^
Vediamo un altro esempio interessante:

Abbiamo 123 pazienti con una certa patologia; a 62 pazienti viene somministrato un certo farmaco sperimentale mentre a 61 viene somministrata dell'acqua distillata (un placebo). I risultati sono in tabella;

TrattamentoGuaritiNon GuaritiTotale
521062
No402161
Totale9231123


Dei 62 pazienti trattati ne sono guariti il $84%$
Dei 61 pazienti non trattati ne sono guariti il $66%$

$84%>66%$ quindi il farmaco è efficace? Per rispondere con una certa "fiducia statistica" dobbiamo decidere se veramente $84>66$ oppure se $84~~66$ perché la differenza rientra nella normale variabilità del fenomeno....



.....per questo esistono i test per decidere....e per questo è necessario studiare la teoria prima di cercare soluzioni intuitive.

Note

  1. si dimostra in un paio di passaggi utilizzando il teorema di Levy-Cramér (le due distribuzioni convergono se e solo se convergono le due funzioni caratteristiche
tommik
Moderatore
Moderatore
 
Messaggio: 4924 di 11278
Iscritto il: 23/04/2015, 13:13
Località: Cassano Magnago

Re: Domanda banale o no? (binomiale, poisson o niente di tutto questo)

Messaggioda Flamber » 31/07/2019, 11:49

Ciao @tommik

Ti ringrazio per la risposta e per i suggerimenti. Penso che il problema di fondo sia il fatto che il mio background è da ingegnere elettronico, quindi visto il ruolo fondamentale che essa riveste nel campo delle telecomunicazioni, ho studiato abbastanza approfonditamente la teoria del calcolo delle probabilità, le variabili aleatorie ed i processi stocastici, mentre sono quasi completamente a digiuno di Statistica.

Per questo motivo ho utilizzato erroneamente un interpretazione probabilistica del fenomeno, ottenendo un risultato fuorviante (e questo l'ho capito grazie al tuo ultimo paragrafo), quando invece sarebbero state necessarie valutazioni di natura statistica.

Molte persone (anche in campo scientifico) tendono spesso a confondere queste due discipline, che invece, come tu sicuramente saprai dato che in questo campo ci lavori (o almeno questa è la mia impressione), sono profondamente diverse nonostante abbiano dei punti di convergenza reciproci.

Per farti capire di un pò quale è il mio livello, ad esempio, non ho idea di quale sia il significato del simbolo $mathcal(H)$ in questo contesto.
Sono comunque felice di non aver ricevuto direttamente una risposta, dato che ho ancora qualche giorno per ragionarci sopra, e cercherò di colmare, per quanto possibile, le mie lacune nell'ambito della verifica di ipotesi statistiche. Cercherò di postare qualche calcolo e/o riflessione in modo da ricevere qualche feedback.

Ti faccio quindi una domanda. Ho scelto di utilizzare una distribuzione di Poisson invece di una binomiale, dato che il valore di n e p me lo permettono.

Se non ho capito male, il tuo consiglio è quello di calcolare la media e la varianza della v.a. che segue $P(\lambda)$ e cercare di capire se 2 omicidi rientrano in un intervallo ragionevole. Non riesco però a capire che valore attribuire a $\lambda$.
Non senso che io dovrei modellizzare il fenomeno a livello nazionale ( quindi in questo caso dovrei scegliere $\lambda = 5*10^(-6)$?), calcolare media e varianza su questo valore e vedere se $2/13000$ rientra in un determinato range?
oppure devo scegliere $\lambda = n*p$ ma in questo caso mi ritroverei nella situazione iniziale dato che non avrei un riferimento a livello nazionale.

So he il post è confuso, spero che hi legge riesca a capirci qualcosa :D
Avatar utente
Flamber
Advanced Member
Advanced Member
 
Messaggio: 932 di 2188
Iscritto il: 27/03/2012, 07:49

Re: Domanda banale o no? (binomiale, poisson o niente di tutto questo)

Messaggioda tommik » 31/07/2019, 12:12

Flamber ha scritto:come tu sicuramente saprai dato che in questo campo ci lavori (o almeno questa è la mia impressione)


faccio il contabile :cry:

Ecco comunque una sintesi della soluzione in spoiler ma stai certo che dopo aver letto la teoria sarà tutto chiaro....

Testo nascosto, fai click qui per vederlo
il sistema scritto è un classico sistema di ipotesi dove $mathcal(H)_0$ è l'ipotesi di lavoro mentre l'altra è quella alternativa. (E' solo una scrittura formale)

Come anticipato l'uso della Poisson o Binomiale è del tutto indifferente...tanto il test diventerebbe complicato ugualmente...per uscire dai guai si usa un test asintotico, invocando il teorema del limite centrale, secondo cui la variabile

$(bar(x)-theta)/sqrt(theta) sqrt(n)~Phi$

ovvero si distribuisce come una normale Standard.


il test in questione (leggi la teoria) è il seguente


$(bar(x)-theta_0)/sqrt(theta_0) sqrt(n)=(2/13-5*10^(-3))/sqrt(5)sqrt(13000)~~7.59$

Se vuoi usare la binomiale poco cambia....

$(2-13000*5*10^(-6))/sqrt(13000*5*10^(-6)(1-5*10^(-6)))~~7.59$

che detto in altri termini dà un $P_("value")=0$

Quindi si rifiuta l'ipotesi di lavoro che la media della cittadina sia di 5 omicidi per milione di abitanti in favore della più verosimile alternativa che la media degli omicidi sia maggiore....e ciò senza tema di smentita dato che il p-value è zero.

Puoi fare un altro ragionamento...ipotizzando un livello di significatività dell'$1%$ qual è il numero critico di omicidi che ci si attende per rifiutare l'ipotesi di lavoro?

Con lo stesso ragionamento, utilizzando i quantili della gaussiana, vedrai che la regola di decisione è la seguente:

Rifiuto $mathcal(H)_0$ se e solo se gli omicidi saranno almeno uno all'anno


Qui trovi un esercizio "basic"

Qui invece uno più carino

uno sulla funzione di potenza del test

e qui uno "hard"

e per finire la carrellata questa sorta di tutorial che è l'approccio che preferisco....la logica bayesiana.

Questi solo guardando gli esercizi risolti negli ultimi giorni...ma ce ne sono davvero tanti nel forum
tommik
Moderatore
Moderatore
 
Messaggio: 4925 di 11278
Iscritto il: 23/04/2015, 13:13
Località: Cassano Magnago

Re: Domanda banale o no? (binomiale, poisson o niente di tutto questo)

Messaggioda Flamber » 31/07/2019, 15:16

Grazie davvero!

Essenzialmente sto svolgendo un test molto (molto!) lungo per una posizione che mi interessa. Ovviamente non si aspettano che io risponda correttamente a tutte le domande, però la parte puramente di statistica mi stà mettendo un po' in crisi, mentre penso di ottenere un buon punteggio nella parte relativa alla probabilità, logica e al machine learning (si lo so di aver detto di avere un background da ingegnere elettronico, ma a volte si fanno scelte sbagliate nella vita :D )

A questo punto ti chiederei se hai un libro da consigliarmi, ad esempio, questo ti sembra valido?

http://faculty.marshall.usc.edu/gareth-james/ISL/

Riuscirei a recuperarlo gratuitamente (e legalmente) in PDF quindi sarebbe una soluzione gradita. Si può scaricare gratuitamente dal sito dell'autore (che deve essere un grande esperto di machine learning ma con un gusto pessimo per il graphic design dei siti web)

Sarò volutamente vago perchè non voglio che qualcuno mi risolva il test (anche perchè poi devo giustificare le risposte in un colloquio in sede, quindi sarebbe comunque inutile). Per aiutarti nel consiglio della scelta del libro, a parte domande del tipo dell'esempio precedente, io ho un dataset molto grande e ci sono domande come:

1)Calcolare media e mediana di un certo valore (ad esempio il salario di una popolazione eterogenea distribuita su una grande area), come definiresti una salario irragionevolmente alto o irragionevolmente basso?

2)Come giustifichi il fatto che i valori di media e mediana differiscano così tanto?

3)Esiste una correlazione significativa tra la feature x e la feature y? come quantificheresti la correlazione

Se hai qualche consiglio su libri (dai sacri testi di statistica fino a statistics for dummies), dispense, video, PDF o qualsiasi altro materiale penso potrebbe essermi molto utile.

Ti ringrazio ancora!
Avatar utente
Flamber
Advanced Member
Advanced Member
 
Messaggio: 933 di 2188
Iscritto il: 27/03/2012, 07:49


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite