Stimare "n" in binomiale

da **antoniuccio11** » 19/09/2018, 14:24

Salve, ho alcune domande riguardo il seguene problema:
Sia $X$ un'osservazione da $Bin(n,\frac{1}{2})$.
a) Dimostrare che lo stimatore ML e dei momenti di $n$ e' $2X$.
b) Il CLT asserisce che $Z(n)=\frac{(2X-n)}{\sqrt{n}}$ ha distribuzione (approssimativamente) $N(0,1)$ per n grande e che percio' $P(| Z(n) |\leq 2)$ è (circa) 95%. Risolvendo la disequazione $Z(n)^{2}\leq 4$ per n si ottiene cosi' un intervallo di confidenza al livello (circa) 95% per n basato su X. Come funziona questo intervallo (grado effettivo di confidenza, altre stranezze?) per vari valori, anche piccoli, di n?

La mia impostazione è la seguente:
Si sa che $p=\frac{1}{2}$ ma non si conosce n. Supponiamo di lanciare una moneta bilanciata n volte (sconosciuto) e si ottiene un certo numero X di "Testa", si vuole sapere quante volte è stata lanciata la moneta. Sia $x$ il numero totale di successi dove $x_{i}$ è una singola prova (testa o croce):
\[\prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{1}^{n}x_{i}}(1-p)^{\sum_{1}^{n}1-x_{i}}=p^{x}(1-p)^{n-x} \] la log-likehood function è:
\[
l(n) = \ln ( C_n^X ) + x \ln p + (n-X)\ln(1-p)
\]
Poiché \textit{x ln p} è una costante, desideriamo massimizzare rispetto rispetto $n$:
\[ \hat{n}_{MLE} = \operatorname{argmax}_n \Bigg( \ln ( C_n^x )+(n-X \ln(1-p) \Bigg)
\]
Sostituendo $p = \frac{1}{2}$ si ha:
\[ \hat{n}_{MLE} = \operatorname{argmax}_n \Bigg(\ln ( C_n^X )-(\ln 2)(n-x)\Bigg) \]
Derivando rispetto a $n$ si ottiene:
\[ \frac{1}{n} + \ldots + \frac{1}{n-X+1} - \ln 2 = 0 \]
che può essere riscritta come:
\begin{equation}
\sum\limits_{k=1}^n \frac{1}{k} - \sum\limits_{k=n-X}^n \frac{1}{k} - \ln 2 = 0
\end{equation}
A questo punto, utilizzando un'approssimazione nota (che funziona per n grande):
\[ \sum\limits_{k=1}^n \frac{1}{k}= \ln n + \gamma + O(\frac{1}{n}) \]
dove $\gamma \simeq 0.5772156649$ è la costante di Eulero-Mascheroni. Quindi:
\[\sum\limits_{k=1}^{n-x} \frac{1}{k}=\ln (n-X) + \gamma + O(\frac{1}{n-X}) \]
che approssimando:
\[ \sum\limits_{k=1}^n \frac{1}{k} - \sum\limits_{k=n-X}^n \frac{1}{k}=\ln n - \ln (n-X) = \ln \frac{n}{n-X} \]
Ritornando all'equazione $(1)$ si ottiene:
\[\ln \frac{n}{n-x} = \ln 2\]
e risolvendo $\frac{n}{n-X} = 2$ si ha che:
\[\hat{n}_{MLE} = 2X\]

Metodo dei momenti
Riguardo il metodo dei momenti si ha che:
\[ E(X) = \frac{1}{2} n \]
ma il metodo dei momenti sostituisce la media con la media campionaria
\[X = \frac{1}{2} \hat{n}\]
poiché si ha una sola osservazione. Quindi:
\[\hat{n}_{\text{MM}} = 2 X\]

Intervallo di confidenza
Effettivamente $P(\left | Z(n) \right |\leq 2)$ è (circa) 95%. Infatti:
\[P(\left | Z(n) \right |\leq 1.96)\]
\[P(-1.96< Z< 1.96)=P(Z<1.96)-P(Z<-1.96)\]
Usando le tavole della distribuzione normale standard si trova che \[P(Z<1.96)=0.975\]
$P(Z<-1.96)$ si ricava utilizzando la formula $P(Z<-a)=1-P(Z<a)$ e sostituendo $a=1.96$ si ottiene: \[P(Z<-1.96)=1-P(Z<1.96)\]
\[P(Z<-1.96)=1-P(Z<1.96)=1-0.975=0.025\]
Quindi \[P(-1.96<Z<1.96)=0.95\Rightarrow 95\%\]

Invece \[P(\left | Z(n) \right |\leq 2)\]
\[P(-2< Z< 2)=P(Z<2)-P(Z<-2)\]
Usando le tavole della distribuzione normale standard si trova che \[P(Z<2)=0.9772\]
$P(Z<-2)$ si ricava da: \[P(Z<-2)=1-P(Z<2)\]
\[P(Z<-2)=1-P(Z<2)=1-0.9772=0.0228\]
Quindi \[P(-2<Z<2)=0.9544\]

Le mie domande sono:
La mia impostazione è corretta?
Come posso rispondere al punto b)? Perché risolvendo $Z(n)^{2}\leq 4$ si ha un intervallo al 95%? Come si comporta questo intervallo se cambiamo il valore di n?

da **tommik** » 19/09/2018, 18:11

antoniuccio11 ha scritto:La mia impostazione è corretta?

Tutto ciò è stupefacente!.... hai fatto una pletora di calcoli per calcolare qualche cosa che non è richiesto¹ mentre ciò che è richiesto dall'esercizio non l'hai calcolato; ad ogni modo l'impostazione non mi sembra sbagliata ma è sicuramente inutilmente complicata ed astrusa, dato che $hat(n)_(MLE)$ si calcola in modo davvero naturale, per $n$ qualunque e senza fare troppi conti (in realtà si calcola anche in due elementari passaggi²). Il risultato è comunque corretto.

Lo stimatore calcolato con il metodo dei momenti è giusto, sia come risultato che come impostazione del calcolo.

antoniuccio11 ha scritto:Come posso rispondere al punto b)? Perché risolvendo $Z(n)^{2}\leq 4$ si ha un intervallo al 95%? Come si comporta questo intervallo se cambiamo il valore di n?

E' evidente che $|z|<2 harr z^2<4$.... è una semplice disequazione di II grado....se vuoi ti faccio il grafico della parabola così lo dimostriamo, ma è una questione da II superiore.....

Quindi $P(-2<Z<2)=P(Z^2<4)$

Oltretutto sai che $Z~Phi_((0;1))$ e quindi sai anche che $Z^2~chi_((1))^2$; di conseguenza i livelli di confidenza effettivi li puoi leggere anche su quella tavola³

Cosa succede all'intervallo di confidenza di n? Inizia a calcolarlo e vediamo....hai fatto molti calcoli non richiesti ma l'intervallo richiesto non l'hai calcolato.
Ad ogni modo, per $n$ piccolo, puoi usare la distribuzione esatta, ovvero una distribuzione di Pascal, visto che si tratta di un esercizio sul campionamento inverso e confrontare i risultati dell'intervallo esatto con quello asintotico del TLC. Ovviamente occorre anche fissare un dato campionario osservato, altrimenti ha poco senso. Prova ad esempio a confrontare l'intervallo asintotico (una volta che l'avrai calcolato) con quello effettivo nel caso di $X=1$ , così la distribuzione esatta ti viene una Geometrica ed è tutto molto semplice.

È un esercizio un po' particolare, che consente risposte aperte (a parte il calcolo dello stimatore MM): che studi fai?

Note

o meglio, io non la vedo nell'esercizio la richiesta di calcolare lo stimatore MLE, forse c'era e non l'hai inserita?. ↑
infatti partendo dal fatto noto, e comunque facilmente dimostrabile che, in questo caso, $hat(mu)_(MLE)=X$, immediatamente trovi che $hat(n)_(MLE)=2X$ per la proprietà di invarianza degli stimatori ML ↑
prova e controlla: $1.96^2=3.8416$ che corrisponde al 95° percentile di una chi quadro con 1 gdl ↑

da **antoniuccio11** » 06/10/2018, 14:19

Grazie per la puntuale risposta.. anche se l'hai cambiata molte volte..sono arrivato a questo punto:
La disuguaglianza $ (2x-n)^2 \leq 4n $ può essere vista come disuguaglianza per $n$ per $x$ fissato, risolvendo la disequazione si ottiene l'intervallo:
\[ 2x+2-2\sqrt{2x-1} \leq n \leq 2x+2+2\sqrt{2x+1} \]
Ora la domanda che mi è stata posta è: Come funziona questo intervallo (grado effettivo di confidenza, altre stranezze?) per vari valori, anche piccoli, di n? Non riesco a capire come muovermi per rispondere.

Stimare "n" in binomiale

Stimare "n" in binomiale

Re: Stimare "n" in binomiale

Re: Stimare "n" in binomiale

Chi c’è in linea