Salve, ho alcune domande riguardo il seguene problema:
Sia $X$ un'osservazione da $Bin(n,\frac{1}{2})$.
a) Dimostrare che lo stimatore ML e dei momenti di $n$ e' $2X$.
b) Il CLT asserisce che $Z(n)=\frac{(2X-n)}{\sqrt{n}}$ ha distribuzione (approssimativamente) $N(0,1)$ per n grande e che percio' $P(| Z(n) |\leq 2)$ è (circa) 95%. Risolvendo la disequazione $Z(n)^{2}\leq 4$ per n si ottiene cosi' un intervallo di confidenza al livello (circa) 95% per n basato su X. Come funziona questo intervallo (grado effettivo di confidenza, altre stranezze?) per vari valori, anche piccoli, di n?
La mia impostazione è la seguente:
Si sa che \(p=\frac{1}{2}\) ma non si conosce n. Supponiamo di lanciare una moneta bilanciata n volte (sconosciuto) e si ottiene un certo numero X di "Testa", si vuole sapere quante volte è stata lanciata la moneta. Sia $x$ il numero totale di successi dove $x_{i}$ è una singola prova (testa o croce):
\[\prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{1}^{n}x_{i}}(1-p)^{\sum_{1}^{n}1-x_{i}}=p^{x}(1-p)^{n-x} \] la log-likehood function è:
\[
l(n) = \ln ( C_n^X ) + x \ln p + (n-X)\ln(1-p)
\]
Poiché \textit{x ln p} è una costante, desideriamo massimizzare rispetto rispetto $n$:
\[ \hat{n}_{MLE} = \operatorname{argmax}_n \Bigg( \ln ( C_n^x )+(n-X \ln(1-p) \Bigg)
\]
Sostituendo $p = \frac{1}{2}$ si ha:
\[ \hat{n}_{MLE} = \operatorname{argmax}_n \Bigg(\ln ( C_n^X )-(\ln 2)(n-x)\Bigg) \]
Derivando rispetto a $n$ si ottiene:
\[ \frac{1}{n} + \ldots + \frac{1}{n-X+1} - \ln 2 = 0 \]
che può essere riscritta come:
\begin{equation}
\sum\limits_{k=1}^n \frac{1}{k} - \sum\limits_{k=n-X}^n \frac{1}{k} - \ln 2 = 0
\end{equation}
A questo punto, utilizzando un'approssimazione nota (che funziona per n grande):
\[ \sum\limits_{k=1}^n \frac{1}{k}= \ln n + \gamma + O(\frac{1}{n}) \]
dove $\gamma \simeq 0.5772156649$ è la costante di Eulero-Mascheroni. Quindi:
\[\sum\limits_{k=1}^{n-x} \frac{1}{k}=\ln (n-X) + \gamma + O(\frac{1}{n-X}) \]
che approssimando:
\[ \sum\limits_{k=1}^n \frac{1}{k} - \sum\limits_{k=n-X}^n \frac{1}{k}=\ln n - \ln (n-X) = \ln \frac{n}{n-X} \]
Ritornando all'equazione $(1)$ si ottiene:
\[\ln \frac{n}{n-x} = \ln 2\]
e risolvendo \(\frac{n}{n-X} = 2\) si ha che:
\[\hat{n}_{MLE} = 2X\]
Metodo dei momenti
Riguardo il metodo dei momenti si ha che:
\[ E(X) = \frac{1}{2} n \]
ma il metodo dei momenti sostituisce la media con la media campionaria
\[X = \frac{1}{2} \hat{n}\]
poiché si ha una sola osservazione. Quindi:
\[\hat{n}_{\text{MM}} = 2 X\]
Intervallo di confidenza
Effettivamente \(P(\left | Z(n) \right |\leq 2)\) è (circa) 95%. Infatti:
\[P(\left | Z(n) \right |\leq 1.96)\]
\[P(-1.96< Z< 1.96)=P(Z<1.96)-P(Z<-1.96)\]
Usando le tavole della distribuzione normale standard si trova che \[P(Z<1.96)=0.975\]
\(P(Z<-1.96)\) si ricava utilizzando la formula \(P(Z<-a)=1-P(Z<a)\) e sostituendo $a=1.96$ si ottiene: \[P(Z<-1.96)=1-P(Z<1.96)\]
\[P(Z<-1.96)=1-P(Z<1.96)=1-0.975=0.025\]
Quindi \[P(-1.96<Z<1.96)=0.95\Rightarrow 95\%\]
Invece \[P(\left | Z(n) \right |\leq 2)\]
\[P(-2< Z< 2)=P(Z<2)-P(Z<-2)\]
Usando le tavole della distribuzione normale standard si trova che \[P(Z<2)=0.9772\]
\(P(Z<-2)\) si ricava da: \[P(Z<-2)=1-P(Z<2)\]
\[P(Z<-2)=1-P(Z<2)=1-0.9772=0.0228\]
Quindi \[P(-2<Z<2)=0.9544\]
Le mie domande sono:
La mia impostazione è corretta?
Come posso rispondere al punto b)? Perché risolvendo $Z(n)^{2}\leq 4$ si ha un intervallo al 95%? Come si comporta questo intervallo se cambiamo il valore di n?