Media complessiva e intervallo di confidenza

Messaggioda Diegoc98 » 04/06/2020, 12:13

Salve a tutti, avrei un quesito da sollevare.
Sia dato il seguente risultato di un'indagine condotta con campione probabilistico stratificato:
Media 1= 15,9 ; Media 2= 20 ; Varianza 1= 7,5 ; Varianza 2= 8,7 ;
N1= 60 ; N2= 80 .
Calcolate la media complessiva e l'intervallo di confidenza al 95%.
Per il calcolo della media complessiva io ho fatto così: $ 1/140 * [(60*15,9)+(80*20)] = 18,24 $.
Per il calcolo dell'intervallo di confidenza invece non so come fare, ho provato in questo modo:
$ 18,24 +- 1,96*sqrt(Var(media)) $ . Il problema è che non so come calcolare la varianza della media.
Se qualcuno sapesse darmi una mano gliene sarei grato.
Grazie a tutti in anticipo per le risposte.
Diegoc98
Starting Member
Starting Member
 
Messaggio: 1 di 1
Iscritto il: 04/06/2020, 10:43

Re: Media complessiva e intervallo di confidenza

Messaggioda Faussone » 04/06/2020, 18:12

Non sono un esperto, mi manca la terminologia, non so cosa sia di preciso una campagna con campione stratificato, ma mi pare che alla fine hai due campionamenti che provengono dalla stessa popolazione e che date media e varianza dei due campionamenti devi trovare media complessiva e relativo intervallo di confidenza. Non so questo in pratica a cosa serva, visto che se si hanno tutti i dati si può metterli insieme e via, serve solo a risparmiare qualche conto e a farne altri se non si hanno le formule pronte.
(Magari mi manca qualcosa e qualcuno spiegherà meglio o correggerà.)

Con i presupposti detti la media complessiva è corretta come l'hai calcolata, per l'intervallo di confidenza della media ti serve calcolare la varianza della popolazione totale e più che altro è una questione di algebra:

$\frac{sum_{i=1}^{n_1} (x_i- mu)^2 + sum_{i=1}^{n_2} (y_i- mu)^2}{n_1+n_2-1}=$

$=\frac{sum_{i=1}^{n_1} x_i^2 - 2 sum_{i=1}^{n_1}x_i mu + n_1 mu^2+ sum_{i=1}^{n_2} y_i^2 - 2 sum_{i=1}^{n_2}y_i mu + n_2 mu^2 }{n_1+n_2-1}$


$=\frac{sum_{i=1}^{n_1} x_i^2 - 2 sum_{i=1}^{n_1}x_i mu_1 + n_1 mu_1^2 + 2 sum_{i=1}^{n_1}x_i mu_1 - n_1 mu_1^2 - 2 sum_{i=1}^{n_1}x_i mu + n_1 mu^2}{n_1+n_2-1}+$
$+\frac{sum_{i=1}^{n_2} y_i^2 - 2 sum_{i=1}^{n_2}y_i mu_2 + n_1 mu_2^2 + 2 sum_{i=1}^{n_2}y_i mu_2 - n_2 mu_2^2 - 2 sum_{i=1}^{n_2}y_i mu + n_2 mu^2 }{n_1+n_2-1}=$


$=\frac{sum_{i=1}^{n_1} (x_i -mu_1)^2 + 2 sum_{i=1}^{n_1}x_i mu_1 - n_1 mu_1^2 - 2 sum_{i=1}^{n_1}x_i mu + n_1 mu^2}{n_1+n_2-1}+$
$+\frac{sum_{i=1}^{n_2} (y_i -mu_2)^2 + 2 sum_{i=1}^{n_2}y_i mu_2 - n_2 mu_2^2 - 2 sum_{i=1}^{n_2}y_i mu + n_2 mu^2}{n_1+n_2-1}$


$=\frac{(n_1-1)"var"_1 + n_1 (mu_1 - mu)^2+(n_2-1)"var"_2 + n_2 (mu_2 - mu)^2}{n_1+n_2-1}$


Nota questa varianza della popolazione complessiva il calcolo dell'intervallo di confidenza della media complessiva si fa come al solito (in questo caso, posto che hai stimato sia media che varianza, devi passare per la distribuzione di Student).
Faussone
Cannot live without
Cannot live without
 
Messaggio: 4366 di 4494
Iscritto il: 03/09/2008, 12:44

Re: Media complessiva e intervallo di confidenza

Messaggioda Sergio » 06/06/2020, 09:46

Diegoc98 ha scritto:Il problema è che non so come calcolare la varianza della media.

Mi sembra che non ci siano dati sufficienti.
Se è davvero un campionamento stratificato, per stimare la varianza dello stimatore della media di popolazione servono le numerosità sia dei sottocampioni che degli strati della popolazione. Se fosse un campionamento stratificato proporzionale basterebbero la numerosità del campione e quella della popolazione, ma mancherebbe comunque qualcosa.
"Se vuoi un anno di prosperità coltiva del riso. Se vuoi dieci anni di prosperità pianta degli alberi. Se vuoi cento anni di prosperità istruisci degli uomini" (proverbio cinese). E invece... viewtopic.php?p=236293#p236293
Avatar utente
Sergio
Cannot live without
Cannot live without
 
Messaggio: 6856 di 6860
Iscritto il: 26/04/2004, 10:56
Località: Roma

Re: Media complessiva e intervallo di confidenza

Messaggioda Faussone » 06/06/2020, 13:46

Sergio ha scritto:
Diegoc98 ha scritto:Il problema è che non so come calcolare la varianza della media.

Mi sembra che non ci siano dati sufficienti.
Se è davvero un campionamento stratificato, per stimare la varianza dello stimatore della media di popolazione servono le numerosità sia dei sottocampioni che degli strati della popolazione. Se fosse un campionamento stratificato proporzionale basterebbero la numerosità del campione e quella della popolazione, ma mancherebbe comunque qualcosa.


Ah bene, quindi insomma pare che quello che abbia scritto io sia tutto inutile, non mi sorprenderebbe. :-D

Mi interessa però capire un poco meglio, io alla fine (dopo aver scritto il messaggio ho cercato di documentarmi un minimo) pensavo che fosse valido il risultato che avevo trovato, interpretando in questo modo: quei due dati di media e varianza vengono da un campionamento di una popolazione fatto in base ad una certa caratteristica che può aver effetto su quello di cui vogliamo trovare la media.
Per fare un esempio si può supporre che interessava stimare l'altezza media dei bambini di 6 anni di una certa città ma sappiamo da una analisi dei dati che , per qualche motivo, il 57% sono nati nei primi 4 mesi dell'anno. A questo punto quando scelgo il campione sarebbe meglio fare il modo di sceglierlo in modo da avere il 57% nati nei primi 4 mesi.
Per questo volendo prendere un campione complessivo di 140 si sono presi 80 nati nei primi 4 mesi.
Si è calcolata poi media e varianza dei due campioni e, sapendo questi dati si è interessati a calcolare media e confidenza della media dell'intero campione dato dalla unione dei due sottocampioni.

Con questi presupposti è sbagliato quel risultato che avevo scritto (posto che in realtà quei numeri difficilmente possono rappresentare altezze)?
Faussone
Cannot live without
Cannot live without
 
Messaggio: 4372 di 4494
Iscritto il: 03/09/2008, 12:44

Re: Media complessiva e intervallo di confidenza

Messaggioda Sergio » 06/06/2020, 16:59

Se si tratta davvero di un campione stratificato, lo stimatore della media di popolazione è \[\hat\mu=\sum_{g=1}^M w_g \overline{y}_g,\quad\overline{y}_g=\frac{1}{n_g}\sum_{i\in s_g}y_{g_i}\]dove $M$ è il numero degli strati, $w_g=N_g/N$ è il rapporto tra la numerosità dello strato $g$-esimo e quella della popolazione, $\overline{y}_g$ è la media del sottocampione $s_g$ estratto dal $g$-esimo strato.

Per l'intervallo di confidenza occorre uno stimatore della varianza di $\hat\mu$:\[\hat{V}(\hat{\mu})=\sum_{g=1}^M w_g^2\left(\frac{1}{n_g}-\frac{1}{N_g}\right)\hat{s}^2_{y_g},\quad \hat{s}^2_{y_g}=\frac{1}{n_g-1}\sum_{i\in s_g}(y_{g_i}-\overline{y}_g)^2\]dove $n_g$ è la numerosità del $g$-esimo sottocampione.

Se il campione è stratificato proporzionale, se cioè $n_g=nw_g$ per ogni $g$, \(n=\sum_g n_g\),\[\hat{V}(\hat{\mu})=\left(\frac{1}{n}-\frac{1}{N}\right)\sum_{g=1}^M w_g\hat{s}^2_{y_g}\]Lo scopo del campionamento stratificato è quello di ottenere stimatori più efficienti rispetto al campionamento semplice e il risultato si raggiunge soprattutto col campionamento stratificato proporzionale.

Se si volesse assumere $N$ e tutti gli $N_g$ tanto grandi da rendere $1/N$ e tutti gli $1/N_g$ prossimi allo zero, con i dati forniti si potrebbe calcolare:\[\hat{V}(\hat{\mu})=\frac{1}{60}(60/140)^27.5+\frac{1}{80}(80/140)^28.7=0.058\]che coincide col calcolo nel caso di campione proporzionale:
\[\hat{V}(\hat{\mu})=\frac{1}{140}[(60/140)7.5+(80/140)8.2]=0.058\]
Probabilmente quindi si tratta di un esercizio relativo a un campionamento stratificato proporzionale estratto da una popolazione molto grande.
"Se vuoi un anno di prosperità coltiva del riso. Se vuoi dieci anni di prosperità pianta degli alberi. Se vuoi cento anni di prosperità istruisci degli uomini" (proverbio cinese). E invece... viewtopic.php?p=236293#p236293
Avatar utente
Sergio
Cannot live without
Cannot live without
 
Messaggio: 6857 di 6860
Iscritto il: 26/04/2004, 10:56
Località: Roma

Re: Media complessiva e intervallo di confidenza

Messaggioda Faussone » 06/06/2020, 18:45

Interessante, grazie.
Io quindi ho inconsciamente assunto le popolazioni totali e dei singoli strati molto grandi (nella mia ignoranza mi pareva scontato immaginando situazioni reali in cui serve fare un campionamento, ma probabilmente ho una idea non completa della faccenda), e il campionamento proporzionale.

L'ultima formula che hai riportato, sergio, quindi dà direttamente una stima della varianza della media stimata, io invece avrei calcolato la stima della varianza totale da cui poi calcolerei l'intervallo di confidenza della media tramite la procedura classica in cui si ha lo stimatore della media e della varianza di una popolazione.
Da quella stima diretta della varianza della media invece poi come si calcola l'intervallo di confidenza? Quello stimatore è gaussiano o da che distribuzione è modellato?

Tra la procedura intuitiva che ho seguito io (che mi pare abbastanza banale, non ho idea di dove sarebbe l'inghippo) e quella esatta mi aspetterei un risultato finale simile con le assunzioni fatte (certo nel mio caso si assume la popolazione gaussiana per arrivare all'intervallo di confidenza)... ...a meno che, come potrebbe benissimo essere, mi son perso qualcosa di fondamentale :roll: .

Edit

Credo di aver capito, io pensavo che la potenza del campionamento stratificato fosse solo scegliere meglio il campione, in realtà invece si migliora anche la stima della media e quindi il suo intervallo di confidenza. La procedura che ho eseguito io consiste nel dimenticarsi degli strati perdendone il vantaggio (in effetti era il dubbio che avevo espresso in apertura).
Faussone
Cannot live without
Cannot live without
 
Messaggio: 4373 di 4494
Iscritto il: 03/09/2008, 12:44


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 36 ospiti