Media complessiva e intervallo di confidenza

Messaggioda Diegoc98 » 04/06/2020, 12:13

Salve a tutti, avrei un quesito da sollevare.
Sia dato il seguente risultato di un'indagine condotta con campione probabilistico stratificato:
Media 1= 15,9 ; Media 2= 20 ; Varianza 1= 7,5 ; Varianza 2= 8,7 ;
N1= 60 ; N2= 80 .
Calcolate la media complessiva e l'intervallo di confidenza al 95%.
Per il calcolo della media complessiva io ho fatto così: $ 1/140 * [(60*15,9)+(80*20)] = 18,24 $.
Per il calcolo dell'intervallo di confidenza invece non so come fare, ho provato in questo modo:
$ 18,24 +- 1,96*sqrt(Var(media)) $ . Il problema è che non so come calcolare la varianza della media.
Se qualcuno sapesse darmi una mano gliene sarei grato.
Grazie a tutti in anticipo per le risposte.
Diegoc98
Starting Member
Starting Member
 
Messaggio: 1 di 2
Iscritto il: 04/06/2020, 10:43

Re: Media complessiva e intervallo di confidenza

Messaggioda Faussone » 04/06/2020, 18:12

Non sono un esperto, mi manca la terminologia, non so cosa sia di preciso una campagna con campione stratificato, ma mi pare che alla fine hai due campionamenti che provengono dalla stessa popolazione e che date media e varianza dei due campionamenti devi trovare media complessiva e relativo intervallo di confidenza. Non so questo in pratica a cosa serva, visto che se si hanno tutti i dati si può metterli insieme e via, serve solo a risparmiare qualche conto e a farne altri se non si hanno le formule pronte.
(Magari mi manca qualcosa e qualcuno spiegherà meglio o correggerà.)

Con i presupposti detti la media complessiva è corretta come l'hai calcolata, per l'intervallo di confidenza della media ti serve calcolare la varianza della popolazione totale e più che altro è una questione di algebra:

$\frac{sum_{i=1}^{n_1} (x_i- mu)^2 + sum_{i=1}^{n_2} (y_i- mu)^2}{n_1+n_2-1}=$

$=\frac{sum_{i=1}^{n_1} x_i^2 - 2 sum_{i=1}^{n_1}x_i mu + n_1 mu^2+ sum_{i=1}^{n_2} y_i^2 - 2 sum_{i=1}^{n_2}y_i mu + n_2 mu^2 }{n_1+n_2-1}$


$=\frac{sum_{i=1}^{n_1} x_i^2 - 2 sum_{i=1}^{n_1}x_i mu_1 + n_1 mu_1^2 + 2 sum_{i=1}^{n_1}x_i mu_1 - n_1 mu_1^2 - 2 sum_{i=1}^{n_1}x_i mu + n_1 mu^2}{n_1+n_2-1}+$
$+\frac{sum_{i=1}^{n_2} y_i^2 - 2 sum_{i=1}^{n_2}y_i mu_2 + n_1 mu_2^2 + 2 sum_{i=1}^{n_2}y_i mu_2 - n_2 mu_2^2 - 2 sum_{i=1}^{n_2}y_i mu + n_2 mu^2 }{n_1+n_2-1}=$


$=\frac{sum_{i=1}^{n_1} (x_i -mu_1)^2 + 2 sum_{i=1}^{n_1}x_i mu_1 - n_1 mu_1^2 - 2 sum_{i=1}^{n_1}x_i mu + n_1 mu^2}{n_1+n_2-1}+$
$+\frac{sum_{i=1}^{n_2} (y_i -mu_2)^2 + 2 sum_{i=1}^{n_2}y_i mu_2 - n_2 mu_2^2 - 2 sum_{i=1}^{n_2}y_i mu + n_2 mu^2}{n_1+n_2-1}$


$=\frac{(n_1-1)"var"_1 + n_1 (mu_1 - mu)^2+(n_2-1)"var"_2 + n_2 (mu_2 - mu)^2}{n_1+n_2-1}$


Nota questa varianza della popolazione complessiva il calcolo dell'intervallo di confidenza della media complessiva si fa come al solito (in questo caso, posto che hai stimato sia media che varianza, devi passare per la distribuzione di Student).
Faussone
Moderatore
Moderatore
 
Messaggio: 4364 di 10719
Iscritto il: 03/09/2008, 12:44

Re: Media complessiva e intervallo di confidenza

Messaggioda Faussone » 06/06/2020, 13:46

Sergio ha scritto:
Diegoc98 ha scritto:Il problema è che non so come calcolare la varianza della media.

Mi sembra che non ci siano dati sufficienti.
Se è davvero un campionamento stratificato, per stimare la varianza dello stimatore della media di popolazione servono le numerosità sia dei sottocampioni che degli strati della popolazione. Se fosse un campionamento stratificato proporzionale basterebbero la numerosità del campione e quella della popolazione, ma mancherebbe comunque qualcosa.


Ah bene, quindi insomma pare che quello che abbia scritto io sia tutto inutile, non mi sorprenderebbe. :-D

Mi interessa però capire un poco meglio, io alla fine (dopo aver scritto il messaggio ho cercato di documentarmi un minimo) pensavo che fosse valido il risultato che avevo trovato, interpretando in questo modo: quei due dati di media e varianza vengono da un campionamento di una popolazione fatto in base ad una certa caratteristica che può aver effetto su quello di cui vogliamo trovare la media.
Per fare un esempio si può supporre che interessava stimare l'altezza media dei bambini di 6 anni di una certa città ma sappiamo da una analisi dei dati che , per qualche motivo, il 57% sono nati nei primi 4 mesi dell'anno. A questo punto quando scelgo il campione sarebbe meglio fare il modo di sceglierlo in modo da avere il 57% nati nei primi 4 mesi.
Per questo volendo prendere un campione complessivo di 140 si sono presi 80 nati nei primi 4 mesi.
Si è calcolata poi media e varianza dei due campioni e, sapendo questi dati si è interessati a calcolare media e confidenza della media dell'intero campione dato dalla unione dei due sottocampioni.

Con questi presupposti è sbagliato quel risultato che avevo scritto (posto che in realtà quei numeri difficilmente possono rappresentare altezze)?
Faussone
Moderatore
Moderatore
 
Messaggio: 4370 di 10719
Iscritto il: 03/09/2008, 12:44

Re: Media complessiva e intervallo di confidenza

Messaggioda Faussone » 06/06/2020, 18:45

Interessante, grazie.
Io quindi ho inconsciamente assunto le popolazioni totali e dei singoli strati molto grandi (nella mia ignoranza mi pareva scontato immaginando situazioni reali in cui serve fare un campionamento, ma probabilmente ho una idea non completa della faccenda), e il campionamento proporzionale.

L'ultima formula che hai riportato, sergio, quindi dà direttamente una stima della varianza della media stimata, io invece avrei calcolato la stima della varianza totale da cui poi calcolerei l'intervallo di confidenza della media tramite la procedura classica in cui si ha lo stimatore della media e della varianza di una popolazione.
Da quella stima diretta della varianza della media invece poi come si calcola l'intervallo di confidenza? Quello stimatore è gaussiano o da che distribuzione è modellato?

Tra la procedura intuitiva che ho seguito io (che mi pare abbastanza banale, non ho idea di dove sarebbe l'inghippo) e quella esatta mi aspetterei un risultato finale simile con le assunzioni fatte (certo nel mio caso si assume la popolazione gaussiana per arrivare all'intervallo di confidenza)... ...a meno che, come potrebbe benissimo essere, mi son perso qualcosa di fondamentale :roll: .

Edit

Credo di aver capito, io pensavo che la potenza del campionamento stratificato fosse solo scegliere meglio il campione, in realtà invece si migliora anche la stima della media e quindi il suo intervallo di confidenza. La procedura che ho eseguito io consiste nel dimenticarsi degli strati perdendone il vantaggio (in effetti era il dubbio che avevo espresso in apertura).
Faussone
Moderatore
Moderatore
 
Messaggio: 4371 di 10719
Iscritto il: 03/09/2008, 12:44


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite