QUESITO (risolto) VARIANZA MEDIA CAMPIONARIA

Messaggioda condor » 25/04/2010, 14:45

risulta positiva quando n=N (ovvero il campione corrisponde alla popolazione)?


Salve a tutti,

ho un quesito semplice... calcolando la varianza della media campionaria risulta che:

Var(media campionaria)=sigma^2/n

fin qui tutto bene.... mi chiedevo pero' perche' se n=N (ovvero se il campione ipoteticamente coincide con la popolazione), e quindi:

media campionaria = media popolazione

la varianza risulta ancora positiva?

Faccio un esempio

POPOLAZIONE= 7, 14, 21, 37
MEDIA=19,75
VARIANZA=123,68

Mettiamo di non sapere da quanti elementi e' formata la popolazione e decidiamo di estrarre un campione di 4 elementi, n=4, quindi ovviamente:
Campione=7,14,21,37
Media campionaria=19,75
Varianza della media campionaria=123,68/4=30.92 --> che senso ha? questa dovrebbe essere zero dato che la media campionaria e' esattamente la media della popolazione......

Grazie dell'eventuale chiarimento
Ultima modifica di condor il 26/04/2010, 12:02, modificato 3 volte in totale.
condor
Starting Member
Starting Member
 
Messaggio: 1 di 45
Iscritto il: 25/04/2010, 14:21

Messaggioda Sergio » 25/04/2010, 16:17

La varianza potrebbe essere zero solo se tutti gli elementi (della popolazione, quindi anche del campione) fossero uguali tra di loro.
"Se vuoi un anno di prosperità coltiva del riso. Se vuoi dieci anni di prosperità pianta degli alberi. Se vuoi cento anni di prosperità istruisci degli uomini" (proverbio cinese). E invece... viewtopic.php?p=236293#p236293
Avatar utente
Sergio
Cannot live without
Cannot live without
 
Messaggio: 3197 di 6140
Iscritto il: 26/04/2004, 10:56
Località: Roma

Messaggioda condor » 25/04/2010, 16:27

Sergio certo! Ma non e' quello che intendo... la media campionaria e' una stima della media della popolazione. La varianza della media campionaria dovrebbe essere l'errore di questa stima (se non ho capito male...), ma se tu (magari senza saperlo) estrai tutti gli elementi della popolazione, la varianza dovrebbe essere zero perche' non c'e' errore! Infatti hai trovato esattamente la media della popolazione!

Non a caso, considerando una popolazione di 4 elementi (N=4) e campioni di 4 elementi (n=4 il campione estratto e' sempre uguale alla popolazione), calcolando le medie campionarie dei campioni estratti (che coincidono con la media della popolazione), le medie sarebbero tutte uguali e quindi la loro varianza sarebbe correttamente ZERO, perche' infatti significa che abbiamo trovato la media esatta della popolazione.

Tuttavia, da quanto ne so, la formula della varianza della media campionaria e':

Var(media campionaria)=sigma^2/n

Significa che se estraggo un campione qualsiasi, di ampiezza n, da una popolazione (distribuita normalmente), allora anche lo stimatore "media campionaria" sara' distribuito normalmente con media "mu" e varianza sigma^2. Ma se n=N (dimensione popolazione e campione coincidono, magari senza saperlo...) allora in quel caso la varianza della media campionaria dovrebbe essere ZERO....in realta' guardando la formula non capisco (anche guardando all'esempio sopra) come cio' possa accadere.
condor
Starting Member
Starting Member
 
Messaggio: 2 di 45
Iscritto il: 25/04/2010, 14:21

Messaggioda Sergio » 25/04/2010, 18:16

Quello che si annulla nel tuo esempio non è la varianza (ripeto: si annullerebbe solo se tutti i valori, nella popolazione e nel campione, fossero uguali), ma il bias (la distorsione), cioè la differenza tra la stima e il valore vero del parametro.
In generale: $MSE(hat(theta))=Var(hat(theta))+(Bias(hat(theta),theta))^2$.
"Se vuoi un anno di prosperità coltiva del riso. Se vuoi dieci anni di prosperità pianta degli alberi. Se vuoi cento anni di prosperità istruisci degli uomini" (proverbio cinese). E invece... viewtopic.php?p=236293#p236293
Avatar utente
Sergio
Cannot live without
Cannot live without
 
Messaggio: 3198 di 6140
Iscritto il: 26/04/2004, 10:56
Località: Roma

Messaggioda condor » 25/04/2010, 18:36

Scusami Sergio ma credo sia sbagliato cio' che dici..... Io non sto parlando della varianza del campione MA della varianza delle medie campionarie.

La varianza delle medie campionarie si calcola cosi`:

Var(medie campionarie)=sigma^2/n

Dove sigma^2 = varianza della popolazione e n = dimensione del campione

se il campione e' molto molto molto grande => n e' molto molto molto grande e per la definizione data la varianza tende a zero! E quindi non vero cio' che dici.... o sbaglio?



PS scusate se non scrivo bene le formule imparero' quanto prima...
Ultima modifica di condor il 25/04/2010, 19:04, modificato 1 volta in totale.
condor
Starting Member
Starting Member
 
Messaggio: 3 di 45
Iscritto il: 25/04/2010, 14:21

Messaggioda Sergio » 25/04/2010, 19:03

Scusami, sto rispondendo un po' frettolosamente perché sono alquanto impicciato.
Comunque se la popolazione è piccola e i tuoi campioni coincidono con la popolazione, allora non puoi che osservare sempre la stessa media e la varianza di medie uguali è certamente zero. Ma che senso avrebbe parlare di campioni in questo caso?
Se il campione è un campione vero, cioè un sottoinsieme proprio della popolazione, non è affatto detto che ottieni sempre medie uguali.
"Se vuoi un anno di prosperità coltiva del riso. Se vuoi dieci anni di prosperità pianta degli alberi. Se vuoi cento anni di prosperità istruisci degli uomini" (proverbio cinese). E invece... viewtopic.php?p=236293#p236293
Avatar utente
Sergio
Cannot live without
Cannot live without
 
Messaggio: 3199 di 6140
Iscritto il: 26/04/2004, 10:56
Località: Roma

Messaggioda condor » 25/04/2010, 19:12

Sergio non ti preoccupare, gia' ti ringrazio che mi stai rispondendo.....

Quello che dici e' vero. Il mio voleva essere un caso "assurdo" in cui non conosci la popolazione (non sai da quanti elementi e' formata) e volendo estrarre un campione, in realta' hai estratto tutta la popolazione, ma tu non lo sai.
Mettiamo che hai un urna con 4 palline numerate (non sai quante sono le palline in realta'...) e decidi di estrarre un campione formato proprio da 4 palline. Ora chiaramente la media dei numeri non e' una stima, ma proprio la media della popolazione. Mettiamo pero' di non saperlo...e calcoliamo la varianza secondo la formula

Var(media campionaria) = sigma^2/n

Questa varianza risulta positiva e non uguale a zero. In realta' pero' non avendo una stima, ma proprio la media della popolazione, questa dovrebbe essere zero!
Mi/Ti/Vi chiedo quale pezzo mi manca?????

Ho qualche idea ma vorrei delle conferme...
condor
Starting Member
Starting Member
 
Messaggio: 5 di 45
Iscritto il: 25/04/2010, 14:21

Messaggioda Sergio » 25/04/2010, 20:06

condor ha scritto:Mettiamo che hai un urna con 4 palline numerate (non sai quante sono le palline in realta'...) e decidi di estrarre un campione formato proprio da 4 palline. Ora chiaramente la media dei numeri non e' una stima, ma proprio la media della popolazione. Mettiamo pero' di non saperlo...e calcoliamo la varianza secondo la formula

Var(media campionaria) = sigma^2/n

Questa varianza risulta positiva e non uguale a zero. In realta' pero' non avendo una stima, ma proprio la media della popolazione, questa dovrebbe essere zero!
Mi/Ti/Vi chiedo quale pezzo mi manca?????

Se non sai nemmeno che il tuo non è un campione ma l'intera popolazione, come fai a conoscere la varianza della popolazione?
Se non conosci $sigma^2$ non puoi applicare la formula.

Il tuo è un quesito paradossale, quindi stimolante, ma un po' troppo estremo. Normalmente, per poter fare inferenza sono necessarie due cose: o l'assunzione di una distribuzione della popolazione, oppure l'assunzione che sia possibile individuare la distribuzione cui tendono i campioni all'aumentare della loro dimensione (legge dei grandi numeri, teorema del limite centrale). Ma a questo si richiede almeno che la popolazione segua una distribuzione con media finita, e spesso anche che esista finita pure la varianza.
Se prescindi da qualsiasi assunto circa la popolazione, cosa vieta che questa segua una distribuzione come quella di Cauchy, che non ha né media né varianza?
"Se vuoi un anno di prosperità coltiva del riso. Se vuoi dieci anni di prosperità pianta degli alberi. Se vuoi cento anni di prosperità istruisci degli uomini" (proverbio cinese). E invece... viewtopic.php?p=236293#p236293
Avatar utente
Sergio
Cannot live without
Cannot live without
 
Messaggio: 3200 di 6140
Iscritto il: 26/04/2004, 10:56
Località: Roma

Messaggioda condor » 25/04/2010, 20:42

sono d'accordo, ad ogni modo, anche se fosse la distribuzione di Cauchy ma il campione e' n>30 allora la distribuzione delle medie campionarie e' comunque normale.

Detto questo allora, la formula della varianza delle medie campionarie dovrebbe essere cosi` riscritta:

1. Var(media campionaria)=sigma^2/n per n<N
2. Var(media campionaria)=0 per n=N

dove N e' l'ampiezza della popolazione

Perche' altrimenti mi si dovrebbe ancora spiegare come mai quando n=N (e credo potrebbe esserci un caso in cui si estrae inconsciamente tutta la popolazione) la varianza calcolata con la formula 1. risulta comunque positiva.

Cosa dici/dite?

PS Sergio ma tu sei un professore?
condor
Starting Member
Starting Member
 
Messaggio: 7 di 45
Iscritto il: 25/04/2010, 14:21

Messaggioda markowitz » 25/04/2010, 20:51

Il quesito è interessante, mi ero già posto un problema simile e credo che si possa dire questo:
abbiamo un campione con $n$ variabili casuali ognuna con media $mu$ e varianza $sigma^2$ che sono ignote e devono essere stimate. Come fare?
Bisogna prestare la massima attenzione al fatto che noi ipotizziamo un campionamento casuale semplice e quindi i valori estratti sono v.a. $iid$ su cui non è necessario conoscere la specifica distribuzione.
Adesso dobbiamo trovare gli stimatori, e per definizione lo stimatore sarà una v.a. perchè frutto di un campionamento casuale semplice, ne consegue che sia lo stimatore della media vera $mu$ che quello della varianza vera $sigma^2$ avranno a loro volta una distribuzione di prob. e quindi una media ed una varianza. Per intenderci esiste la varianza della media stimata, che è quella che hai scritto, ma anche la varianza della varianza stimata!!! (anche se spesso non la considera nessuno).
Dopodiché le proprietà che vengono richieste agli stimatori sono: non distorsione, consistenza ed efficenza (quest'ultima rispetto ad altri stimatori); dove se si lavora con campioni grandi sulla non distorsione si può soprassedere ciò che conta, e qui attenzione, è la consistenza. Bene quella $n$ al denominatore della formula che hai scritto dimosta la consistenza dello stimatore della media campionaria rispetto al parametro di popolazione $mu$. Quella ottenuta è una stima quindi DEVE avere varianza>0 se n<infinito.
Dopodiché se non conosci neppure $sigma^2$ ti devi stimare anche quella, altra variabile casuale.....
Penso proprio che tutta questa roba perda di significato se perdiamo di vista l'ottica del campionamento casuale da una popolazione con parametri veri finiti ed ignoti. Se esistono quattro dati e basta non ha senso applicare quanto sopra, se esistono quattro possibili risultati ma in una popolazione numerosa e campionabile in senso proprio tutto torna ad avere senso :-D
markowitz
Average Member
Average Member
 
Messaggio: 72 di 612
Iscritto il: 14/02/2010, 21:50

Prossimo

Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: tommik e 13 ospiti