test di pearson

Messaggioda codino75 » 04/12/2007, 12:31

c'e' una affermazione che non mi e' chiara nelle dispense che ho sul test di pearson nell'ambito del corso di identificazione ed analisi dei dati (ing informatica).

sulle dispense viene spiegato che si tratta di un test che serve per "validare" una ipotesi sulla densita' di probabilita' che origina i dati (sia $f_0$ tale densita' ipotizzata, mentre sia $f_(vera)$ la densita' "vera" da cui originano i dati, e sia $N$ il numero di dati di cui disponiamo)

viene quindi spiegato che il test prevede si partizioni l'insieme dei possibili dati (supponiamo sia $R$) in $r$ intervalli , e che si costruisca una quantita' $D^2$ definita in un certo modo e che misura la "deviazione" della distribuzione campionaria (istogramma degli N dati) dalla distribuzione ipotizzata $f_0$.

dopodiche' c'e' la frase incriminata.

ve la riporto fedelmente:

"Il risultato notevole ottenuto da Pearson consiste nel dimostrare che al crescere di N, la distribuzione campionaria di $D^2$ tende ad una distribuzione limite che e' indipendente da quella ipotizzata $f_0$. Si dimostra che tale distribuzione limite corrisponde ad una $chi^2$ con $(r-1)$ gradi di liberta'."

e poi prosegue parlando di percentile etc etc.

Quello che non mi e' chiaro e' cosa rappresenta questo $chi^2$, cioe' quale probabilita' va a modellizzare (cioe' modellizza quanto i dati si discostano dalla densita' ipotizzata o quanto si discostano dalla densita' vera? o altro?)

sono veramente bloccato su questo punto.
grazie a tutti
alessandro
...questo e' l'importante: vivere per il ritorno. ( Exupery )
Avatar utente
codino75
Advanced Member
Advanced Member
 
Messaggio: 1630 di 2412
Iscritto il: 26/10/2006, 18:43
Località: clerville

Re: test di pearson

Messaggioda Chicco_Stat_ » 04/12/2007, 17:08

codino75 ha scritto:c'e' una affermazione che non mi e' chiara nelle dispense che ho sul test di pearson nell'ambito del corso di identificazione ed analisi dei dati (ing informatica).

sulle dispense viene spiegato che si tratta di un test che serve per "validare" una ipotesi sulla densita' di probabilita' che origina i dati (sia $f_0$ tale densita' ipotizzata, mentre sia $f_(vera)$ la densita' "vera" da cui originano i dati, e sia $N$ il numero di dati di cui disponiamo)

viene quindi spiegato che il test prevede si partizioni l'insieme dei possibili dati (supponiamo sia $R$) in $r$ intervalli , e che si costruisca una quantita' $D^2$ definita in un certo modo e che misura la "deviazione" della distribuzione campionaria (istogramma degli N dati) dalla distribuzione ipotizzata $f_0$.

dopodiche' c'e' la frase incriminata.

ve la riporto fedelmente:

"Il risultato notevole ottenuto da Pearson consiste nel dimostrare che al crescere di N, la distribuzione campionaria di $D^2$ tende ad una distribuzione limite che e' indipendente da quella ipotizzata $f_0$. Si dimostra che tale distribuzione limite corrisponde ad una $chi^2$ con $(r-1)$ gradi di liberta'."

e poi prosegue parlando di percentile etc etc.

Quello che non mi e' chiaro e' cosa rappresenta questo $chi^2$, cioe' quale probabilita' va a modellizzare (cioe' modellizza quanto i dati si discostano dalla densita' ipotizzata o quanto si discostano dalla densita' vera? o altro?)




ciao codino, cerco di rispondere ai tuoi dubbi per quanto possibile:

il test del $chi^2$ serve, come hai scritto tu, nelle verifiche di ipotesi distributive (oltre che in altri contesti)
in sostanza si tratta di una verifica con un'ipotesi non parametrica.

l'espressione del test $chi^2$ (analoga a quella della statistica $chi^2$ per la connessione) è

$chi^2=sum_(i=1)^k ((f_i - n*pi_(i0))^2)/(n*pi_(i0)$

dove $n$ è la numerosità campionaria, $k$ il numero di intervalli $I_i$ in cui suddividi l'asse reale $RR$, $f_i$ la frequenza con cui nelle $n$ prove si è ottenuto un valore appartente all'intervallo $i$-esimo e $pi_(i0)=P(X=x in I_i | H_0)$ rappresenta la probabilità che la v.c. $X$ assuma un valore compreso nell' $i$-esimo intervallo sotto però l'ipotesi nulla (il che equivale a specificare la distribuzione).

la quantità a numeratore è in sostanza la $D^2$ di cui parli nel tuo post, opportunamente normalizzata dividendo per $n*pi_(i0)$ termine a termine.

questa distanza come scrivi tu è una deviazione della distribuzione campionaria dalla distribuzione ipotizzata, e dunque ti sei già risposto in un certo senso..
La $chi^2$ descrive la densità di probabilità delle deviazioni, ovvero dello scarto fra le frequenze di classe osservate e quelle ipotizzate. la distribuzione "vera" non la conosci
né la conoscerai mai, ipotizzi che sia quella che specifichi con $H_0$, ma in realtà non lo puoi sapere..si parla di test probabilistici, hai sempre un margine d'errore, e a noi
poveri mortali non è dato avere nessuna certezza :)

spero di essere stato sufficientemente chiaro..se hai bisogno ancora chiedi pure!
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 164 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano

Messaggioda codino75 » 04/12/2007, 19:12

chicco ti ringrazio , ma i miei punt oscuri rimangono abbastanza intatti.

se la deviazione si distribuisce secondo una $chi^2$, indipendentemente dall'ipotesi H, allora cio' varra' anche se considero come ipotesi proprio quella vera che origina i dati, ma come e' possibile che la deviazione tra dati generati da una distribuzione H e la distribuzione H stessa, al crescere della numerosita' dei dati stessi, tenda a manifestarsi segendo una densita' $chi^2$?
io direi che invece , piu' dati ho, e piu' la deviazione sara' =0 con probabilita' crescente al crescere della numerosita' dei dati.
so che mi sono espresso da cani....

citando:
c'e' qualcosa che non va, ma non so dirti cosa (Celentano)
...questo e' l'importante: vivere per il ritorno. ( Exupery )
Avatar utente
codino75
Advanced Member
Advanced Member
 
Messaggio: 1635 di 2412
Iscritto il: 26/10/2006, 18:43
Località: clerville

Messaggioda Chicco_Stat_ » 04/12/2007, 19:26

attenzione, stai confondendo uno stimatore (e relativa distribuzione) con la stima stessa!

quella formuletta ha una distribuzione $chi^2$ A PRESCINDERE dall'evidenza campionaria..
è un po' come quando dici che la media si distribuisce secondo una normale, ma questo è ben distinto dal valore effettivo che poi realizzi e quanto questo disti dal valore vero (ma incognito)

è naturale come scrivi tu pensare che la quantità che calcoli tenda allo zero se ad esempio i tuoi dati sono generati esattamente dalla distribuzione che vuoi testare, ma questo si risolverà semplicemente nel fatto che un valore nullo della statistica test $chi^2$ (che ricordiamo non può essere negativa) porterà a maggior ragione all'accettazione dell'ipotesi nulla..

tu confronti il valore della statistica con le tabulazioni della distribuzione $chi^2$!
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 166 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite