Un "semplice" quesito sul p-value

da **login** » 16/03/2017, 12:25

Salve a tutti, è da un po' che non scrivo, spero di ricordarmi come scrivere un quesito in modo adeguato :-D

Un test sul confronto tra due medie (le varianze sono ignote e la variabile in esame si distribuisce secondo normale)
è caratterizzato dal seguente sistema di ipotesi:

$H_0$ : $\mu_1-\mu_2=0$

$H_1$ : $\mu_1-\mu_2!=0$

Il valore della statistica test ottenuta è $-2,5$

E' possibile che il $p-value$ associato a tale valore di statistica test sia $>0,05$ se le due numerosità campionarie sono rispettivamente $n_1=14$ e $n_2=13$?

Come ho provato a ragionare
Sò che il $p-value$ viene definito come la probabilità di osservare un valore della statistica test uguale o più estremo di quello osservato qualora $H_0$ fosse vera

Sò anche che se $p>=\alpha$ accetto $H_0$
$p<=\alpha$ accetto $H_1$

Ora $0,05$ mi ricorda un valore di significatività, quindi se $H_0$ fosse vera il p-value deve essere uguale o maggiore della significatività scelta, il fatto è che non ho ben capito come posso dimostrarlo, sopratutto che me ne faccio delle numerosità campionarie?

da **tommik** » 16/03/2017, 12:30

login ha scritto:Il valore della statistica test ottenuta è $-2,5$

E' possibile che il $p-value$ associato a tale valore di statistica test sia $>0,05$ se le due numerosità campionarie sono rispettivamente $n_1=14$ e $n_2=13$?

no. non è possibile. Basta guardare le tavole sulla t di student con $13+14-2=25$ gdl....che poi è simile alla normale, visto gli alti gdl

Quindi il tuo p-value è di poco inferiore a $2\cdot(1-0.99)=0.02$

Oppure con un qualunque calcolatore, anche Excel, trovi che il tuo p-value è di circa 0.0193

Ps: nella traccia hai dimenticato un'ipotesi..varianze ingote ma uguali fra loro

Cosa te ne fai delle numerosità campionarie???? la statistica del test si distribuisce come una t di student con $(m+n-2)$ gradi di libertà....vedi tu

da **login** » 16/03/2017, 12:49

okay adesso ho capito! grazie XD come uno scemo non avevo pensato che dato che le varianze non sono note (e sono uguali fra loro ;P) si usa come statistica test $t_0$

Posso fare un'altra domanda concettuale sul p-value?
se il p-value è molto grande significa che la statistica test che ho osservato è poco probabile? (nel senso che si verifica poco spesso)
e se ciò è vero perché accetto ipotesi nulla se il p-value è maggiore della significatività? Non dovrebbe essere il contrario, insomma se il p-value è maggiore della significativià non è "troppo" grande?

Scusa la sciocchezza delle domande ma sono un po' negato ormai e sto studiando tutto da autodidatta :'(

da **tommik** » 16/03/2017, 12:55

il p-value è l'area della coda (delle code, se il test è bilaterale). Quindi se è alto significa che la differenza fra le medie è molto vicino a zero, ovvero la differenza non è significativa.

Come regola di decisione, invece che il p-value, potresti prendere il valore in ascissa, ovvero la differenza fra le medie, oppure il valore della statistica...se è alta, allora la differenza è significativa....

spero di esser stato chiaro

da **login** » 18/03/2017, 15:57

grazie tommik, penso di avere capito più o meno

Avrei un altro dubbio, intuitivamente se aumento la numerosità campionaria il p-value diminuisce, o no?
Perché sta diminuendo la varianza? qual è la ragione per cui accade questa cosa?

da **markowitz** » 19/03/2017, 20:05

login ha scritto:Avrei un altro dubbio, intuitivamente se aumento la numerosità campionaria il p-value diminuisce, o no?
Perché sta diminuendo la varianza? qual è la ragione per cui accade questa cosa?

tommik ha scritto:beh da quanto dici emerge una grande confusione sull'argomento....quindi ti consiglio di fare un po' di esercizi.....qui ne troverai a centinaia, tutti risolti e commentati (molti da me)

Dai tommik non siamo troppo severi, l'osservazione non è poi totalmente fuori luogo

L'intuizione non è sbagliata ma va precisata meglio. Diciamo che: se la numerosità campionaria aumenta e la "distanza d'interesse" rimane costante allora, in generale, è vero il p-valore diminuisce. Questo accade proprio perchè la varianza dello stimatore diminuisce. E' esattamente per questo che gli statistici amano lavorare con campioni grandi. In generale più aumenti la dimesione del campione e più ipotesi puoi rifiutare, o comunque puoi rifiutarle con maggiore sicurezza. E' per questo che avere campioni grandi è bene, mentre se son piccoli generalmente non è che puoi dir molto. Sul perché la varianza degli stimatori dimuisce con $n$ fai come dice tommik, vai a vedere qualche esercizio ... ma data la rilevanza del tema trovi anche teoria.

tommik ha scritto:Però ti invito a fare un semplice ragionamento: il valore del p-value (che è il risultato di un integrale) è quello che determina la decisione del test: accettare o rifiutare l'ipotesi di lavoro. Se tale valore fosse direttamente e univocamente determinato dall'ampiezza campionaria allora basterebbe aumentare la numerosità del campione per rifiutare l'ipotesi....ed il test non servirebbe a nulla... o no?

Su questo, in generale, sarei un poco più "ottimista" il p-valore è funzione, in generale decrescente, della numerosità campionaria. In generale, se possibile, aumentare il campione è proprio ciò che servirebbe.

da **tommik** » 20/03/2017, 09:38

@markovitz

intanto bentornato...è un po' che non bazzichi da queste parti e non ti nascondo che i tuoi interventi sono sempre di alto valore aggiunto....quindi spero di risentirti presto.

Per quanto riguarda la discussione in oggetto non penso di aver detto sciocchezze. Cerco di spiegarmi meglio:

Penso non esista una relazione univoca tra il valore del pvalue e l'ampiezza del campione. Se il campione è piccolo, il pvalue può essere alto anche se la distribuzione del campione è consistente con l'ipotesi alternativa e viceversa, può essere basso anche se la distribuzione del campione è consistente con l'ipotesi di lavoro. Se invece il campione è grande il pvalue sarà alto o basso a seconda che il campionesia consistente con l'ipotesi di lavoro o con quella alternativa, rispettivamente.

Provo a fare un esempio pratico e molto semplificato.

Supponiamo di estrarre un campione casuale di ampiezza n da una popolazione normale $N(mu;1)$ e di voler provare il seguente sistema di ipotesi:

${{: ( H_0:mu=0 ),( H_1:mu !=0 ) :}$

non disponendo di strumenti sofisticati, ma solo di Excel, ho estratto un campione casuale con la funzione CASUALE() di ampiezza 20. Tale campione è estratto da una uniforme su zero/uno. A questo punto, utilizzando il teorema della trasformazione integrale ho generato lo stesso campione da una distribuzione normale standard, ovvero ho generato un campione consistente con l'ipotesi di lavoro.

questi sono i dati

e questi i risultati, supponendo che i primi 5 elementi siano un campione casuale di ampiezza 5, i primi 10 il campione casuale di ampiezza 10 ecc

come si vede, per n piccolo il pvalue è altalenante, borderline e addirittura porta a rifiutare l'ipotesi con n=10 e $alpha=5%$ mentre con n=20 il pvalue diventa consistente con la distribuzione del campione.

Spero di essere stato sufficientemente chiaro...

da **markowitz** » 20/03/2017, 23:05

tommik ha scritto:@markovitz

intanto bentornato...è un po' che non bazzichi da queste parti e non ti nascondo che i tuoi interventi sono sempre di alto valore aggiunto....quindi spero di risentirti presto.

Ti ringrazio.
E' vero negli ultimi tempi non ho frequentato molto il forum ...
però di recente ho postato:
viewtopic.php?f=34&t=172343
Tu, che sei diventato anche moderatore, sei utente estremamente competente. Forse hai qualche suggerimento.

tommik ha scritto:Per quanto riguarda la discussione in oggetto non penso di aver detto sciocchezze. Cerco di spiegarmi meglio:

Penso non esista una relazione univoca tra il valore del pvalue e l'ampiezza del campione. Se il campione è piccolo, il pvalue può essere alto anche se la distribuzione del campione è consistente con l'ipotesi alternativa e viceversa, può essere basso anche se la distribuzione del campione è consistente con l'ipotesi di lavoro. Se invece il campione è grande il pvalue sarà alto o basso a seconda che il campionesia consistente con l'ipotesi di lavoro o con quella alternativa, rispettivamente.

infatti non ho mai affermato che tu abbia detto sciocchezze

e condivido ciò che hai affermato qui. Infatti ciò che dicevo non contraddice queste affermazioni.
Semplicemente affermavo che forse login aveva avuto un'intuizione giusta perché in effetti, sotto certe condizioni che mi sembrano abbastanza generali, all'aumentatre della numerosità il p-valore tende a diminuire. Tu invece dici che non c'è relazione univoca tra ampiezza del campione e p-valore.
Non intendo contraddire quello che hai affermato prima di tutto perché ... non è sbagliato. Tuttavia, a mio parere, non agevola la comprensione dello strumento p-valore.
In altri termini tra le due posizioni non vi è vera contraddizzione ... ma mi costringi a chiarire meglio cosa io intenda con "sotto certe condizioni che mi sembrano abbastanza generali".
In breve:
per prima cosa mi limitavo a problemi posti nella forma, abbastanza usuale, del test a due code su un singolo parametro come quello impostato nell'esempio. Limitiamoci a questo.
Come seconda cosa, io considero come caso normale quello in cui l'ipotesi nulla è falsa. Nella logica del test le ipotesi andrebbero poste a priori ovvero prima di vedere le stime ... capisci allora che ci vuole una bella fortuna a ipotizzare subito il valore "vero". Quello che dico riguarda la realtà non la didattica, l'esempio che fai tu riguarda proprio il caso speciale di ipotesi nulla vera ed allora avrai che, al contrario di quello che dicevo, il p-valore tende a crescere con la dimensione del campione. Infatti dai dati che mostri si vede.
Da ultimo è chiaro che sono costretto ad usare la parola "tende" ... siamo sempre nel campo delle probabilità ... e peraltro a questo tende voglio dare solo l'intuizione non intendo attribuire alcuno speficico significato tecnico.
E' proprio per evitare questi problemi che avevo usato l'ipotesi semplificatrice di "distanza d'interesse costante". La distanza è chiaramente quella tra valore stimato e valore sotto la nulla $|mu - mu_0|$ e purtroppo nei casi concreti non resta costante. Al limite può anche valere che, nonostante la nulla sia falsa, la distanza sia nulla ... e quindi il p-valore unitario.
Nell'esempio che hai fatto non ho verificato i conti ma penso che il p-valore passando da 5 a 10 dati diminuisca perché la distanza aumenta ... cosa che, siccome la nulla è vera, non ci si attendeva ... ma chiaramente era comunque possibile.
Ancora possibile, ma decisamente più improbabile, è un aumento della varianza della media campionaria ... ma io proprio al diminuire di questa stavo facendo affidamento per parlare di p-valore che diminuisce con $n$ (ricordo che sottintendevo la nulla come falsa anche perché altrimenti era priva di senso la richiesta di distanza costante).

Un "semplice" quesito sul p-value

Un "semplice" quesito sul p-value

Re: Un "semplice" quesito sul p-value

Re: Un "semplice" quesito sul p-value

Re: Un "semplice" quesito sul p-value

Re: Un "semplice" quesito sul p-value

Re: Un "semplice" quesito sul p-value

Re: Un "semplice" quesito sul p-value

Re: Un "semplice" quesito sul p-value

Chi c’è in linea