Aiuto sulla scelta del giusto test statistico

da **Sciascione** » 06/05/2016, 19:22

Salve a tutti,
inizio con il ringraziare chi risponderà a questo post.
Cercherò di rendere bene l'idea così da facilitare la comprensione della richiesta. Sto preparando un esame che prevede il realizzarsi di un'ipotetico protocollo sperimentale, il che consiste nello scrivere un articolo scientifico prendendo dati in maniera randomica (da una matrice dotata dal Prof.) e scegliendo le variabili cui attribuirli. Ho scelto perciò di correlazionare l'andamento nel tempo di vocalizzazioni di passero con l'andamento (sempre nel tempo) del passaggio di autotreni.
Ho quindi la mia matrice dove ho: il totale per mese di vocalizzazioni di passero (5 mesi); il totale per mese di passaggi di autotreni (sempre 5 mesi).
La domanda che vi pongo è: per quale test correlativo sarebbe meglio optare volendo osservare se all'aumentare del passaggio di autotreni corrisponde una diminuzione di vocalizzazione da parte dei passeri?

Vi ringrazio da ora per futuri spunti

da **tommik** » 06/05/2016, 23:19

il più semplice è il test chi-quadro...è di facilissima applicazione ma dice unicamente se le variabili sono indipendenti o no.

Test più specifici(che quindi provano anche la concordanza o discordanza fra le variabili) basati sui ranghi sono:

1) il $tau$ di Kendall

2) il $rho$ di Spearman

3) il test di cograduazione di Gini

Tutti li trovi sui principali testi di statistica (o anche in rete) ben spiegati.

Non è da escludere che per i tuoi scopi possa essere indicata anche un'analisi di regressione con il calcolo dei principali indici di correlazione, come il coefficiente di correlazione, il rapporto di correlazione di Pearson, indice di determinazione oppure un'analisi della varianza (ANOVA)

***********************
Se i dati sono organizzati sotto forma di matrice è facile applicare il chi-quadro. Il test non non è in grado di dire se vi sia concordanza o discordanza...ma è molto semplice e soprattutto molto ben conosciuto, utilizzato e quindi approvato da un pubblico molto ampio, anche di non statistici. Inoltre, una volta stabilito che le variabili non sono indipendenti tramite questo semplice test, se si vede una discordanza fra le variabili si può concludere che tale discordanza non è semplicemente dovuta al caso ma ad una ben precisa causa

Facciamo un esempio:

Immagine

la prima tabella rappresenta una matrice di 200 persone, divise fra il carattere sesso e l'indirizzo politico.

Per provare o meno la dipendenza basta costruire una tabella ad hoc (la seconda) basata sull'indipendenza teorica. Tale tabella si ottiene moltiplicando fra di loro i valori marginali (cioè quelli che si leggono sull'ultima riga e sull'ultima colonna) e dividendo il risultato per il totale (es: $37,82=(124\cdot61)/200$)

successivamente si calcola il test facendo

$(34-37,82)^2/(37,82)+.....+(21-18,62)^2/(18,62)=3,32$

e si confronta il valore così trovato con quello delle tavole...in questo caso 5,991 (al 95%)

dato che $3,32 < 5,99$ non rifiuto l'ipotesi di indipendenza....e quindi si conclude che la differenza dei dati rispetto a quelli teorici di indipendenza è solamente dovuta alla variabilità del fenomeno e non ad una causa specifica...

*************************************************
Se invece i dati sono organizzati a coppie allora è facile fare un test più specifico per provare la concordanza / discordanza fra le variabili (come mi pare di capire dalla tua richiesta). In questo caso si può applicare un test sui ranghi...il $rho$ di spearman è l'ideale....

Procedura

1) si ordina la variabile A e si assegna ad ogni valore il suo rango (ovvero il posto che tale osservazione occupa nella serie ordinata

2) si ordina la variabile B e si fa la stessa cosa

3) si calcola la statistica del test $rho=1-(6sum_(i)d_(i)^2)/(n(n^2-1))$, dove $d_i$ sono le differenze fra i ranghi

4) si confronta il valore ottenuto con quello delle tavole oppure

5) se n è grande (>30 ma si può fare anche se n>10) si usa la trasformazione $Z=rho sqrt(n-1)$ e si usa la tavola della gaussiana standard

Come sempre nei test, se il valore della statistica è (in valore assoluto) superiore a quello delle tavole si rifiuta l'ipotesi di indipendenza

Vediamo anche qui un esempio

Immagine

in questo caso accettiamo l'ipotesi di indipendenza (valore critico di Z è $+-1,65$ al 95% ; se usiamo la distribuzione esatta di $rho$ il valore critico al 95% è circa 0,38)

Immagine

in questo caso invece rifiutiamo l'ipotesi di indipendenza e concludiamo che esiste una correlazione negativa fra le due variabili (Z al 99% è pari a -2,32 e qui troviamo un valore del test pari a -3,3 che è molto più alto in valore assoluto - siamo nella coda di sinistra della normale)

Per valori piccoli di n basta usare la tavola seguente:

Immagine