Intendo studiare la relazione fra fumo e disabilità cognitiva

Messaggioda login » 22/03/2017, 14:29

Salve a tutti, ho il seguente quesito

"Intendi studiare la relazione fra abitudine al fumo (misurata come numero medio di pacchetti di sigarette fumati in un anno - pack/year) e la disabilità cognitiva (misurata attraverso la MMSE che dà 0 punti a nessuna disabilità e 30 punti alla massima disabilità) nei pazienti con il parkinson.
La varianza delle due variabili è pari a $300 ((pack)/(year))^2$ e $4 (puntiMMSE)^2$"


Dunque per impostare lo studio per prima cosa scelgo la variabile di outcome, per farlo devo stabilire con che tipo di variabili ho a che fare, entrambe mi sembrano variabili di tipo discreto se conto solo i pacchetti di sigaretti interi e i punti interi, altrimenti potrebbero essere continue se uso numeri con la virgola, per come sono fatti i test medici propenderei più per le discrete (visto che anche le varianze sono intere)

La variabili in questione le misurerei con scala di rapporto, perché esiste lo zero assoluto infatti un punteggio zero indica assenza di disabilità e zero pacchetti di sigarette annui indicano assenza di abitudine al fumo.


Cosa farei? Prenderei un gruppo di fumatori estratto random dalla popolazione dei fumatori, per ogni soggetto associo due valori 1) valore medio di pack/year = X
2) punteggio mmse = Y

la variabile di outcome a questo punto sarà la Y e imposterei uno studio andando a calcolarmi una di queste tre cose
la covarianza
il coefficiente di correlazione lineare
il coefficiente di regressione

dopodichè in base al parametro scelto imposto la statistica test e una verifica di ipotesi dove l'ipotesi nulla sarà che non esiste dipendenza fra le due variabili.

Il mio problema è che così facendo potrei al massimo dimostrare una relazione di tipo lineare, ma non una relazione in generale .. :(
Come devo fare per studiare che tipo di relazione c'è in generale?
La covarianza misura anche lei la dipendenza lineare giusto?
Avatar utente
login
Average Member
Average Member
 
Messaggio: 414 di 838
Iscritto il: 04/10/2010, 15:24

Re: Intendo studiare la relazione fra fumo e disabilità cognitiva

Messaggioda Injuria » 22/03/2017, 15:42

Il mio problema è che così facendo potrei al massimo dimostrare una relazione di tipo lineare, ma non una relazione in generale .. :(

Forse non dimostreresti nemmeno una relazione lineare, o meglio, avresti dimostrato analiticamente che i dati girano, più o meno, attorno ad una retta, ma non è detto che questa retta sia il modo migliore di spiegare la relazione (sempre che esista) fra le due variabili. Inoltre il modello lineare presenta delle restrizioni che bisognerebbe tenere in considerazione (esempio: omoschedasticità), non farlo porterebbe ad errori non solo descrittivi, ma anche di stima piuttosto ingenui e grossolani.
Prima delle stime bisognerebbe fare un lavoro di statistica descrittiva: guarda come sono i dati, fai un grafico a dispersione e poi ragione se esiste una funziona (non necessariamente lineare) che potrebbe spiegare l'andamento dei dati.
La covarianza misura anche lei la dipendenza lineare giusto?

No, come dice la parola stessa ti dice come varia una variabile rispetto ad un'altra. La covarianza e la regressione lineare hanno un legame, ma l'una non presuppone l'esistenza dell'altra.
Avatar utente
Injuria
Senior Member
Senior Member
 
Messaggio: 421 di 1094
Iscritto il: 21/10/2007, 00:33

Re: Intendo studiare la relazione fra fumo e disabilità cognitiva

Messaggioda login » 22/03/2017, 16:47

grazie per la risposta Injuria, il mio problema è che questo è un esercizio guidato, non qualcosa che voglio dimostrare io, per l'esame che sto preparando abbiamo studiato solo 5 cose
chi quadro
zeta test
t-student
regressione lineare/ correlazione ecc

Gli strumenti che possiedo sono solo questi e con questi dovrei sapere in teoria rispondere al quesito..

Non posso fare un grafico di dispersione perché NON ho i dati! Il quesito che mi viene posto è puramente teorico, le uniche informazioni che ho sono contenute nel testo!
Per questo avevo pensato alla covarianza, la covarianza è l'unica cosa che conosco che non per forza dimostra una relazione lineare, insomma dimostra che le due variabili variano in modo dipendente?
Pensa che l'esercizio mi chiede che statistica test userei quando non so assolutamene niente :'(
Avatar utente
login
Average Member
Average Member
 
Messaggio: 415 di 838
Iscritto il: 04/10/2010, 15:24

Re: Intendo studiare la relazione fra fumo e disabilità cognitiva

Messaggioda Injuria » 22/03/2017, 20:09

Il mio problema è che così facendo potrei al massimo dimostrare una relazione di tipo lineare, ma non una relazione in generale .. :(

Non so cosa intendi per "relazione generale", immagino una legge deterministica che associ le due variabili oppure un rapporto di causa-effetto. Nel primo caso, non avendo a disposizione i dati, ma solo le varianze è impossibile stabilire una legge se non quella lineare. Nel secondo caso la statistica non ti dà spiegazioni, ti dà un indizio su cui eventualmente indagare da un punto di vista medico-scientifico. La relazione fra fumo da sigaretta e cancro ai polmoni fu scoperta molto prima della spiegazione dei meccanismi che portano i fumatori ad avere più probabilità di ammalarsi di cancro al polmone.
Per questo avevo pensato alla covarianza, la covarianza è l'unica cosa che conosco che non per forza dimostra una relazione lineare, insomma dimostra che le due variabili variano in modo dipendente?

No, te lo ripeto, non dimostra una relazione lineare. In questo esercizio la covarianza è solo un passaggio per andarti a calcolare il coefficiente di correlazione e il coefficiente di regressione. Due variabili possono crescere o decrescere tendenzialmente insieme, ma non sai in che modo lo fanno, se in modo lineare, esponenziale, curvilineo, sinusoidale etc etc...
Peraltro in assenza di dati questo è difficile stabilirlo anche calcolando altri indici.
Pensa che l'esercizio mi chiede che statistica test userei quando non so assolutamente niente

...ma un libro di statistica di base, due appunti, una dispensa proprio non le hai?
Per misurare la significatività della regressione farei un semplice test di significatività basato sulla statistica z...anche perché credo sia l'unico che si possa fare in questo caso.

I conclusione ti basta applicare le formule e vedrai che ne esci fuori.
Avatar utente
Injuria
Senior Member
Senior Member
 
Messaggio: 422 di 1094
Iscritto il: 21/10/2007, 00:33

Re: Intendo studiare la relazione fra fumo e disabilità cognitiva

Messaggioda login » 23/03/2017, 08:31

grazie mille per i consigli Injuria, io infatti alla fine avevo fatto la regressione e verificato con zeta test, il mio grosso dubbio era che non mi sembrava totalmente corretto perché mi stavo buttando sulla verifica di una relazione lineare a casaccio, d'altra parte è l'unica cosa che posso fare
Avatar utente
login
Average Member
Average Member
 
Messaggio: 416 di 838
Iscritto il: 04/10/2010, 15:24

Re: Intendo studiare la relazione fra fumo e disabilità cognitiva

Messaggioda markowitz » 25/03/2017, 12:12

Injuria ha scritto:
Il mio problema è che così facendo potrei al massimo dimostrare una relazione di tipo lineare, ma non una relazione in generale .. :(

Forse non dimostreresti nemmeno una relazione lineare, o meglio, avresti dimostrato analiticamente che i dati girano, più o meno, attorno ad una retta, ma non è detto che questa retta sia il modo migliore di spiegare la relazione (sempre che esista) fra le due variabili. Inoltre il modello lineare presenta delle restrizioni che bisognerebbe tenere in considerazione (esempio: omoschedasticità), non farlo porterebbe ad errori non solo descrittivi, ma anche di stima piuttosto ingenui e grossolani.


Non confondiamo troppo le idee. Per prima cosa si sta qui evidentemente parlando di approccio statistico quindi, in tal caso quando si parla di relazione lineare o di altra natura si sta solo caratterizzando, solitamente, la speranza condizionale e non certo ogni osservazione puntuale.
Nei termini del problema, se il coefficiente è significativo, la relazione lineare è, in prima battuta, dimostrata ... dopodichè protrebbe trattarsi di una specificazione da rivedere e potreebbero esserci problemi sui residui e quant'latro (sulla regressione vi è ampia letteratura) ma l'dea di base è proprio quella di fare la regressione e vedere il coefficiente. Se poi con "relazione" intendete proprio la causalità, come mi sembra, la questione è delicata ... ma si "gira" comunqua qui intorno.

Injuria ha scritto:Prima delle stime bisognerebbe fare un lavoro di statistica descrittiva: guarda come sono i dati, fai un grafico a dispersione e poi ragione se esiste una funziona (non necessariamente lineare) che potrebbe spiegare l'andamento dei dati.

Questo è vero.

Injuria ha scritto:
La covarianza misura anche lei la dipendenza lineare giusto?

No, come dice la parola stessa ti dice come varia una variabile rispetto ad un'altra. La covarianza e la regressione lineare hanno un legame, ma l'una non presuppone l'esistenza dell'altra.

Come no? Certamente si!
La covarianza coglie proprio, almeno, una relazione di tipo lineare. Infatti l'indice di correlazione lineare (altra misura che proponi) non è altro che una normalizzazione della covarianza. Inoltre il coefficiente di regressione lineare (terza misura che proponi) è in strettissima relazione ed in un contesto bivariato come quello di cui parli ti offre ancora
praticamente la stessa informazione. Ovvero $beta_(yx) = sigma_(yx)/(sigma_(x,x)) = rho_(yx)*sigma_y/sigma_x$.
Se non c'è relazione lineare $beta_(yx) = rho_(yx) = sigma_(yx) = 0$
ovvero non c'è neanche regressione, o in parole diverse covarianza correlazione e regressione sono esattamente l'una la conseguenza dell'altra.
(notare che con relazione intendo proprio e solo l'associazione statistica di tipo lineare)
markowitz
Senior Member
Senior Member
 
Messaggio: 500 di 1034
Iscritto il: 14/02/2010, 21:50

Re: Intendo studiare la relazione fra fumo e disabilità cognitiva

Messaggioda Injuria » 26/03/2017, 06:34

markowitz ha scritto:... dopodichè protrebbe trattarsi di una specificazione da rivedere e potreebbero esserci problemi sui residui e quant'latro

Direi che questo è l'aspetto cruciale che ha portato alla mia risposta, anche perché la domanda era posta come segue:
login ha scritto:Il mio problema è che così facendo potrei al massimo dimostrare una relazione di tipo lineare, ma non una relazione in generale .. :(
Come devo fare per studiare che tipo di relazione c'è in generale?

Quindi ho pensato che ci fosse un problema proprio di specificazione, ovvero ho dimostrato una relazione lineare, ma non mi va bene, non mi basta a spiegare l'andamento delle due variabili (e sarebbe stato una giusta ambizione dato che, ad esempio, la relazione fra fumo e cancro non è lineare, ma curvilinea).
markowitz ha scritto:La covarianza coglie proprio, almeno, una relazione di tipo lineare.

Anche qui l'obiezione è da chiarire: se è vero che non può esistere una relazione lineare senza che la covarianza si allontani significativamente da zero è anche vero che questo non implica che esista una relazione lineare, anche se analiticamente potremmo anche avere ragione e dimostrare che il coefficiente e significativo.
Però sarebbe un errore, a prescindere che gli scopi siano descrittivi che inferenziali.
Questa figura (rubata a Wikipedia) può dimostrarlo meglio di qualunque spiegazione. I coefficienti delle figure sono i medesimi: 0.816, alto e significativo.

Immagine

Da qui gli errori di descrizione del fenomeno e la non correttezza degli eventuali stimatori in quanto non rispettano le ipotesi del modello lineare.
Certo, come vediamo dalla figura, con una covarianza alta possiamo far passare sempre una retta in mezzo ai dati in quanto tendenzialmente, come dicevo nei precedenti post, le variabili vanno nella stessa direzione. Il rischio è voler descrivere ed usare come modello di previsione la medesima retta per fenomeni che hanno andamenti completamente diversi fra loro.
Avatar utente
Injuria
Senior Member
Senior Member
 
Messaggio: 425 di 1094
Iscritto il: 21/10/2007, 00:33

Re: Intendo studiare la relazione fra fumo e disabilità cognitiva

Messaggioda markowitz » 26/03/2017, 14:23

Il mio intento del post precedente era solo quello di evitare la confusione.

Avevo intuito che volevi andare a parlare dei problemi del modello di regressione lineare classico tra cui vi sono quelli che hai introdotto. Questo va benissimo ma penso sia più istruttivo procedere per gradi, ad esempio, in base al post iniziale, andare a parlare di eteroschedasticità forse va un poco oltre gli obbiettivi della domanda e ... appunto può confondere le idee. In effetti se ho ben capito login non ha neppure i dati ... mi sembra quindi prematuro anche andare a parlare del problema, più grave, dell'errata specificazione funzionale. Su quest'ultimo aspetto però è la domanda stessa che è ambiziosa (troppo ambiziosa se non si hanno neppure i dati):
login ha scritto:...
Cosa farei? Prenderei un gruppo di fumatori estratto random dalla popolazione dei fumatori, per ogni soggetto associo due valori 1) valore medio di pack/year = X
2) punteggio mmse = Y

la variabile di outcome a questo punto sarà la Y e imposterei uno studio andando a calcolarmi una di queste tre cose
la covarianza
il coefficiente di correlazione lineare
il coefficiente di regressione

dopodichè in base al parametro scelto imposto la statistica test e una verifica di ipotesi dove l'ipotesi nulla sarà che non esiste dipendenza fra le due variabili.

Il mio problema è che così facendo potrei al massimo dimostrare una relazione di tipo lineare, ma non una relazione in generale .. :(
Come devo fare per studiare che tipo di relazione c'è in generale?
La covarianza misura anche lei la dipendenza lineare giusto?

tuttavia dato che la domanda è questa la tua introduzione al problema della specificazione è calzante. In definitiva che dire ... in un contesto così ampio ed interessante ... ma anche vago negli intenti e nel livello sul quale ci si vuole muovere ... è effettivamente difficile calibrare una discussione in modo proficuo.
Infatti ciò che mi ha portato ad intervenire non sono gli aspetti sopra ma quello che mi pare sia stato da parte tua, almeno, un eccesso di disinvoltura con cui parli di "relazione" lineare non dimostrata anche quando la covarianza ed il coefficiente di regressione siano non nulli ... è dentro la parola "relazione" che si gioca la partita (predizione/inferenza/causalità / modello vero / modello approssimato) ... ma è proprio qui si deve fare occhio e, a mio parere, restare semplici per non confondere ... e non confondersi. Infine il tuo approccio ti ha portato a un affermazione palesemente sbagliata (sulla covarianza) che ho messo in luce nel terzo punto del mio precedente post. E' principalmente questo che mi ha portato ad intervenire. Peraltro ho potuto notare spesso come si tenda a dare al coefficiente di regressione, del modello bivariato, un significato ... come dire ontologicamente diverso rispetto al coefficiente di corr lineare, senza saper poi argomentare (non sto assolutamente dicendo che sia il tuo caso), che invece sarebbe un becero indice ... quando algebricamente ...
Ho capito che non sei digiuno dell'argomento e che volevi mettere un focus sulle cautele da utilizzare ... ma anche con le cautele bisogna andare cauti :-D ... altrimenti invece di aiutare il neofita ... rischi di confonderlo.
markowitz
Senior Member
Senior Member
 
Messaggio: 501 di 1034
Iscritto il: 14/02/2010, 21:50


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite