residuo regressione lineare

da **math93** » 19/07/2018, 10:49

ciao a tutti, avrei un dubbio sulla regressione lineare che credo sia di notazione.
il modello lineare ipotizzato è del tipo: $ y_i=a*x_i + b + z_i $ dove $z_i$ è l'aliquota aleatoria gaussiana di media nulla e varianza sigma^2 .
Date le stime dei minimi quadrati dei parametri a e b, l'equazione della retta dei minimi quadrati è $Y= a'*X+b' $ .
Ora viene definito il residuo $z_i= y_i-y'_i $ dove $ y'_i $ sono i valori stimati in corrispondenza di $x_i$.
il dubbio è relativo al perché venga utilizzata la stessa lettera ( $z_i$) per definire due quantità diverse, la prima relativa alla differenza tra il dato e il modello e la seconda invece relativa alla differenza col dato stimato.

da **math93** » 22/07/2018, 17:35

Allora nel modello lineare la $ y_i $ è legata alla v.a $z_i$, infatti $y_i=a*x_i+b+z_i$.
La retta di regressione invece rappresenta il valore atteso condizionato. Quello su cui non mi trovo però è che nel modello di regressione fa riferimento ai parametri veri $a$ e $b$ e non alla loro stima quindi ad $ \hat{a} $ e $ \hat{b} $ il cui valore attesto è il parametro vero.
L'errore $z_i$ ipotizzo sia relativo alla differenza $y_i-a*x_i+b$ per come è scritto il modello lineare, dove i parametri considerati non sono quelli stimati.
$\hat{y_i}=a*x_i+b$ rappresenta infatti la retta di regressione teorica che è diversa da quella ottenuta stimandone i parametri col metodo dei minimi quadrati.
Per questo non mi trovo con l'espressione
$\hat{y_i}=\hat{a}*x_i+\hat{b}=y_i-z_i$ perché è come se uguagliasse i parametri stimati con quelli veri.

In aggiunta , quando si fa il test di dipendenza lineare, si valuta l'ipotesi $a=0$ che sottintende l'assenza di dipendenza lineare di $Y$ da $X$ e quindi una retta di regressione lineare (teorica, quindi con parametri veri $a$ e $b$) orizzontale.
Viene detto che quindi le $\hat{y_i}$ sono tutte stime corrette del valore atteso di $Y$ uguale a ($b$).
Nel test al numeratore si valutano le somme delle differenze quadratiche $ \sum_{k=1}^N (\hat{y_i}-\bar{y})^2 $. Ora se tra la $\hat{y_i}=a*x_i+b$ e $\hat{y_i}=\hat{a}*x_i+\hat{b}$ non ci fosse differenza, quella sommatoria dovrebbe venire zero perché se la retta di regressione teorica fosse orizzontale vorrebbe dire che ogni $\hat{y_i}$ è uguale a $\bar{y}$. Questo rimanda allora al dubbio espresso inizialmente. Spero di essere stato più chiaro.

da **tommik** » 23/07/2018, 08:00

E' evidente che $(ax+b)$ e $(hat(a)x+hat(b))$ non sono la stessa cosa.

Una volta stimati i parametri con il metodo che preferisci, anche gli errori saranno stimati, dunque avrai anche $hat(z)$

In termini più precisi e generalizzando il problema a k regressori, abbiamo:

Modello: $ul(y)=Xul(beta)+ul(epsilon)$

Simbologia:

$ul(y)=$ variabile osservabile, vettore di dimensioni $(nxx1)$

$X=$ matrice dei dati deterministicamente osservabile di dimensioni $(nxxk)$

$ul(beta)=$ vettore non noto (da stimare) di dimensione $(kxx1)$

$ul(epsilon)=$ variabile aleatoria su cui vengono avanzate alcune ipotesi (è detta variabile aleatoria non osservabile), vettore di dimensione $(nxx1)$

Ipotesi di base:

1. $E[ul(epsilon)]=ul(0)$

2. $E[ul(epsilon)ul(epsilon)']=sigma^2I_n$

3. $"rango"(X)=k$ (la matrice $X$ ha rango pieno)

Commenti sulle ipotesi di base

1. se non fosse vera, basterebbe una traslazione.

2. la matrice varianze covarianze ha tutte le varianze uguali fra di loro e tutte le covarianze nulle $rarr$ sugli errori si fa l'ipotesi di omoschedasticità e sono non correlati. Per l'ipotesi 1. la varianza degli errori coincide con il loro momento secondo.

3. la matrice $X$ ha rango pieno, ovvero le sue colonne sono linearmente indipendenti $rarr$ non vi è collinearità. Tale ipotesi è cruciale per poter applicare il metodo dei minimi quadrati per stimare il vettore ignoto dei parametri.

Minimizzando lo scalare $ul(epsilon)'ul(epsilon)$ ci accorgiamo che:

$ul(epsilon)'ul(epsilon)=(ul(y)-Xul(beta))'(ul(y)-Xul(beta))$

è una forma quadratica limitata inferiormente dallo zero, per cui basterà derivare rispetto a $beta$ e porre uguale a zero

$ul(epsilon)'ul(epsilon)=ul(y)'ul(y)-ul(y)'Xul(beta)-ul(beta)'X'ul(y)+ul(beta)'X'Xul(beta)=ul(y)'ul(y)-2ul(beta)'X'ul(y)+ul(beta)'X'Xul(beta)$

$partial/(partialbeta)(ul(epsilon)'ul(epsilon))=-2X'ul(y)+2X'Xul(beta)=ul(0)$

$X'Xul(beta)=X'ul(y)$

ottenendo così la stima

$ul(hat(beta))=(X'X)^(-1)X'ul(y)$

Con le assunzioni fatte, $E(ul(y))=Xul(beta)$

Se ora sostituiamo $hat(beta)$ a $beta$ otteniamo anche le previsioni del modello (che sono comunque delle previsioni in media):

$ul(hat(y))=Xul(hat(beta))$

e l'errore di previsione è dunque

$ul(hat(epsilon))=ul(y)-ul(hat(y))$

L'errore di previsione può essere espresso anche in modi diversi (ma è sempre lui)

$ul(hat(epsilon))=ul(y)-Xul(hat(beta))$

$ul(hat(epsilon))=ul(y)-X(X'X)^(-1)X'ul(y)$

$ul(hat(epsilon))=[I-X(X'X)^(-1)X']ul(y)$

$ul(hat(epsilon))=[I-P]ul(y)$

Oppure anche

$ul(hat(epsilon))=(I-P)ul(y)=(I-P)(Xul(beta)+ul(epsilon))=(I-P)Xul(beta)+(I-P)ul(epsilon)$

essendo però

$(I-P)Xul(beta)=Xul(beta)-PXul(beta)=Xul(beta)-X(X'X)^(-1)X'Xul(beta)=ul(0)$

abbiamo

$ul(hat(epsilon))=(I-P)ul(epsilon)$

Tale ultima relazione NON permette di calcolare l'errore di previsione $ul(hat(epsilon))$ me è solo un modo (molto utile per stimare $sigma^2$) per esprimere $ul(hat(epsilon))=f(ul(epsilon))$

Infatti abbiamo

$E[ul(hat(epsilon))'ul(hat(epsilon))]=E[ul(epsilon)'(I-P)(I-P)ul(epsilon)]=E[ul(epsilon)'(I-P)ul(epsilon)]=(n-k)sigma^2$

Testo nascosto, fai click qui per vederlo

Prima di tutto occorre osservare che

1) le matrici $P$ e $(I-P)$ sono simmetriche ed idempotenti:

$P=X(X'X)^(-1)X' rarr P^2=X(X'X)^(-1)X'X(X'X)^(-1)X'=X(X'X)^(-1)X'$

$(I-P)^2=I-2P+P^2=I-P$

2) essendo simmetriche ed idempotenti il $"rango"(I-P)="Traccia"(I_n-P)=n-"Traccia"(P)=n-k$ essendo evidentemente

$"Traccia"[X(X'X)^(-1)X']="Traccia"[X'X(X'X)^(-1)]="Traccia"(I_k)=k$

3) Con $G$ matrice simmetrica si ha

$E[ul(epsilon)'Gul(epsilon)]=E[sum_i epsilon_i^2g_(ii)+sum sum_(i !=j)g_(ij)epsilon_iepsilon_j]=E[sum_iepsilon_i^2g_(ii)]=sigma^2"Traccia"(G)$

Da cui consegue subito che

$hat(sigma)^2=(ul(hat(epsilon))'ul(hat(epsilon)))/(n-k)$ è stimatore non distorto per $sigma^2$

Tale stimatore è calcolabile così:

$hat(sigma)^2=((ul(y)-Xhat(ul(beta)))'(ul(y)-Xhat(ul(beta))))/(n-k)$

A questo punto, inserendo anche l'ipotesi più forte di Normalità nella distribuzione dei residui, per le note proprietà del modello Gaussiano:

$((ul(y)-Xhat(ul(beta)))'(ul(y)-Xhat(ul(beta))))/sigma^2~chi_((n-k))^2$

Per quanto riguarda una prima spiegazione sui residui della regressione mi pare sufficiente fermarmi qui. Spero che questa risposta possa essere utile a te ed anche ad altri utenti. Se ancora non fosse chiaro ti invito a consultare testi specifici¹.

Note

Questa dispensa, ad esempio, è la prima che ho trovato; ad una prima veloce lettura mi pare che non vi siano refusi ma sulla rete ne puoi trovare a centinaia ↑

da **math93** » 23/07/2018, 19:40

ho letto varie dispense ed anche in quel caso vengono sovrapposti i termini residuo ed errore, definendo prima il modello lineare come $y_i=a*x_i+b+z_i$ e poi $z_i=y_i-\hat{y_i}$ dove
$\hat{y_i}=\hat{a}*x_i+\hat{b}$ con i parametri stimati col metodo dei minimi quadrati.
Credo quindi sia un problema più che altro di notazione perché evidentemente la retta di regressione coi parametri veri non è uguale a quella con i parametri stimati e questo trova conferma nella sommatoria che ho scritto sopra.
Ad ogni modo grazie per la risposta.

residuo regressione lineare

residuo regressione lineare

Re: residuo regressione lineare

Re: residuo regressione lineare

Re: residuo regressione lineare

Chi c’è in linea