Faccio un po' di chiarezza a partire dalla matrice A.
3m0o ha scritto:\( A = \begin{pmatrix}
(a_1 - z)^T\\
\vdots\\
(a_m-z)^T
\end{pmatrix} \)
Mettiamo $z={0}$. $A_0$ è una matrice mxn la cui somma delle righe è zero.
Usiamo l'esempio che hai fornito:
$ A_0=( ( 1 , 0 ),( 0 , 1 ),( -1 , 0 ),( 0 , -1 ) ) $
Quindi $m=4$ $n=2$. A me sta benissimo così perchè in effetti le matrici con cui si lavora sono tutte di questo tipo con $m>" >n$ dove le colonne rappresentano le variabili e le righe il campione rilevato e $A^TA$ è una matrice simmetrica invertibile.
Quindi con somma delle componenti intendo proprio gli elementi di ogni colonna...quindi gli $a_i$ sono le righe (ovvero le osservazioni campionarie) e tutto torna. Vedi io di solito chiamo gli $a_i$ le colonne/variabili, da qua la mia confusione.
Non ti annoio con la statistica (per ora
) ma userò l'algebra lineare e farò un ragionamento (classico).
Supponiamo di avere un sistema $A_0x=w$ che non ha soluzione perchè w non si trova nello span dell'immagine di A.
Ma vogliamo comunque risolverlo, come? Troviamo un vettore v che stia nell'immagine per rimpazzare w.
Ma non un v qualsiasi: vogliamo che v sia la proiezione ortogonale di w sull'immagine.
Questo è il metodo dei minimi quadrati o regressione alla media. Nella sostanza troviamo la retta che passa per l'origine per cui la somma delle distanze (in modulo) di tutti $a_i$ è minima. Infatti li proiettiamo ortogonalmente, quindi la distanza è la più piccola possibile e visto che le differenze sono vettori ortogonali, usando pitagora, anche la somma dei quadrati delle distanze sarà la minore possibile.
Ora non so per quale motivo, il libro stia facendo un ragionamento al contrario, in cui non hai un vincolo w e lavori già nello spazio dell'immagine.
In pratica parte ponendo z=0 e ti dice che hai già v passante per l'origine.
Torniamo all'esempio. $A_0$ ha già le colonne depurate dalla loro media, come lo so? Perchè come hai detto deve essere il baricentro! E' la proprietà fondamentale della media aritmetica.
Infatti $ sum_(i=1)^(m) (a_i-z)=0 rArr sum_(i=1)^(m) a_i-mz=0 rArr z=1/msum_(i=1)^(m) a_i=M(z) $
z è il vettore delle medie delle righe di $A^T$
E ora guardiamo cosa accade se facciamo:
$ A_0^TA_0=( ( 1 , 0 , -1 , 0 ),( 0 , 1 , 0 , 1 ) ) ( ( 1 , 0 ),( 0 , 1 ),( -1 , 0 ),( 0 , -1 ) ) =( ( 2 , 0 ),( 0 , 2 ) ) $
Lungo la diagonale ci sono le norme al quadrato dei vettori colonna, in gergo statistico le devianze delle due variabili/colonne. Fuori dalla diagonale ci sono i prodotti scalari fra variabili/colonne, in gergo le codevianze (e sono tutte zero perchè le variabili/colonne sono ortogonali).
Gli autovettori sono la base canonica e sono associati ad un unico autovalore 2.
Se facessimo $ A_0^TA_0v=2v$ per qualsiasi v...per ovvie ragioni visto che si trova già nell'unico autospazio possibile.
Questo spiega perchè in generale non si possa affermare che v sia unico.
Mi fermo qua per ora. Ma dovresti "vedere" da dove salta fuori il vettore delle medie z e dovresti intuire che se sposti il baricentro, allora fissato un v le distanze saranno sempre superiori.