Ottimo!
Fossero tutti chiari come te, sarebbe un mondo migliore.
Ok, allora mi pare che la direzione sia segnata...giusto il minimo per essere operativi...ma non significa che tu non debba leggere e anche molto. Ho selezionato (fra alcuni paper che ho trovato in rete) questo
http://www-dimat.unipv.it/luca/words/PCAprint.pdfNon perchè sia esaustivo (al contrario) ma perchè un'ottima scaletta da seguire Per comprendere la tecnica ACP devi andare in blibioteca e trovare un buon libro. Anche perchè la tecnica è meccanica (come tutte le tecniche) nel calcolo ma se poi non sai cosa sia il risultato e come leggerlo, non te ne farai nulla.
Inoltre visto che se ne è parlato recentemente, ti linko un thread in cui fornisco un'idea assai generale sull'argomento...leggilo giusto per passare il tempo.
Infine, per cominciare ad esplorare, ti dico il primo passaggio che devi fare, così inizi a mettere insieme le idee e rispolverare un poco di algebra lineare e statistica.
Immagina la tua matrice come un rilevazione di un campione. I diversi titoli sono i caratteri rilevati, i periodi sono le singole persone intervistate. Se vuoi cominciare da un esempio semplice createne uno o pescane uno per la rete, magari con tre variabili e un campione ridotto di intervistati...così potrai verificare anche manualmente tutti passaggi.
Quindi nella sostanza abbiamo una matrice con n righe e m colonne....dove n è molto più grande di m solitamente, dato che il numero di variabili/caratteri (in questo caso i vari titoli) sono in numero estremamente più piccolo rispetto al numero di soggetti rilevati (nel nostro caso i soggetti sono periodi temporali).
Abbiamo quindi una matrice non quadrata, di cui potremmo calcolare ad esempio le medie delle colonne (quindi per singola variabile) e le varianze sempre per colonne. E infine pure le covarianze fra colonne.
Se avrai deciso per l'esempio preso da internet, potrai farlo anche con una calcolatrice...ma ora facciamo entrare l'lagebra lineare
Se prendo una matrice non quadrata A, ne faccio la trasposta e la moltiplico per se stessa, ovvero $A^T*A$, si ottiene SEMPRE una matrice quadrata simmetrica (non giustificherò i concetti, dovrai rivederteli da solo, ok?).
Inoltre se noti, facendo la trasposta di una matrice, la prima colonna diventa la prima riga...ed andrà a moltiplicarsi con le colonne di A..e la prima riga di $A^T$ e la prima colonna di $A$ sono identiche. Quindi questo prodotto scalare fa semplicemente la somma dei quadrati quindi.
Ora immagina di aver calcolato la media della prima colonna di A e di aver sottratto quest'ultima da tutti gli elementi della colonna stessa, ottieni degli $x_i-M(x)$. Quindi quando moltiplichi la prima riga della trasposta per la prima colonna di A, non fai altro che sommare gli $[x_i-M(x)]^2$ ovvero il primo elemento della matrice simmetrica che otterrai è la devianza del primo titolo! E quando moltiplichi la prima riga delal trasposta per la seconda colonna ottieni la codevianza fra il primo titolo e il secondo e così via. Insomma, se prima depuri le colonne delle rispettive medie e fai il prodotto A^TA, ottiene una matrice quadrata la cui diagonale sono le devianze dei singoli titoli e gli elementi esterni sono le codevianze...e infatti dato che $codev(x,y)=codev(y,x)$ la matrice è simmetrica.
Insomma usando l'algebra lineare ci ricaviamo in questo modo la matrice di devianza e codevianza che avremmo potuto calcolare "a mano" ma lo faremo in modo rapido preciso e soprattuto con matlab.
Questo primo passaggio è fondamentale capirlo e vorrei che ti sincerassi che avvenga esattamente così, perchè è esattamente questo ciò che farai, ovvero decomporre la matrice della "variabilità e covariabilità" fra i titoli.
Buon lavoro per ora.
Quando avrai finito torna e andremo al passo successivo..ma vorrei che ti rinfrescassi anche qualcosa di algebra lineare del tipo "tutte le matrice simmetriche sono diagonalizzabili ed hanno autovalori reali ed è sempre possibile ottenere un set di autovettori che sono perpendicolari a due a due" (e anche oviamente cosa siano autovalori ed autovettori).
Poi possiamo passare alla decomposizione e al significato geometrico..e subito dopo a quello statistico.