Esempio semplice PCA calcolo semi-manuale

Messaggioda kefir » 17/05/2019, 18:49

Salve, sono studente di Scienze dell’Alimentazione ed attualmente sto preparando l’esame di analisi sensoriale degli alimenti. Tra le tante metodiche statistiche applicate in questo genere di indagini attualmente sto cercando con grande ammattimento ad apprendere l’Analisi delle Componenti Principali, che è molto usata. Premetto che sono conscio del fatto che questo tipo di metodica, prevedendo l’utilizzo di un grande numero di variabili e di oggetti debba necessariamente essere effettuata mediante software. Però mi piacerebbe riuscire ad essere in grado quantomeno ad effettuare manualmente, aiutato da excel, un calcolo manualmente su un esempio con pochi numeri, giusto per acquisirne meglio il senso. Purtroppo leggendo l’argomento su vari libri di statistica e un po sul web, c’è sempre qualcosa che mi sfugge e non mi permette di arrivare al mio obiettivo. Molto potrebbe anche dipendere dal fatto che non essendo molto ferrato di statistica in generale spesso ho grossa difficoltà anche a comprendere il linguaggio delle equazioni che ho trovato in varie spiegazioni. Vi dico a che punto sono arrivato e mi piacerebbe, se qualcuno avrà piacere di intervenire, che mi fornisca un indirizzo su dove sto sbagliando e magari anche come superare l’ostacolo. Dunque, dopo questa lunga premessa passiamo al sodo. Ho una matrice di dati numerici continui tutti rilevati con la stessa scala. Sulle righe ho 4 diversi vini e sulle colonne ho 4 variabili che si riferiscono a 4 attributi di questi vini ricavati da punteggi espressi da un gruppo di giudici/assaggiatori. Le variabili sono espresse come media dei punteggi di ciascun giudice per quel dato attributo in quel dato vino. Spero di essermi spiegato. Ora, vorrei arrivare quanto meno ad esprimere i punteggi (scores) dei vini in due sole coordinate collegate a 2 componenti principali che mi piacerebbe riuscire di calcolare in modo da fare una rappresentazione bidimensionale. Come si fa? Da quanto spiegatoci a lezione dovrei partire centrando tutti i dati della matrice rispetto alla media numerica generale. Una volta espressi i dati come differenze dalla media generale, calcolerei la varianza per ognuna delle mie 4 variabili e le ordinerei a decrescere a partire da quelle con varianza più alta. Quindi per iniziare il calcolo della prima componente principale fare una prima regressione lineare tra la variabile a maggior varianza e la seconda per varianza ricavando una funzione y=x*coefficiente angolare. Moltiplicando i valori di x per il coefficiente angolare così ricavato otterrei una nuova variabile (latente) contenente informazioni della prima e della seconda. A seguire effettuerei una regressione lineare tra questa variabile latente e la terza variabile originaria, la penultima in termini di valore di varianza, ed otterrei di nuovo una variabile latente che infine unirei all’ultima rimasta sempre con una regressione lineare. La funzione che ne deriva dovrebbe rappresentare la prima componente. Per il calcolo della seconda farei esattamente allo stesso modo soltanto partendo dalla seconda variabile a varianza più alta e dovrei ottenere l’equazione della seconda componente principale. Se qualcuno è riuscito a leggere fino a quì, vi torna quello che ho detto oppure è tutto sbagliato??
Grazie in anticipo a chi si prenderà la briga di leggere tutto e di rispondermi.
Filippo

Edit: ho provato a fare i conti che ho detto e confrontato il risultato ottenuto con software specifico ( Panelcheck) e i valori degli scores sulla pc1 non tornano. Ho rilevato che tra la variabile a maggior varianza (che chiamerò “Salato”) e la seconda e terza variabile vi è una correlazione lineare praticamente nulla. Invece esiste una correlazione lineare tra questa variabile e la quarta che chiamo “Dolce”, anche se la regressione lineare mi restituisce una slope bassa -0,267. Ho provato a ricavare gli scores degli oggetti moltiplicando il loro valore originario (come differenza dalla media generale) per il coefficiente angolare -0,267 che lega Dolce=salato*-0,267. Ma non torna. Ne dedurrei che questo non è il giusto modo di procedere. Mi basterebbe intanto riuscire a calcolare gli score degli oggetti sulla Pc1 partendo da questa semplice matrice di dati centrati sulla media generale. Qualcuno può spiegarmi come si fa?
Salato Amaro Acido Dolce
A 3,9375 -2,0625 -0,0625 -0,0625
B -0,0625 1,9375 -2,0625 3,9375
C -2,0625 -2,0625 1,9375 0,9375
D -2,0625 -2,0625 -2,0625 1,9375
kefir
Starting Member
Starting Member
 
Messaggio: 1 di 4
Iscritto il: 17/05/2019, 15:55

Re: Esempio semplice PCA calcolo semi-manuale

Messaggioda kefir » 19/05/2019, 13:41

Mi rispondo da solo. Ignoravo l’esistenza delle matrici di covarianza. Quindi alla fine sono giunto alla conclusione che la spiegazione fornita a lezione non fosse un metodo applicativo per giungere al calcolo delle componenti principali ma che servisse come esempio per comprenderne la logica, a grosse linee. Se non altro capito questo smetterò di impiegarci ulteriori energie.
kefir
Starting Member
Starting Member
 
Messaggio: 2 di 4
Iscritto il: 17/05/2019, 15:55

Re: Esempio semplice PCA calcolo semi-manuale

Messaggioda axpgn » 20/05/2019, 16:24

Se postavi nella stanza di Statistica forse avresti avuto più risposte ...
axpgn
Cannot live without
Cannot live without
 
Messaggio: 13495 di 14512
Iscritto il: 20/11/2013, 22:03

Re: Esempio semplice PCA calcolo semi-manuale

Messaggioda kefir » 20/05/2019, 16:52

Forse ho sbagliato hai ragione ma questo mi era parso più pertinente.
Ho calcolato la matrice di covarianza, o almeno credo.

6 -1,079 0 -1,48
-1,079 3 1,5396 2,722
0 1,5396 2,75 -1,625
-1,48 2,722 -1,625 2,18

Come faccio ora a ricavare la prima componente???

Edit: ho calcolato anche gli autovalori e gli autovettori!
Autovalori

-1,393
3,708
4,114
7,498

Autovettori
Lamda1 Lambda2 Lamda3 Lambda4
0,076 0,865 15,942 -1,717
-0,849 0,466 26,454 1,012
0,708 -0,948 28,602 -0,014
1 1 1 1


E ora come arrivo agli score degli elementi sulle componenti principali??
kefir
Starting Member
Starting Member
 
Messaggio: 3 di 4
Iscritto il: 17/05/2019, 15:55


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 20 ospiti