Modello predittivo basato su Componenti Principali quando i nuovi dati hanno variabili diverse

Messaggioda Massimo_Venturi » 16/10/2019, 10:15

Buongiorno,

ho costruito un modello predittivo di regressione logistica per classificare un corpus di documenti.
La variabile dipendente è la tipologia del documento (p.e. A o B) mentre le variabili dipendenti, per via della dimensionalità, sono i primi 2 fattori ottenuti eseguendo una Principal Component Analysis (PCA) o una Single Value Decomposition (SVD) sulle colonne (termini) della matrice documenti/termini.

La domanda è questa: su un nuovo corpus di documenti (e quindi una diversa matrice documenti/termini), è metodologicamente corretto utilizzare lo stesso modello se i primi due fattori sono ottenuti da un insieme diverso di variabili (termini)?

Con i migliori saluti
Max
Massimo_Venturi
Starting Member
Starting Member
 
Messaggio: 1 di 2
Iscritto il: 16/10/2019, 09:33

Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite