Modello predittivo basato su Componenti Principali quando i nuovi dati hanno variabili diverse

da **Massimo_Venturi** » 16/10/2019, 10:15

Buongiorno,

ho costruito un modello predittivo di regressione logistica per classificare un corpus di documenti.
La variabile dipendente è la tipologia del documento (p.e. A o B) mentre le variabili dipendenti, per via della dimensionalità, sono i primi 2 fattori ottenuti eseguendo una Principal Component Analysis (PCA) o una Single Value Decomposition (SVD) sulle colonne (termini) della matrice documenti/termini.

La domanda è questa: su un nuovo corpus di documenti (e quindi una diversa matrice documenti/termini), è metodologicamente corretto utilizzare lo stesso modello se i primi due fattori sono ottenuti da un insieme diverso di variabili (termini)?

Con i migliori saluti
Max

Modello predittivo basato su Componenti Principali quando i nuovi dati hanno variabili diverse

Modello predittivo basato su Componenti Principali quando i nuovi dati hanno variabili diverse

Chi c’è in linea