Buongiorno,
ho costruito un modello predittivo di regressione logistica per classificare un corpus di documenti.
La variabile dipendente è la tipologia del documento (p.e. A o B) mentre le variabili dipendenti, per via della dimensionalità, sono i primi 2 fattori ottenuti eseguendo una Principal Component Analysis (PCA) o una Single Value Decomposition (SVD) sulle colonne (termini) della matrice documenti/termini.
La domanda è questa: su un nuovo corpus di documenti (e quindi una diversa matrice documenti/termini), è metodologicamente corretto utilizzare lo stesso modello se i primi due fattori sono ottenuti da un insieme diverso di variabili (termini)?
Con i migliori saluti
Max