normale multivariata

Messaggioda in_me_i_trust » 06/03/2007, 14:24

In MATLAB normpdf(X,mu,sigma) mi dà la densità normale univariata però non riesco a trovare il comando per la multivariata..Così ho provato a scriverla da me..

Allora la funzione di verosimiglianza della normale multivariata pare sia

$L(x)=|2\pi \Sigma|^(-1/2) \exp(-1/2 (x-\mu)'\Sigma^(-1) (x-\mu))$

allora in matlab l'ho scritta come

L=inline('(exp((-1/2)*(x-mu)*pinv(S)*(x-mu)''))/sqrt(2*pi*det(S))');

che mi dà giustamente

Inline function:
L(S,mu,x) = (exp((-1/2)*(x-mu)*pinv(S)*(x-mu)'))/sqrt(2*pi*det(S))

il problema è che se la vo a calcolare nei vettori su cui sto lavorando, invece di darmi un numero reale mi dà uno complesso..Che dite sto facendo delle cavolate colossali ? :shock:
^^
in_me_i_trust
Junior Member
Junior Member
 
Messaggio: 77 di 264
Iscritto il: 13/01/2006, 21:42
Località: firenze

Messaggioda Chicco_Stat_ » 06/03/2007, 17:02

spiegami cosa ti serve..perché anche se l'ho usato poco mi pare che in matlab ci sia la funzione per la generazione di numeri casuali da una multinormale, cosa vuol dire che la vai a calcolare sui vettori su cui lavori? devi fare test di ipotesi?
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 138 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano

Messaggioda in_me_i_trust » 06/03/2007, 19:23

Allora per il momento nessun test delle ipotesi, proverò a chiarirti il mio problema: Sto cercando di applicare una tecnica dell'analisi discriminante in particolare il metodo di Bayes. Probabilmente lo saprai già però per essere sicuro che stiamo masticando la stessa cosa voglio chiarire meglio il concetto. Io ho due campioni di dati noti $X_(1)$ e $X_(2)$, sono due matrici che hanno lo stesso numero di colonne ma diverso numero di righe (anche se questo è ininfluente potrebbero avere anche lo stesso numero di righe), e ho poi un campione incognito $X$ da classificare, ogni riga di $X$ deve essere classificato come appartenente a $X_(1)$ o a $X_(2)$.

Il metodo di Bayes è abbastanza semplice da applicare: Dice di costruire la funzione di massima verosimiglianza $L_(1)$ per il campione $X_(1)$ che è una normale multivariata di vettore media $\mu_(1)$ e matrice di covarianza $\Sigma_(1)$, di fare la stessa cosa per il campione $X_(2)$. Tali funzioni, moltiplicate preventivamente per delle probabilità a priori $\pi_(j)$, calcolate nel vettore i-esimo di $X$ mi daranno un numero. Se $\pi_(1) L_(1) (X_(i))> \pi_(2) L_(2)(X_(i))$ allora l'osservazione i-esiama, $X_(i)$, apparterrà al campione $X_(1)$ altrimenti a $X_(2)$. Che ne dici c'è l'ho fatta a esprimermi in modo coerente, purtroppo faccio ingegneria e con la statistica multivariata non sono ferratissimo!!
^^
in_me_i_trust
Junior Member
Junior Member
 
Messaggio: 78 di 264
Iscritto il: 13/01/2006, 21:42
Località: firenze

Messaggioda Chicco_Stat_ » 06/03/2007, 21:44

ti sei espresso in modo chiarissimo, fa piacere sapere che anche ad ingegneria fate di queste cose..francamente però allora non posso darti una mano...come possono mai uscirti dei numeri complessi? la matrice di varianze e covarianze (che è l'unica che potrebbe darti dei problemi) è definita positiva..un'altra cosa...se il campione è formato da $n$ elementi allora hai

$L(x)=|2\pi \Sigma|^(-n/2) \exp(-1/2 (x-\mu)'\Sigma^(-1) (x-\mu))$

se non ricordo male...c'è la potenza $-n/2$ e non $-1/2$ sulla prima componente..prova a vedere se per caso è quella..
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 139 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano

Messaggioda in_me_i_trust » 07/03/2007, 14:32

be ecco in realtà sto facendo tirocinio collaborando ad una ricerca col dipartimento di matematica applicata che si trova dentro ingegneria solo che anche i professori che ci sono lì di probabilità sanno poco e quindi devo fare da me, solo pochi ''pazzi'' osano fare l'indirizzo ''modelli e metodi matematici'' ad ingegneria quindi diciamo che sono un po' una pecora nera.

Per quanto riguarda l' $n/2$ a dire la verità non l'ho trovato, a me viene definita come te l'ho scritta sopra, sto usando il testo MULTIVARIATE ANALYSIS di K.V.MARDIA, J.T.KENT, J.M.BIBBY comunque se mi dici che non è possibile vengano numeri complessi, come in effetti pensavo, è evidente che la scrivo male in matlab ma questo è un problema che penso, a forza di provare, di poter risolvere.

Già che ci sono vorrei approfittare di te chiedendoti un' ultima cosa:
Le variabili che compongono il campione $X_(1)$ si possono scrivere come $X_(11), X_(12),..,X_(1p)$ (sono vettori colonna), la stessa cosa vale per il secondo campione $X_(2)$ ottenendo $X_(21), X_(22),.., X_(2p)$ e ovviamente vale una cosa analoga per il campione incognito, la mia domanda è la seguente:

poichè sono convinto che alcune variabili (ma non so quali) mi danno delle informazioni che peggiorano la classificazione, esiste qualche metodo che mi permette di assegnare, diciamo così, un ''punteggio'' ad ogni variabile in modo tale che se ad esempio la variabile $X_(k3)$ $(k=1,2)$ so che sbaglia più di tutte le altre, allora non la uso per discriminare il campione incognito riuscendo così ad ottenere una classificazione migliore?

ciao ciao !
^^
in_me_i_trust
Junior Member
Junior Member
 
Messaggio: 80 di 264
Iscritto il: 13/01/2006, 21:42
Località: firenze

Messaggioda Chicco_Stat_ » 07/03/2007, 15:55

ci sono vari metodi che si basano sull'idea di centroide se non ricordo male..in pratica stabilisci un punto "centrale" e fissi una distanza da quel punto, se l'osservazione che estrai dista più di quel che hai fissato dal punto centrale la elimini...
però attenzione ad eliminare le informazioni...
l'analisi discriminante ti classifica come appartenente ad un gruppo piuttosto che ad un altro le tue osservazioni..in linea teorica questa partizione dovrebbe esaurire tutte le possibilità..quindi se una osservazione "scappa molto" (è un outlier) in una direzione piuttosto che in un'altra, va inserita nel gruppo più "vicino" a quella posizione...
però penso si possa fare, ma questa distanza va definita in senso statistico, ovvero dev'essere una sorta di intervallo di confidenza...
altra alternativa è utilizzare come centroide una statistica "robusta" ovvero tipo la mediana, che non risente dell'influenza di pochi outlier..
chiaramente nel caso in cui ci siano molti outlier automaticamente essi non lo sono più. ma può voler dire che hai trovato un altro gruppo..
se vedi che l'analisi discriminante non basta più potresti provare con la cluster analysis!
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 140 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano

Messaggioda in_me_i_trust » 07/03/2007, 19:28

Grazie! anche se per poter apprezzare fino in fondo la tua risposta devo studiare un bel po' di roba, comunque i gruppi devono essere 2 quindi se trovo tanti outliers che sono molto distanti dall'uno e dall'altro gruppo potrei dire che sono dei ''disturbi'' più che delle informazioni utili..Bo ma forse è meglio non mi metta a dire sciocchezze :roll:
^^
in_me_i_trust
Junior Member
Junior Member
 
Messaggio: 81 di 264
Iscritto il: 13/01/2006, 21:42
Località: firenze

Messaggioda Chicco_Stat_ » 07/03/2007, 20:36

si ma tieni conto che, sempre che non mi ricordi male, comunque la partizione per l'analisi discriminante in due gruppi esaurisce lo spazio..
cioé sono uno complementare dell'altro come gruppi..altrimenti non so se sia proprio analisi discriminante..uhm...boh ci guarderò!
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 141 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite