Ciao a tutti, ho alcuni dubbi sulla funzione di verosimiglianza e sul suo legame con la probabilità condizionata, spero che possiate darmi un aiuto.
Nella teoria della stima si vuole stimare il valore di un parametro $theta$ avendo a disposizione N misure $ul(x)_0=(x_01, ... , x_(0N))$, realizzazioni di una variabile aleatoria (VA) N-dimensionale $ul(X)=(X_1, ... , X_N)$.
Se non ho capito male la funzione di verosimiglianza non è una funzione di probabilità, i.e. non opera sulla VA $ul(X)$, ma è una funzione che fissata la realizzazione $ul(x)_0$ (a valle della misura/osservazione dell'esperimento) opera sul parametro incognito $theta$. La funzione di verosimiglianza è definita attraverso la densità di probabilità congiunta della VA $ul(X)$, considerando $ul(X)=ul(x)_0$, parametrizzata dal parametro $theta$:
$L_(ul(x)_0)(theta) = p_(ul(X);theta)(ul(x); theta)|_(ul(x)=ul(x)_0$
Nel caso di misure statisticamente indipendenti si può fattorizzare la densità di probabilità congiunta nella produttoria delle N densità marginali:
$L_(ul(x)_0)(theta) = p_(ul(X);theta)(ul(x); theta)|_(ul(x)=ul(x_0))=prod_(n = 1)^(N) p_(X_n;theta)(x_n;theta)$
dove ogni marginale si può determinare conoscendo il modello probabilistico dell'esperimento.
Nel metodo di stima della massima verosimiglianza (ML) si considera il parametro incognito $theta$ come deterministico, cioè non aleatorio, e avendo a disposizione la misura $ul(x)_0$ si cerca il valore $theta_(ML)$ che massimizza la funzione $L_(ul(x)_0)(theta)$, di solito in versione logaritmica.
Nel metodo di stima della massima probabilità a posteriori (MAP) si considera il parametro incognito $theta$ come aleatorio, cioè si ha a disposizione una densità di probabilità a priori $p_theta(theta)$, e avendo a disposizione la misura $ul(x)_0$ si cerca il valore $theta_(MAP)$ che massimizza la densità di probabilità a posteriori $p_(theta|ul(X))(theta|ul(x))|_(ul(x)=ul(x)_0)$, di solito in versione logaritmica usando la formula di Bayes.
Dubbio 1
Se fin qui mi è chiaro (a meno che non abbia capito male), il mio dubbio riguarda la formula di Bayes che si utilizza per legare la verosimiglianza alla probabilità a posteriori.
La formula di Bayes per le densità di probabilità è:
$p_(theta|ul(X))(theta|ul(x))=(p_(ul(X)|theta)(ul(x)|theta)p_(theta)(theta))/(p_(ul(X)(ul(x)))$
Non ho capito perché nel criterio MAP al posto della densità di probabilità condizionata si considera la funzione di verosimiglianza, cioè si scrive:
$p_(theta|ul(X))(theta|ul(x))=(L(theta)p_(theta)(theta))/(p_(ul(X)(ul(x)))$
Non si era definita la verosimiglianza come densità di probabilità congiunta della VA $ul(X)$, considerando $ul(X)=ul(x)_0$, parametrizzata dal parametro $theta$?
Esempio
Supponiamo che la VA $X$ sia data dalla somma di un parametro $theta$ e una VA Gaussiana $W$ con valore atteso nullo e varianza $sigma_w^2$: $X=theta+W$
Nel caso ML si considera $theta$ non aleatorio, quindi la $X$ è data dalla somma di una costante e la VA $W$. Dato che conosciamo la densità di probabilità $p_W(w)$ ricaviamo la densità di probabilità in base a quello che ci dice la teoria sulle trasformazioni di VA e otteniamo $p_X(x)=p_W(x-theta)$. Quindi $X$ è una VA Gaussiana con valore atteso $theta$ e varianza $sigma_w^2$.
Nel caso MAP si considera $theta$ aleatorio, (ad esempio una VA Gaussiana con valore atteso $m_(theta)$ e varianza $sigma_(theta)^2$), quindi secondo me $X$ dovrebbe essere data dalla somma delle due VA $theta$ e $W$. Per determinare la densità condizionata $p_(X|theta)(x|theta)$ che compare nella formula di Bayes calcolerei prima la $p_(X)(x)$ facendo la convoluzione tra le densità $p_(theta)(theta)$ e $p_(W)(w)$, quindi calcolerei la densità condizionata sfruttando la formula nota nel caso gaussiano e considerando il coefficiente di correlazione nullo. Sul libro invece si considera la verosimiglianza $L(theta)$ al posto della $p_(X|theta)(x|theta)$, potete spiegarmi perché?
Vi ringrazio!