Verosimiglianza, probabilità condizionata e probabilità a posteriori

da **Shun** » 30/12/2017, 13:04

Ciao a tutti, ho alcuni dubbi sulla funzione di verosimiglianza e sul suo legame con la probabilità condizionata, spero che possiate darmi un aiuto.

Nella teoria della stima si vuole stimare il valore di un parametro $theta$ avendo a disposizione N misure $ul(x)_0=(x_01, ... , x_(0N))$, realizzazioni di una variabile aleatoria (VA) N-dimensionale $ul(X)=(X_1, ... , X_N)$.
Se non ho capito male la funzione di verosimiglianza non è una funzione di probabilità, i.e. non opera sulla VA $ul(X)$, ma è una funzione che fissata la realizzazione $ul(x)_0$ (a valle della misura/osservazione dell'esperimento) opera sul parametro incognito $theta$. La funzione di verosimiglianza è definita attraverso la densità di probabilità congiunta della VA $ul(X)$, considerando $ul(X)=ul(x)_0$, parametrizzata dal parametro $theta$:

$L_(ul(x)_0)(theta) = p_(ul(X);theta)(ul(x); theta)|_(ul(x)=ul(x)_0$

Nel caso di misure statisticamente indipendenti si può fattorizzare la densità di probabilità congiunta nella produttoria delle N densità marginali:

$L_(ul(x)_0)(theta) = p_(ul(X);theta)(ul(x); theta)|_(ul(x)=ul(x_0))=prod_(n = 1)^(N) p_(X_n;theta)(x_n;theta)$

dove ogni marginale si può determinare conoscendo il modello probabilistico dell'esperimento.

Nel metodo di stima della massima verosimiglianza (ML) si considera il parametro incognito $theta$ come deterministico, cioè non aleatorio, e avendo a disposizione la misura $ul(x)_0$ si cerca il valore $theta_(ML)$ che massimizza la funzione $L_(ul(x)_0)(theta)$, di solito in versione logaritmica.

Nel metodo di stima della massima probabilità a posteriori (MAP) si considera il parametro incognito $theta$ come aleatorio, cioè si ha a disposizione una densità di probabilità a priori $p_theta(theta)$, e avendo a disposizione la misura $ul(x)_0$ si cerca il valore $theta_(MAP)$ che massimizza la densità di probabilità a posteriori $p_(theta|ul(X))(theta|ul(x))|_(ul(x)=ul(x)_0)$, di solito in versione logaritmica usando la formula di Bayes.

Dubbio 1
Se fin qui mi è chiaro (a meno che non abbia capito male), il mio dubbio riguarda la formula di Bayes che si utilizza per legare la verosimiglianza alla probabilità a posteriori.
La formula di Bayes per le densità di probabilità è:
$p_(theta|ul(X))(theta|ul(x))=(p_(ul(X)|theta)(ul(x)|theta)p_(theta)(theta))/(p_(ul(X)(ul(x)))$

Non ho capito perché nel criterio MAP al posto della densità di probabilità condizionata si considera la funzione di verosimiglianza, cioè si scrive:
$p_(theta|ul(X))(theta|ul(x))=(L(theta)p_(theta)(theta))/(p_(ul(X)(ul(x)))$

Non si era definita la verosimiglianza come densità di probabilità congiunta della VA $ul(X)$, considerando $ul(X)=ul(x)_0$, parametrizzata dal parametro $theta$?

Esempio
Supponiamo che la VA $X$ sia data dalla somma di un parametro $theta$ e una VA Gaussiana $W$ con valore atteso nullo e varianza $sigma_w^2$: $X=theta+W$

Nel caso ML si considera $theta$ non aleatorio, quindi la $X$ è data dalla somma di una costante e la VA $W$. Dato che conosciamo la densità di probabilità $p_W(w)$ ricaviamo la densità di probabilità in base a quello che ci dice la teoria sulle trasformazioni di VA e otteniamo $p_X(x)=p_W(x-theta)$. Quindi $X$ è una VA Gaussiana con valore atteso $theta$ e varianza $sigma_w^2$.

Nel caso MAP si considera $theta$ aleatorio, (ad esempio una VA Gaussiana con valore atteso $m_(theta)$ e varianza $sigma_(theta)^2$), quindi secondo me $X$ dovrebbe essere data dalla somma delle due VA $theta$ e $W$. Per determinare la densità condizionata $p_(X|theta)(x|theta)$ che compare nella formula di Bayes calcolerei prima la $p_(X)(x)$ facendo la convoluzione tra le densità $p_(theta)(theta)$ e $p_(W)(w)$, quindi calcolerei la densità condizionata sfruttando la formula nota nel caso gaussiano e considerando il coefficiente di correlazione nullo. Sul libro invece si considera la verosimiglianza $L(theta)$ al posto della $p_(X|theta)(x|theta)$, potete spiegarmi perché?

Vi ringrazio!

da **tommik** » 30/12/2017, 16:33

La verosimiglianza è proprio la funzione che rappresenta i dati, cioè le osservazioni $X_i$ dato un certo valore del parametro $theta$ che, in statistica bayesiana, è dotato di funzione di densità.
Sul parametro si possono avere o meno delle informazioni iniziali: se le abbiamo, tali informazioni sono contenute nella prior ($pi(theta)$) altrimenti il risultato coinciderà con quello della stima con la max verosimiglianza
Oltre al metodo MAP c'è anche quello che stima il parametro con la media della posterior; rispetto al MAP, questo metodo minimizza il MSE.

Ora sono in vacanza...se hai voglia quando torno ti mostro alcuni esempi pratici

da **Shun** » 30/12/2017, 17:14

Grazie per la risposta!
Il metodo MMSE lo devo studiare nel prossimo capitolo del libro! Il mio dubbio più che altro è se per determinare la funzione di verosimiglianza devo considerare $theta$ come parametro o come variabile aleatoria. Se non ho capito male dici che $theta$ va considerato come parametro incognito in tutti i casi (ML, MAP, MMSE) e non come variabile aleatoria. O meglio, lo considero sempre come parametro quando calcolo la verosimiglianza (come nell'esempio che ho postato), e nel caso sia aleatorio in più aggiungo la probabilità a priori $p(theta)$. Se è così mi trovo.
Anche in alcune dispense online ho trovato un riscontro, ad esempio in queste dispense di statistica (numero a piè di pagina 338, 339), sul sito stats qui(1) e qui(2). Se è permesso riporto questa risposta di un utente:

$p(x|θ)$ can be seen from two points of view:

1)As a function of $x$, treating $θ$ as known/observed. If $θ$ is not a random variable, then $p(x|θ)$ is called the (parameterized) probability of $x$ given the model parameters $θ$, which is sometimes also written as $p(x;θ)$ or $p_(θ)(x)$. If $θ$ is a random variable, as in Bayesian statistics, then $p(x|θ)$ is a conditional probability, defined as $(p(x,θ))/(p(θ))$.

2)As a function of $θ$, treating $x$ as observed. For example, when you try to find a certain assignment $hat(θ)$ for $θ$ that maximizes $p(x|θ)$, then $p(x|hat(θ))$ is called the maximum likelihood of $θ$ given the data $x$, sometimes written as $L(hat(θ)|x)$. So, the term likelihood is just shorthand to refer to the probability $p(x|θ)$ for some data $x$ that results from assigning different values to $θ$ (e.g. as one traverses the search space of $θ$ for a good solution). So, it is often used as an objective function, but also as a performance measure to compare two models as in Bayesian model comparison.
Often, this expression is still a function of both its arguments, so it is rather a matter of emphasis.

In poche parole, se non ho capito male, sia nel caso ML che nel caso MAP per fare la stima devo calcolare la verosimiglianza $L(theta)$, l'unica differenza è che nel caso MAP devo considerare anche la $p(theta)$.

Per gli esempi va benissimo quando puoi, ti ringrazio molto!
Buona vacanza!

da **tommik** » 30/12/2017, 18:36

Sì più o meno... nel caso della stima di Max verosimiglianza massimizzi la funzione $L(ul(x)|theta)$ rispetto a $theta$. Nel caso della stima MAP massimizzi la densità a posteriori

$P(theta|ul(x)) prop pi(theta)p(ul(x)|theta)$

Dove per $p(ul(x)|theta)$ si intende la verosimiglianza

Es: lanciamo 6 volte una moneta ed otteniamo 4 teste. La verosimiglianza è una binomiale:

$L prop theta^4(1-theta )^2$ che ha un massimo in $hat(theta)_(ML)=4/6$ ovvero un massimo in corrispondenza dello stimatore $bar(x)$

Ora se noi avessimo delle informazioni a priori sul parametro, ad esempio che la moneta è regolare (e quindi per noi $theta$ è intorno a 0.5) allora potremmo scegliere una prior che privilegia tali valori, ad esempio $pi(theta) prop theta(1-theta)$ ed utilizzare la stima MAP

$p(theta|ul(x))prop theta^5(1-theta)^3$ che ha un massimo in $hat(theta)_(MAP)=5/8$

Che è una via di mezzo fra le informazioni a priori (0,5) e le risultanze osservate (0.67).

Vedrai al capitolo successivo che questa distribuzione posterior è una $"Beta"(6,4)$ con media 0,6. Tale media è lo stimatore MMSE bayesiana

A presto... ora sono al circolo polare artico....un po' fuori mano per queste cose...

È un esempio fatto a braccio, molto semplicemente ma spero che ti abbia chiarito un po' le idee

da **Shun** » 31/12/2017, 10:42

Tutto chiaro, ti ringrazio davvero tanto per la risposta! In pratica si usa la verosimiglianza anche nella stima MAP perché lavorando a valle della misurazione si ha a disposizione la realizzazione $x$ della variabile aleatoria $X$, quindi non ha senso considerare la densità di probabilità condizionata di $X$ rispetto a $theta$ poiché è una misura stocastica a monte, bensì ha senso considerare la verosimiglianza di $x$ rispetto a $theta$ perché è una misura statistica a valle. Perfetto!
L'esempio va benissimo, è molto chiaro, e ti ringrazio ancora nonostante la vacanza... Buon anno!

Verosimiglianza, probabilità condizionata e probabilità a posteriori

Verosimiglianza, probabilità condizionata e probabilità a posteriori

Re: Verosimiglianza, probabilità condizionata e probabilità a posteriori

Re: Verosimiglianza, probabilità condizionata e probabilità a posteriori

Re: Verosimiglianza, probabilità condizionata e probabilità a posteriori

Re: Verosimiglianza, probabilità condizionata e probabilità a posteriori

Chi c’è in linea