Supponiamo di avere il seguente problema:
abbiamo un'urna contenente un certo numero di palline Bianche e Nere indistinguibili al tatto. Vogliamo stimare la % di palline Bianche.
Per raggiungere il nostro scopo il ricercatore sta pensando come strutturare l'esperimento e gli vengono subito due idee:
$epsilon_1$ - Campionamento diretto: si estraggono $n$ palline con reimmissione dall'urna e si contano ($k$) quante palline bianche abbiamo estratto
$epsilon_2$ - Campionamento inverso: si estraggono con reimmissione un numero di palline $n$ variabile finché non ne osserviamo $k$ bianche, con $k$ fissato.
Con l'esperimento $epsilon_1$ possiamo utilizzare la seguente distribuzione (una bernulliana)
$p(x|theta)=theta^x(1-theta)^(1-x)mathbb{1}_({0;1})(x)$
dove $0<theta<1$ rappresenta la percentuale ignota di palline bianche.
Per costruire lo stimatore ottimale in senso "oggettivo", secondo la teoria classica e senza "farci suggestionare dalle nostre informazioni personali" utilizziamo il teorema di Rao-Blackwell insieme al lemma di Lehmann-Scheffé e calcoliamo come stimatore ottimale la seguente quantità
$hat(theta)=mathbb{E}[T|S]$
dove $T$ è uno stimatore non distorto di $theta$ mentre $S$ è lo stimatore sufficiente e completo del modello. Per ragioni arcinote, $S=Sigma_i X_i$
Come stimatore non distorto scelgo il più semplice, ovvero $T=X_1$ (la prima pallina estratta, dove indico 1 se è bianca oppure zero se è nera) e quindi
$mathbb{E}[T|S]=(mathbb{P}[X_1=1]mathbb{P}[Sigma_iX_i=k|X_1=1])/(mathbb{P}[Sigma_iX_i=k])=(thetamathbb{P}[sum_(i=2)^(n)X_i=k-1])/(((n),(k))theta^k(1-theta)^(n-k))=$
$=(((n-1),(k-1))theta^k(1-theta)^(n-k))/(((n),(k))theta^k(1-theta)^(n-k))=k/n$
...e quindi concludiamo che il miglior stimatore per sapere quante palline bianche abbiamo nell'urna è contare quante ne escono sulle $n$ estratte e farne la percentuale (risposta anche molto intuitiva ma supportata dalla teoria)
Ora vediamo cosa accade con l'esperimento numero 2
A questo punto, il modello che possiamo utilizzare è il seguente (geometrico)
$p(x|theta)=(1-theta)^(x-1)thetamathbb{1}_({1;2;3;...})(x)$
Anche qui lo stimatore sufficiente e completo è sempre la solita statistica canonica di classe esponenziale: $S=Sigma_iX_i$ mentre lo stimatore non distorto più semplice che possiamo trovare è questo $T=mathbb{1}_({1})(X_1)$
e quindi calcoliamo lo stimatore ottimo (nello stesso senso dello stimatore precedente)
$mathbb{E}[T|S]=(theta((n-2),(k-2))theta^(k-1)(1-theta)^(n-k))/(((n-1),(k-1))theta^k(1-theta)^(n-k))=(k-1)/(n-1)$
che però è sensibilmente diverso dal primo stimatore ottenuto.
Ora supponiamo che nel primo esperimento su 10 estrazioni abbiamo osservato 4 palline bianche e nell'esperimento 2 siano state necessarie altrettante 10 estrazioni prima di trovare 4 palline bianche. Il risultato sperimentale sarebbe identico ma le stime ottenute sensibilmente diverse:
$hat(theta)_(epsilon_1)=4/10$
$hat(theta)_(epsilon_2)=3/9$
In conclusione, possiamo dire che "l'oggettività" evocata dalla Statistica classica non esiste. Infatti con lo stesso risultato sperimentale abbiamo ottenuto due diverse stime di $theta$ basandoci sempre su stimatori ottimali. Tale circostanza è dovuta al fatto che la ricerca di stimatori ottimali è basata sul modo con cui viene organizzato lo spazio campionario (cioè l'insieme dei possibili risultati dell'esperimento) e questo dipende ovviamente dal ricercatore.
Vale la pena anche di osservare che la maggior parte delle tecniche della Statistica Classica no rispettano il principio di verosimiglianza secondo il quale due esperimenti $(epsilon_1,z_1)$ e $(epsilon_2,z_2)$ danno lo stesso contributo informativo se le corrispondenti funzioni di verosimglianza sono induttivamente equivalenti (ossia le funzioni di verosimiglianza differiscono al più per una costante moltiplicativa o per una costante additiva nel caso di funzioni di log-verosimiglianza).
Quello che fa la statistica bayesiana è proprio superare questa oggettività dell'inferenza ragionando in termini di "coerenza", ovvero dando "soggettivamente" una valutazione di probabilità ad un determinato evento purché tale valutazione rispetti un principio fondamentale:
Una valutazione di probabilità sugli eventi $E_1,E_2,...,E_n$ è coerente se nessuna combinazione di scommesse consente di realizzare un guadagno non negativo in ognuno dei casi possibili, cioè in corrispondenza di ognuno dei valori logici fissati di $E_1,E_2,...,E_n$ , e positivo in almeno uno di essi
In altri termini, non deve essere possibile, scegliendo una opportuna combinazione degli importi $S_1,S_2,...,S_n$, assicurarsi un guadagno comunque gli eventi si svolgano.