Verifica proprietà per campione significativo

Messaggioda nato_pigro » 25/09/2018, 08:43

Ciao a tutti,
probabilità non mi è mai piaciuta all'università, ho dato meno esami possibili e ora i nodi vengono al pettine.

Ho un'urna oscurata di palline N che possono essere -al massimo- di C colori diversi (come pure essere tutte dello stesso colore).
Tiro su K palline e sono tutte nere. Con che probabilità posso affermare che le palline siano tutte nere?

Altra domanda: il fatto che i colori possibili della palline inserite nell'urna siano C=2 oppure C=10 cambia la risposta alla domanda precedente?
Avatar utente
nato_pigro
Cannot live without
Cannot live without
 
Messaggio: 2623 di 3167
Iscritto il: 10/08/2006, 14:07
Località: Imperia

Re: Verifica proprietà per campione significativo

Messaggioda tommik » 25/09/2018, 09:48

nato_pigro ha scritto:probabilità non mi è mai piaciuta all'università, ho dato meno esami possibili e ora i nodi vengono al pettine.


quindi siamo esattamente agli antipodi.....io ho dato quanti più esami possibili di probabilità, anche se da circa 30 anni faccio altro.....e in probabilità mi diletto e stop.


L'approccio più classico al problema è quello di utilizzare la probabilità condizionata.

Dato che non sei uno studente, invece di soffermarmi su una soluzione analitica del problema (che può essere attaccato in vari modi) ti mostro come piacerebbe risolverlo a me....anche se la soluzione dà solo una parziale risposta al problema:

Supponiamo di non avere informazioni a priori su quante palline nere ci siano nell'urna...quindi per noi (in regime di totale ignoranza) $theta$ ,che rappresenta la % di palline nere nell'urna, può assumere qualunque valore fra zero e uno in modo equiprobabile.

A questo punto, la distribuzione a posteriori del parametro è la seguente

$pi(theta|ul(x))prop pi(theta)p(ul(x)|theta)$

Dato che su $k$ estrazioni troviamo $k$ successi la verosimiglianza è $p(ul(x)|theta) =theta^k$ mentre per le ipotesi fatte $pi(theta)=1$

in definitiva


$pi(theta|ul(x))prop theta^k~"Beta"(k+1,1)=(k+1)theta^k$

a questo punto fissiamo un livello di credibilità a nostra scelta $1-alpha$ (es 95%, 99% ecc ecc)

e troviamo che il nostro parametro che stabilisce la % di palline nere nell'urna è compreso nel seguente intervallo

$1-alpha=int_(theta_0)^(1)(k+1)theta^kd theta rarr theta_0=root(k+1)(alpha)$

e quindi verosimilmente la % di palline nere è compresa fra $theta_0$ e il 100%


Es: esrtaiamo 30 palline e sono tutte nere.....al 95% la percentuale di palline nere nell'urna è maggiore del 90%
tommik
Moderatore
Moderatore
 
Messaggio: 4424 di 11278
Iscritto il: 23/04/2015, 13:13
Località: Cassano Magnago

Re: Verifica proprietà per campione significativo

Messaggioda nato_pigro » 25/09/2018, 10:09

Grazie della risposta!
non mi ritrovo tanto con il formalismo che usi (e forse mi sono scordato delle cose...), ma...
$p$ e $pi$ sono diversi?
$prop$ è proporzionale? perchè lo usi? non è $=$ ?
$"Beta"$ chi è?
Ma soprattutto: come hai fatto a non usare il dato $N$?
Avatar utente
nato_pigro
Cannot live without
Cannot live without
 
Messaggio: 2624 di 3167
Iscritto il: 10/08/2006, 14:07
Località: Imperia

Re: Verifica proprietà per campione significativo

Messaggioda tommik » 25/09/2018, 10:22

$p$ è la distribuzione di probabilità della $n-$upla campionaria (una binomiale)

$pi$ è la distribuzione del parametro (in Statistica Bayesiana, questa è l'idea dell'approccio che ho usato) il parametro incognito è dotato di densità di probabilità. A conti fatti tale distribuzione risulta una distribuzione Beta.

Beta, per l'appunto, è una nota distribuzione di probabilità che risulta dal modello in questione (coniugata al modello binomiale)

Utilizzando il teorema di bayes si trova facilmente che

$pi(theta|ul(x))=(p(ul(x)|theta)pi(theta))/(int_(Theta)p(ul(x)|theta)pi(theta)d theta$

ma l'integrale al denominatore è un numero, quindi invece di stare a calcolarlo ho messo il simbolo $prop$, tanto poi la distribuzione mi è risutata nota ed ho inserito dopo la costante di normalizzazione (quell'integrale, a conti fatti, verrà $1/(k+1)$; in questo caso è molto semplice da calcolare ma in generale potrebbe non esserlo...)

Sono in giro per lavoro e sto scrivendo dal cellulare senza libri; ho risposto a questa discussione solo perché vi ho letto un interessante spunto di riflessione.....spero di non aver fatto sciocchezze ma mi pare che tutto giri

Ovviamente ho supposto di estrarre le palline "con reimmissione", tanto è solo un'idea risolutiva, non la soluzione effettiva al problema....ed inoltre nella traccia che hai scritto non si dice che tipo di campionamento fare, quindi ho scelto quello che più mi aggrada.

Giusto per avere un'idea di come approcciare il problema, puoi guardare qui

nato_pigro ha scritto:Ma soprattutto: come hai fatto a non usare il dato $N$?


ho spostato il problema stimando un intervallo di credibilità1 di $hat(theta)=k/N$


...lo so, non è un approccio standard ed infatti non la Statistica Classica ma quella Bayesiana

nell'approccio classico, utilizzando la probabilità condizionata, N entra eccome nel calcolo...


ciao

Note

  1. così si chiamano gli intervalli di confidenza in Statistica Bayesiana
tommik
Moderatore
Moderatore
 
Messaggio: 4425 di 11278
Iscritto il: 23/04/2015, 13:13
Località: Cassano Magnago

Re: Verifica proprietà per campione significativo

Messaggioda tommik » 26/09/2018, 09:02

ieri sera mi sono dilettato nei conteggi, utilizzando la probabilità condizionata

Testo nascosto, fai click qui per vederlo
Se ci limitiamo al campionamento con reimmissione (secondo me il numero di colori è ininfluente, abbiamo nere e non nere...) la probabilità richiesta è la seguente:

$A:"L'urna contiene solo palline nere"$

$B:"Estraggo k palline e sono tutte nere"$

$P(A|B)=1/(sum_(x=0)^(N)(x/N)^k((N),(x)))$



vi torna?
tommik
Moderatore
Moderatore
 
Messaggio: 4427 di 11278
Iscritto il: 23/04/2015, 13:13
Località: Cassano Magnago

Re: Verifica proprietà per campione significativo

Messaggioda nato_pigro » 26/09/2018, 09:33

Scusami, troppi input e poche cose chiare da seguire per me. Questo risultato dovrebbe essere uguale a quello del tuo primo post $root(k+1)(alpha)$?
se devo dire comunque il tuo primo approccio è troppo complicato per me, non sono riuscito a seguirlo. Provo a seguire questo.

$P(A|B)= (P(A \cap B)) / (P(B)) = (P(A)) / (P(B))$

Già qui io mi blocco per calcolare $P(A)$, non mi serve sapere quali sono i casi possibili e quindi i colori?
Avatar utente
nato_pigro
Cannot live without
Cannot live without
 
Messaggio: 2625 di 3167
Iscritto il: 10/08/2006, 14:07
Località: Imperia

Re: Verifica proprietà per campione significativo

Messaggioda tommik » 26/09/2018, 09:40

Mi sembrava di essere stato chiaro, evidentemente mi sono sbagliato. Ad ogni modo, il primo post era solamente un'idea di approccio alternativo: calcolare un intervallo di credibilità bayesiano per la proporzione delle palline nere nell'urna, non era una soluzione al problema e mi pare di averlo detto chiaramente

tommik ha scritto:Dato che non sei uno studente, invece di soffermarmi su una soluzione analitica del problema (che può essere attaccato in vari modi) ti mostro come piacerebbe risolverlo a me....anche se la soluzione dà solo una parziale risposta al problema:


$theta in [root(k+1)(alpha);1]$ è un intervallo di credibilità bayesiano all'interno del quale verosimilmente cade la % di palline nere contenute nell'urna partendo da totale ignoranza e basandosi solo sull'evidenza empirica di osservare k palline nere su k estrazioni casuali.

Se invece partiamo dal seguente testo (che tra l'altro non hai scritto nei dettagli)
Si abbia un'urna con palline nere e non nere (il fatto che ci siano più colori non influisce, secondo me). Estraiamo con reimmissione k palline e risultano tutte nere. Qual è la probabilità che le palline nell'urna siano tutte nere?


allora il problema si può risolvere con l'uso della probabilità condizionata1....

$P(A|B)=(P(A nnB))/(P(B))=(P(A)P(B|A))/(P(B))$

$P(A)="probabilità che l'urna abbia tutte palline nere"=(1/2)^N$

$P(B|A)=1$ (probabilità di aver estratto tutte nere sapendo che l'urna è formata da sole palline nere)

$P(B)=sum_(x=0)^(N)(x/N)^k(1/2)^N((N),(x))$

nato_pigro ha scritto:Scusami, troppi input e poche cose chiare da seguire per me.


mi spiace ma questo forum non è impostato per fornire soluzioni agli esercizi: la nostra politica è improntata a discussioni e scambio di informazioni che hanno l'obiettivo di chiarire dubbi, lacune e difficoltà nello svolgimento di un esercizio o nello studio della teoria. Il tuo post iniziale erà già contrario al regolamento, mancante di un testo dettagliato e soprattutto della necessaria bozza di soluzione.

Spero comunque di esserti stato utile, per quanto possibile. Sono all'estero per lavoro e senza "attrezzi" quindi devo anche modificare spesso il messaggio perché ho la linea che va e viene.....

possiamo anche fare una controprova numerica...

Supponiamo di avere un'urna con 3 palline, nere e bianche di composizione ignota.

Evidentemente le composizioni sono le seguenti

$BBB rarr p=1/8$
$BBN rarr p=3/8$
$BN N rarr p=3/8$
$N N N rarr p=1/8$

Supponiamo di estrarre 2 palline con reimmissione e di vederle tutte nere.

Calooliamo quindi $P(N N N|N N)=(P(N N N))/(P(N N))=(1/8)/(0*1/8+(1/3)^2*3/8+(2/3)^2*3/8+1/8)=3/8$

che coincide con la formula che ti ho indicato qui

cordiali saluti

Note

  1. ovviamente questa è solo la mia opinione
tommik
Moderatore
Moderatore
 
Messaggio: 4428 di 11278
Iscritto il: 23/04/2015, 13:13
Località: Cassano Magnago

Re: Verifica proprietà per campione significativo

Messaggioda nato_pigro » 26/09/2018, 10:01

Ok usi due approcci diversi ma nel secondo caso arrivi a una soluzione (che comprendo), nel primo a un'altra (che non comprendo), però le due soluzioni dovranno essere almeno approssimativamente uguali, o no?

Formulando il problema non ho specificato la reimmissione perchè nasce da un caso reale: mi aspetto che una certa proprietà sia vera per tutti gli elementi di un insieme vasto (diciamo 10000). Non potendo fare una verifica globale ma solo campionaria mi chiedevo quanti elementi devo analizzare per essere ragionevolmente sicuro (95%?) che tale proprietà sia verificata per tutti. La presenza o assenza di reimmissione avendo a che fare con numeri grandi mi sembrava trascurabile.

Mi da l'idea di essere un problema noto in quanto aventi molte applicazioni, mi sembra strano che non ci sia letteratura a riguardo. O meglio: non saprei cosa cercare. Il mio caso è diverso, ma mi immagino un controllo qualità in una produzione in serie: quanti campioni devo analizzare?
Avatar utente
nato_pigro
Cannot live without
Cannot live without
 
Messaggio: 2626 di 3167
Iscritto il: 10/08/2006, 14:07
Località: Imperia

Re: Verifica proprietà per campione significativo

Messaggioda tommik » 26/09/2018, 10:08

nato_pigro ha scritto:Ok usi due approcci diversi ma nel secondo caso arrivi a una soluzione (che comprendo), nel primo a un'altra (che non comprendo), però le due soluzioni dovranno essere almeno approssimativamente uguali, o no?


E' colpa mia, mi devo essere spiegato male....la prima NON è una soluzione al problema che hai posto all'inizio del topic ma risponde ad un'altra domanda; era solo uno spunto di riflessione per calcolare un intervallo di confidenza bayesiano.....non calcola la probabilità che l'urna abbia tutte nere ma solo come verosimilmente l'urna è composta (e mi sembra un risultato da non sottovalutare: ti dice che al 95% la proprietà vale per almeno il X% dei casi). Tu vuoi sapere quanto grande deve essere il campione perché la proprietà valga per almeno il Y% dei casi? E' un'altra domanda, non mi pare fosse chiaro all'inizio.

nato_pigro ha scritto:Ho un'urna oscurata di palline N che possono essere -al massimo- di C colori diversi (come pure essere tutte dello stesso colore).
Tiro su K palline e sono tutte nere. Con che probabilità posso affermare che le palline siano tutte nere?



l'idea che ti ho fornito nasce proprio dal fatto che avevo immaginato che non si trattasse di un esercizietto e per questo ti ho fornito un interessante spunto di riflessione.....da ciò che hai scritto successivamente, infatti, il problema è del tutto diverso.

In letteratura, ciò che stai cercando si chiama inferenza statistica e ci sono valanghe di testi. Purtoppo per affrontare e risolvere problemi reali occorre prima avere le idee chiare su ciò che si vuole....e non sempre sarà facile risolvere il problema. Ci sono numerose tecniche applicabili ma occorre sapere bene la teoria, principalmente la prova di ipotesi, sia parametrica che non parametrica, di approccio Classico o Bayesiano, processi stocastici, Analisi sequenziale ecc ecc

Ma prima di tutto occorre definire bene il problema, valutando le implicazioni e le ipotesi che necessariamente devono essere verificate a seconda della tecnica che si vuole utilizzare.

purtoppo di più non sono in grado di dirti; qui per la maggior parte dei casi discutiamo su esercizi scolastici, quindi su problemi con soluzione nota.
tommik
Moderatore
Moderatore
 
Messaggio: 4429 di 11278
Iscritto il: 23/04/2015, 13:13
Località: Cassano Magnago


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite