luca66 ha scritto:...scusa anche se ho risposto in modo sbagliato al tuo quesito.
adesso non esagerare....non vi è assolutamente nulla di male nello sbagliare....anzi, a volte è proprio sbagliando che ci si confronta e si comprendono meglio determinati meccanismi.
Ora, dato che il problema si ripropone ciclicamente, vediamo di fare un po' di chiarezza sul tema. A tal proposito riscrivo l'esercizio proposto da @gio73 rendendolo più aderente alla realtà di questi test diagnostici.
Definiamo prima di tutto alcune quantità che si usano spesso in epidemiologia
1)
Prevalenza: è la percentuale di morbosità: una stima della percentuale dei malati
2)
Sensibilità del test: è la probabilità che un malato risulti positivo al test: $P[T^+|M]$
3)
Specificità del test: è la probabilità che un individuo sano risulti negativo al test: $P[T^-|S]$
4)
Valore Predittivo Positivo: è la probabilità di essere effettivamente malato dato che ho avuto un test positivo: $VPP=P[M|T^+]$
Ovviamente un buon test è un test per il quale Sensibilità e Specificità sono molto elevati.
Ora riscriviamo l'esercizio in maniera più standard, per renderlo più elastico:
La prevalenza di una certa malattia nella popolazione è dell'1 per 1000. Per diagnosticare la malattia si usa un test diagnostico con i seguenti parametri: Sensibilità 96% e Specificità 94%
Tizio si sottopone al test e risulta positivo. Qual è la probabilità che sia davvero malato?
Per risolvere il problema è di utilità fondamentale conoscere il teorema di bayes ma, dato che la questione, almeno all'inizio, può generare problemi, suggerisco di procedere nel seguente modo:
Costruiamo una tabella (che in realtà è la distribuzione bivariata discreta) con i valori assoluti, prendendo cioè una popolazione di N individui....nel caso in esame ho considerato la popolazione composta da 100 mila persone che si sottopongono al test.
con i dati del problema otteniamo la seguente distribuzione (suddivisione) di tutta la popolazione:
Come si costruisce la tabella:
molto semplicemente, si parte dal totale della popolazione (numero in basso a destra) e si calcola la prevalenza:
$100.000 xx 0.001=100$, l'altro valore per differenza.
Ora veniamo al "corpo" della tabella:
- numero di individuidi malati e contemporaneamente positivi al test: $0.96xx100=96$....il valore sotto, 4, per differenza
- numero di individui sani e contemporaneamente negativi al test: $0.94xx 99.900=93.906$...il valore sopra, 5.994, per differenza.
I totali, che rappresentano le distribuzioni delle variabili marginali, sono la somma per riga e per colonna dei dati della tabella.
Fatta la tabella abbiamo risolto tutto perché ora, con tutta la distribuzione, possiamo rispondere a qualsivoglia domanda. Es: qual è la probabilità di essere davvero malati se il test è risultato positivo.....basta fare : numero di individui Malati&Positivi diviso il totale dei positivi: $96/(6.090)=1.6%$
Questo risultato, apparentemente eclatante, sta ad indicare che, per avere una certa "credibilità" non basta che il suddetto test sia molto affidabile (come in questo caso) ma è necessario che venga applicato ad una popolazione con una prevalenza elevata della malattia....infatti supponiamo ora di avere il medesimo test fatto ad una popolazione con una prevalenza del 40% ed otteniamo subito:
Con il medesimo test, qui il VPP è del 91%.
Ovviamente, per avere un VPP alto anche nel primo caso, la soluzione è fare più test. Il valore predittivo positivo si calcola nel medesimo modo, tenendo presente che i test sono fra loro indipendenti e si ottiene subito (supponendo che tutti i test diano esito positivo):
$VPP=(0.96^n xx100)/(0.96^n xx100+0.06^n xx 99.900)={1.6%;20.4%;80.4%;98.5%}_(n=1,2,3,4)$
Nell'esercizio proposto da @gio73 il tutto è estremizzato: il test è molto affidabile, avendo Sensibilità e Specificità pari al 99% ma la prevalenza di 1 a 100.000 lo rende del tutto inutilizzabile, dato che fornisce un $VPP~~0$
...Facile come bere un bicchiere
.... di Guinness
(spero di aver chiarito meglio il problema a tutti gli interessati)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Questo invece:
Sia $Y$ la variabile casuale che rappresenta il diametro di un perno e $X$ la variabile casuale che rappresenta il diametro interno della sede dove il perno deve essere inserito. Come da disegno tecnico, il perno dovrebbe avere un diametro di $9.95 mm$ mentre la sede un diametro di $10.00 mm$. Per motivi legati al processo di produzione entrambi gli oggetti non sono perfetti ma hanno una certa tolleranza. Supponiamo quindi che di fatto $Y~ U(9.85;10.05)$ mentre $X~ U(9.90;10.10)$ e supponiamo inotre che il perno possa essere correttamente inserito e funzionare bene solo se $X-0.1<Y<X$.
Posto che le variabili $X$ e $Y$ sono indipendenti qual è la probabilità che il perno sia correttamente accoppiato con la sua sede?
ricordando la generalizzazione del denominatore del teorema di bayes
$p(x)=int_(theta in Theta)pi(theta)p(x|theta)d theta$
dopo qualche conto....otteniamo
$P[X-0.1<Y<X]=int_(9.90)^(9.95)25(x-9.85)dx+int_(9.95)^(10.05)5/2dx+int_(10.05)^(10.10)25(10.15-x)dx=...=7/16$
Per ragioni che si capiranno una volta fatte le trasformazioni vettoriali di variabili aleatorie, il problema ha anche una interessante interpretazione geometrica
per cui la probabilità richiesta è pari all'area grigia (che a dispetto del disegno è un esagono simmetrico rispetto alla bisettrice) per la densità congiunta di $X,Y$ ovvero
$P[X-0.1<Y<X]=25[0.2^2-0.15^2]=7/16$