Come calcolare l'incidenza

da **Faussone** » 23/05/2020, 08:26

Ciao a tutti,

so che la risposta più immediata e sintetica a quanto chiederò è "studia bene statistica", in realtà, come ho avuto modo di dire qui varie volte, sono un dilettante della materia e mi sta bene rimanere tale (vedere queste cose ogni tanto per diletto e poco più), e quindi non saprei neanche cosa andare a cercare di preciso, pertanto anche un aiuto solo in tale senso mi basterebbe.

Il punto è questo.
L'altra sera stavo seguendo uno dei tanti dibattiti sull'opportunità di eseguire test sierologici per verificare la presenza di anticorpi al covid19. Una delle frasi dello scienzato di turno è stata più o meno "attenzione che allo stato attuale, considerando la soglia di incertezza dei test, una risposta positiva non dà grandi certezze e informazioni al singolo sul suo stato reale".
Cosa che io interpreto col fatto che data l'incidenza della malattia attuale (stimata tra il 10% e il 20% mi pare) e la sensibilità $s$ e specificità $k$ del test, la risposta non dà un valore predittivo positivo sufficientemente alto.
In effetti questo è vero, facendo due conti si trova che $s$ e $k$ dovrebbero essere ben superiori al 95% per avere valori accettabili di predittività (almeno per il valore predittivo positivo, per il negativo ovviamente il discorso è diverso, quindi qualche informazione e certezza al singolo in base al risutato c'è).
Poi lo stesso ha aggiunto: "quei test possono essere utili più per determinare con più precisione l'incidenza della malattia".

Da questo è venuto da chiedermi come si fa a fare un calcolo accurato della incidenza della malattia nella popolazione, usando quei test con quel dato $s$ e $k$?
La mia domanda in pratica è: supponiamo di sottoporre a test un certo numero di individui e di trovare un certo valore di incidenza, come si fa a determinare l'incertezza di tale valore di incidenza nota la qualità del test?
Mi viene da pensare che per rispondere a questa domanda ci si può aspettare che il risultato trovato di incidenza sia un sample di una variabile che segue una distribuzione gaussiana(?) con media sul valore vero di incidenza e con una certa deviazione standard, ma non saprei come trovare questa deviazione standard a partire dalla $s$ e $t$ del test, ammesso che quanto ho appena scritto, spero in termini non troppo sgangherati, sia corretto intanto....
Servirebbero altre informazioni?

da **Faussone** » 23/05/2020, 08:54

Ci ho pensato un poco e forse alla fine è più semplice di quello che credevo.

Se supponiamo che lo screening trova $P$ positivi e $N$ negativi, detti $x_M$ e $x_S$ i veri malati e sani e $s$ e $t$ sensibilità e specificità del test:

$x_M*s+x_S(1-k)=P$
$x_S*k+x_M*(1-s)=N$

e da qui si può trovare $x_M$ e $x_S$ e poi la incidenza come $x_M/(x_M+x_S)$-

La incertezza è legata alla numerosità del campione e credo forse basti un test di significatività.... ma non so metterlo bene a fuoco. Ci penso ancora.

da **Faussone** » 25/05/2020, 11:19

Dovrei esserci, sicuramente mi esprimerò un poco impropriamente, spero solo non troppo, non dovrei dire troppe stupidaggini anche se probabilmente ho reinventato la ruota e quanto ho pensato si può fare in un altro modo più pulito.

Una volta quindi calcolato il numero “vero” di malati $x_M$ e sani $x_S$ dal sistema di sopra si può calcolare la probabilità che considerando un campione di $x_M$ malati si ottengano effettivamente un numero di positivi pari a $s*x_M$ come supposto nello scrivere il sistema di sopra.

Tale probabilità si trova dalla distribuzione binomiale:
$Pr(x_M,s*x_M)=( ( x_M),(s*x_M) ) (s^(s*x_M)+(1-s)^(x_M-s*x_M))$

Analogamente si può calcolare la probabilità che considerando un campione di sani $x_S$ si trovino $(1-k)*x_S$ positivi:

$Pr(x_S,(1-k)*x_S)=( ( x_S),((1-k)*x_S) ) ((1-k)^((1-k)*x_S)+k*(x_S-(1-k)*x_S))$

Il prodotto di tali due probabilità dà la probabilità di rilevare quel numero di positivi effettivamente malati e di positivi in realtà sani che si sommano a dare quel numero di positivi $P$, se il numero di malati effettivi e di sani effettivi fosse proprio $x_M$ e $x_S$.

In realtà però a noi serve la probabilità che il numero di positivi rilevati sia $P$ (indipendentemente da quanti sono veri malati o no), se il numero di malati effettivi e di sani effettivi fosse proprio $x_M$ e $x_S$ (automaticamente poi il numero di negativi sarà $N$ dato che la somma è sempre data dalla massa del campione).

Quindi occorre fare

[....]
EDIT: Complicato e inutile.. farò diversamente.

In tal modo avremo una significatività dell’incidenza calcolata (eventualmente si può fare poi la significatività in un dato intervallo per trovare un intervallo di confidenza, anzi credo sia necessario altrimenti il valore singolo verrebbe certamente basso).

Spero si capisca e di non aver elucubrato troppo inutilmente....

da **Faussone** » 25/05/2020, 18:27

Indubbiamente ho reinventato la ruota (quadrata però :-D

).
Il calcolo fatto in questo modo diventa lunghissimo e sicuramente non necessario....

Intravedo che quelle binomiali si compongano a dare una qualche distribuzione ben nota, ma io non sono in grado di dedurla da me e mi fermo perché occorre davvero studiare 8-)

L'unica cosa che mi viene in mente è approssimare le due distribuzioni binomiali che modellano il numero di positivi malati e di positivi sani con due gaussiane e a quel punto la variabile somma a dare il numero di positivi si modella di nuovo con una gaussiana e il calcolo della deviazione standard si riesce a farlo subito.
Non vedo altre strade.... io almeno....

In realtà comunque, una volta individuata la probabilità di ottenere quel numero di positivi $P$ (approssimandi con gaussiane o meno), ho dubbi su come legarla alla significatività del risultato ottenuto per l'incidenza...

Lascio eventualmente intervenire che ne sa, per mettere un punto ai miei sproloqui.

da **Faussone** » 27/05/2020, 10:53

Concludo e metto il punto dove sono arrivato, visto anche l'alto interesse generato...

(Forse era troppo banale il quesito o forse troppo scritto male? Non sono in grado di giudicare).

Una volta appurato che la probabilità di ottenere un numero di positivi $x_M*s$, prendendo un campione di $x_M$ individui malati è calcolabile da una binomiale con parametri $x_M$,$s*x_M$ e $s$, e che la probabilità di ottenere un numero di positivi $(1-k)*x_S$, prendendo un campione di $x_S$ individui sani è calcolabile da una binomiale con parametri $x_S$,$(1-k)*x_S$ e $(1-k)$, occorre calcolare la probabilità seguita dalla variabile somma delle due variabili aleatorie che seguono le due binomiali trovate, perché quella regola la significatività del risultato sull'incidenza. In altre parole occorre trovare la probabilità di ottenere quel numero di positivi $P$ (e negativi $N$) se i vari sani e malati fossero proprio $x_S$ e $x_M$.

Il calcolo esatto porta a questa probabilità (le singole Pr vengono da binomiali, la cui espressione è data in uno dei messaggi di sopra):

$sum_{j=-min(s*x_M;(1-k)*x_S)} ^{min(s*x_M;(1-k)*x_S)} Pr(x_M,s*x_M-j,s)*Pr(x_S,(1-k)*x_S+j,(1-k))$

(dato che va imposto che il numero di positivi e negativi rilevati abbia somma costante).

Il calcolo è lungo ma se approssimiamo le due binomiali con gaussiane (cosa lecita nei valori di interesse per questo test) possiamo assumere che la distribuzione seguita dalla variabile somma tra positivi da malati e positivi da sani è una gaussiana con media ovviamente paria a $P$ e deviazione standard pari a $sqrt(s*x_M*(1-s) + (1-k) *x_S *k)$

Noto ciò è possibile facilmente trovare l'intervallo di confidenza $x_M$ (e $x_S$) e quindi della incidenza¹.

Considerando un campione di 100000 individui di cui 85000 risultati negativi e 15000 positivi, supponendo sensibilità e specificità del test pari a 0.9, ottengo per esempio per la incidenza un intervallo tra 5,9% e 6,6% con confidenza pari a 0.9985. Quindi anche con qualità dei test relativamente bassa si può ottenere una stima affidabile dell'incidenza con un opportunamente numeroso campione.

Mi sembra ora tutto fili più o meno... anche se non so se si poteva seguire una via più elegante....
In assenza di interventi la chiudo qui, come dicevo.

Note

Basta calcolare per due valori di un intervallo di $x_M$ e $x_S$ (ovviamente attorno ai valori "veri" trovati dal sistema iniziale) un desiderato percentile per $P$ e verificare che il $P$ vero sia al limite pari a tale valore (entro l'intervallo dei percentili presi l'ipotesi che l'incidenza sia quella è verificata). ↑

Come calcolare l'incidenza

Come calcolare l'incidenza

Re: Come calcolare l'incidenza

Re: Come calcolare l'incidenza

Re: Come calcolare l'incidenza

Re: Come calcolare l'incidenza

Chi c’è in linea