I dati non sono ancora informazioni

Le parole più esaltanti per descrivere la statistica sono sicuramente quelle di David J. Hand dell’Imperial College di Londra. L’entusiasmo per questa disciplina erompe in tutta la sua forza nel libro “Statistica – Dati, numeri e l’interpretazione della realtà”. La dichiarazione d’amore nei confronti della sua materia si scorge subito, tra le prime frasi, quando afferma: “la statistica è la più appassionante delle discipline”.

Bisogna soltanto procedere più avanti di qualche altro paragrafo per imbattersi in suggestive rappresentazioni quali: “la statistica moderna, come i telescopi, i microscopi, i raggi X, i radar e le analisi mediche, ci permette di osservare cose invisibili a occhio nudo”.

Se gli si chiedesse quale dovrebbe essere un’adeguata definizione di questa branca dei numeri, Hand risponderebbe dicendo: “la statistica è la tecnologia per estrarre significato dai dati”.

La passione che lega Hand alla statistica diventa, in alcuni passi, ammirazione, quasi riconoscenza, e lo spinge ad affermare che: “la statistica moderna, con il suo uso di sofisticati strumenti informatici per analizzare i dati, ci permette di compiere viaggi di scoperta paragonabili a quelli fatti dagli esploratori prima del XX secolo, per studiare nuovi mondi entusiasmanti … Bisogna rendersi conto che la vera statistica consiste nell’esplorare l’ignoto”.

Mentre le pagine scorrono e le parole favoriscono il materializzarsi di immagini vivide e opportunità tutte da cogliere, si giunge al punto in cui Hand decide di chiarire quale sia la differenza tra l’avere a disposizione dei dati e il saperli manipolare con le giuste precauzioni.

Decide di farlo con un esempio triste, tragico, una testimonianza di quanto sia deludente a volte l’atteggiamento umano. I fatti che seguono sono riportati per come esposti nel libro.

Nel 1999 Sally Clark, una giovane avvocato britannico, fu processata e condannata all’ergastolo per aver ucciso i suoi due figli neonati. Il suo primo figlio morì nel 1996, a 11 settimane, e il secondo nel 1998, a 8 settimane. Il verdetto si basò su quello che sarebbe diventato un esempio canonico di uso errato e scorretto della statistica: il pediatra Sir Roy Meadow, consulente tecnico per l’accusa, affermò che la probabilità che due bambini muoiano di morte in culla è di 1 su 73 milioni. Arrivò a questo numero semplicemente moltiplicando le probabilità per i due eventi considerati separatamente. Così facendo, nella sua ignoranza della statistica di base, sorvolò completamente sul fatto che una morte di questo tipo in una famiglia può significare che un’altra morte dello stesso tipo sia più probabile. L’analisi dei dati pregressi mostra che la probabilità che un bambino scelto a caso sia vittima della morte in culla in una famiglia come quella dei Clark è di circa 1 su 8500. Se si assume che il verificarsi di un caso non modifichi la probabilità di un altro caso, allora la probabilità di due morti in culla nella stessa famiglia sarebbe 1/8500 per 1/8500, cioè circa 1 su 73 milioni (la probabilità di 1 su 73 milioni è così bassa da aver indotto la giuria a ritenere impossibile la fatalità dei due episodi). Ma questo presupposto è molto forte, e un’attenta analisi statistica dei dati suggerisce che, in realtà, la probabilità di una seconda morte in culla aumenti significativamente quando se ne è già verificata una. Anzi, i calcoli suggeriscono che ci si debbano aspettare numerose morti multiple di questo tipo in una nazione delle dimensioni del Regno Unito.

Il sito web della Foundation for the Study of Infant Death dice “è molto raro che la morte in culla si verifichi due volte nella stessa famiglia, ma occasionalmente un’anomalia ereditaria, come una disfunzione metabolica, può fare sì che più di un neonato muoia inaspettatamente”. In assenza di prove forensi certe, per valutare la probabilità oggetto del processo si sarebbe dovuto ricorrere al Teorema di Bayes e non al calcolo elementare del prodotto tra due probabilità distinte. Sally Clark fu prosciolta in appello nel 2003 dopo che venne chiarito che il suo secondo figlio aveva un’infezione batterica che predispone alla morte neonatale improvvisa. Quattro anni dopo, la sfortunata donna morì a soli 42 anni.

Il lascito di questa storia serve solo a confermare il fatto che i dati senza le giuste conoscenze rimangono al rango di dati e non evolvono in informazioni.

Domenico Signorelli

Commenti

commenti