Per l’analisi delle serie storiche e del trend sono disponibili diversi strumenti: medie mobili, smorzamento esponenziale, simulazione dinamica, regressione lineare, regressione non lineare, analisi degli scenari, ecc.
La regressione non lineare presuppone che esista una legge sottostante che descriva abbastanza bene il fenomeno. Ad esempio è noto che un proiettile segue una curva parabolica, la pressione e il volume di un gas una legge iperbolica, il moto di un pianeta una legge ellittica, un cavo steso tra due piloni una catenaria, il materiale radioattivo un decadimento esponenziale, ecc.

Per le epidemie/pandemie si sono pensate varie leggi: la crescita esponenziale, la legge logistica, la curva di Gompertz ecc. In realtà però sia una crescita infinita (esponenziale), che un andamento asintotico (Logistica e Gompertz) sono poco compatibili con l’andamento reale di una epidemia. Dunque, a seconda delle varie fasi del contagio, è necessario cambiare il modello di riferimento.
Invece di cercare un impossibile modello globale ci si deve accontentare di modelli locali che prima o poi debbono essere cambiati. In un’ottica, sempre locale, è però preferibile utilizzare modelli adattativi come, ad esempio, la linearizzazione a pezzi. In pratica conviene utilizzare i dati delle ultime due o tre settimane, in quanto quelli più vecchi poco possono dirci sulla evoluzione futura della pandemia, come ripeteva De Finetti: “acqua passata non macina più”.
In questo articolo si proporrà un modello adattativo che, invece di utilizzare segmenti di retta, utilizza rami di parabola. Il vantaggio è evidente: oltre a modellare andamenti crescenti/decrescenti’ si potranno modellare anche andamenti con concavità rivolta verso l’alto/basso come avviene nella realtà della diffusione delle varie fasi di una pandemia.

Il File Excel allegato è costituito da tre fogli:
1) Parabola Y
2) Estrapolazione lineare DY
3) Matrice Y-DY
Parabole Pandemiche

Parabola Y e Derivata (DY)

Per mostrare la flessibilità di un modello parabolico a pezzi è bene ricordare l’andamento grafico di un parabola (Y) e della sua derivata (DY) che è una retta:
Equazione della Parabola Y = a*X^2 + b*X + c
Derivata DY = 2*a*X + b

Supponiamo ad esempio che sia:

2a = 4
b = 0
c = 20

Sotto i dati tabulati nella ipotesi che X vari tra -10 e +10. E’ evidente che, in questo caso si ha un punto di minimo della parabola per X = 0 cui corrisponde l’azzeramento della derivata (DY = 0)

X    Y     DY
-10 420 -40
-9 344 -36
-8 276 -32
-7 216 -28
-6 164 -24
-5 120 -20
-4 84 -16
-3 56 -12
-2 36 -8
-1 24 -4
0 20 0
1 24 4
2 36 8
3 56 12
4 84 16
5 120 20
6 164 24
7 216 28
8 276 32
9 344 36
10 420 40

Sotto si può vedere come la parabola si apre spostando il coefficiente “2a” dal valore 4 al valore 1. Tuttavia resta il minimo per X = 0 e il corrispondente azzeramento della derivata DY.

2a = 1
b = 0
c = 20

Per a = 0 si ha una singolarità: la parabola degenera in una retta, non si ha più un punto di minimo per i matematici e neanche un punto di equilibrio stabile per i fisici (pensate ad una pallina che oscilla sul fondo della parabola). Forse René Thom considererebbe questo un punto catastrofico (nel senso di cambiamento radicale del comportamento del sistema). L’equilibrio è ora indifferente, basta un piccolo cambiamento, in positivo o in negativo del parametro “a”, per passare da un punto di minimo ad uno di massimo, da un equilibrio stabile ad uno instabile.

a = 0
b = 0
c = 20

Per “2a = -1” siamo passati ad una parabola rovesciata. Il punto di minimo è stato sostituito con uno di massimo, l’equilibrio stabile è stato sostituito da uno instabile.

2a = -1
b = 0
c = 20

Per “2a = – 4” la concavità verso il basso della parabola Y si accentua. La sua derivata DY, una retta, ha una pendenza sempre più rivolta verso il basso.

2a = -4
b = 0
c = 20

Retta (DY) e Integrale (Y)

Riassumiamo riportando le due principali definizioni dei valori numerici, relativi alla pandemia, che tutti vediamo riportati dai giornali, televisione e siti (n significa giorno n-esimo): Gli attualmente positivi nel giorno n sono uguali agli attualmente positivi del giorno precedente aumentati dei nuovi positivi e diminuiti di guariti e morti. In formule:

Attualmente positivi od infetti (Y): Yn = Yn-1 + DYn
Variazione degli attualmente positivi: DYn = Nuovi positivi – Guariti – Morti.

Sotto è riportato un esempio in cui si è assunto che alla sera del giorno 1 siano stati registrati 700.100 attualmente positivi. Nel giorno 2 si è assunto un DY di 9.500, dunque alla sera del giorno 2 avremo Y = 700.100 + 9.500 = 709.600 attualmente positivi. Alla sera del giorno 3 avremo Y = 709.600 + 5.000 = 714..600 attualmente positivi. Così via sino al giorno 10 che supponiamo essere il giorno attuale (Dati passati in neretto).
A questo punto è lecito chiedersi: quale è il trend della serie? Come possiamo estrapolare i dati passati per il futuro? Excel ci viene in aiuto. Selezionando in modo esteso i dati passati di DY e trascinandoli sino al giorno 20 è possibile ottenere una proiezione lineare del valore DY. Estendendo poi la formula dell’integrale (o cumulato o progressivo): Yn = Yn-1 + DYn abbiamo la proiezione parabolica dei valori futuri di Y (In blu corsivo).

Giorno DY Y
1    10.1    700.1
2    9.5    709.6
3    5.0    714.6
4    7.6    722.2
5    5.2    727.4
6    3.6    731.0
7    5.0    736.0
8    4.1    740.1
9    2.0    742.1
10   4.0   746.1
11   1.6    747.7
12   0.8   748.5
13   0.1    748.6
14   -0.6  748.0
15   -1.4  746.6
16   -2.1  744.5
17   -2.8  741.6
18   -3.6  738.0
19   -4.3  733.7
20   -5.0  728.7

Dai valori numerici della proiezione si evince che, in questo caso si ha un massimo nel giorno 13 (Y = 748.600 attualmente positivi). Dal grafico riportato sotto si comprende, anche visivamente, che i valori di Y sono bene rappresentati da un ramo di parabola con la concavità rivolta verso il basso.

Sotto è riportato un diverso esempio, ricordando che valgono sempre le relazioni:

Attualmente positivi od infetti (Y): Yn = Yn-1 + DYn
Variazione degli attualmente positivi: DYn = Nuovi positivi – Guariti – Morti.

Il Giorno 1 si hanno 500.000 attualmente positivi il giorno 2 si registra un DY = -5.000. Dunque la sera del giorno 2 si avrà Y = 500.000 – 5.000 = 495.000 attualmente positivi… e così via sino al giorno 10. Si può osservare che tra il giorno 6 ed il 7 si è verificato un minimo degli attualmente postivi: Y = 481.000. Questi poi sono risaliti sino a 490.000 nel giorno 10.
I valori in blu corsivo mostrano l’estrapolazione lineare di DY e di conseguenza quella parabolica di Y.

Giorno DY Y
1    -9.0   500.0
2    -5.0   495.0
3    -7.0   488.0
4    -4.0   484.0
5    -2.0   482.0
6    -1.0   481.0
7    0.0   481.0
8    3.0   484.0
9    2.0   486.0
10  4.0   490.0
11   5.7   495.7
12   7.1   502.9
13   8.5   511.4
14   9.9   521.3
15   11.3   532.5
16   12.7   545.2
17   14.1   559.3
18   15.4   574.7
19   16.8   591.6
20   18.2   609.8

Si può facilmente osservare che nel giorno 20 si arriverà ad avere: 591.600 + 18.200 = 609.800 attualmente positivi.
Tutto questo si può ottenere facilmente senza cambiare modellizzazione, ma semplicemente effettuando una proiezione lineare dei valori passati di DY relativi alle ultime due o tre settimane e calcolando poi il valore (cumulato, progressivo o integrale) di Y.

Matrici Livello (Y) e Variazione (DY).

Negli anni 70 dello scorso secolo il Boston Consulting Group propose una matrice del tipo di quella riportata sotto per valutare i mercati/prodotti delle aziende. Sulle ascisse erano rappresentate le quote di mercato o i profitti. Sulle ordinate i tassi di crescita o decrescita dei mercati o dei profitti.

Per dare immagine vivida dei quattro quadranti il BCG chiamò:
Stars (Stelle) i prodotti rossi: profittevoli e in crescita (quadrante in alto a destra)
Milk cows (Vacche da mungere) i prodotti gialli: profittevoli ma con bassa prospettiva di crescita (basso a destra)
Wildcats (Gatti selvatici) o punti interrogativi i prodotti arancione: di scarso profitto, ma con alta potenzialità di crescita. (alto a sinistra)
Dogs (Cani) i prodotti verdi (in basso a sinistra) con basso livello di profitti e bassa potenzialità di crescita.

Vediamo ora come la stessa matrice possa essere utilizzata per inquadrare i vari indicatori del Covid 19, su cui purtroppo esiste ancora molta confusione. Diciamo per prima cosa che la valutazione, in questo caso è rovesciata: il quadrante peggiore è quello rosso (in alto a destra) ed il migliore è quello verde (in basso a sinistra).

Sulle ascisse (asse orizzontale) è riportato il livello (Y) degli attualmente positivi (o infetti). Naturalmente se si devono confrontare regioni o paesi con diversa numerosità della popolazione è necessario ragionare in termini di infetti ogni 100.000 abitanti (Concentrazione). Per dare una idea degli ordini di grandezza possiamo dire che l’asse delle ascisse varia tra 0 e 2.000 infetti ogni 100.000 abitanti. Il mondo (fine Gennaio 2021) ha circa 1500 infetti ogni 100.000 abitanti. L’Italia (popolazione circa 60 milioni), ad esempio, ha alla stessa data circa 800 infetti ogni 100.000 abitanti. La Lombardia (popolazione circa 10 milioni) ha, alla stessa data, un livello di circa 500 infetti ogni 100.000 abitanti.

Sulle ordinate (asse verticale) è riportata la variazione del livello Y. Questa variazione può essere misurata in vari modi; ne presentiamo due.
Indice Rt che vale 1 in corrispondenza dell’asse tratteggiato orizzontale. Angela Merkel (laureata in fisica) ha ben spiegato che Rt = 1 significa che ogni 100 infetti ne infettano esattamente 100. Il livello degli infetti (attualmente positivi) resta dunque stabile. Rt = 1.4 significa che ogni 100 infetti ne infettano mediamente 140, si ha cioè una crescita esponenziale dell’epidemia. Rt = 0.8 significa che ogni 100 infetti ne infettano solo 80, si ha cioè una decrescita dell’epidemia.

Sotto è riportata una esemplificazione numerica (il 3° fofglio Excel tra quelli inclusi nel file) che ipotizza il confronto tra 12 Regioni (tutte ovviamente con numerosità della popolazione diverse):
3 Regioni verdi che hanno un basso livello di positivi Y ed un basso grado DY di variazione,

2 Regioni gialle che hanno un alto livello di positivi Y ed un basso grado DY di variazione,

3 Regioni arancione che hanno un basso livello di positivi ed un alto grado DY di variazione,

4 Regioni rosse che hanno un alto livello di positivi Y ed un alto grado di variazione DY.

Y: Concentrazione attualmente positivi ogni 100.000 abitanti
DY: Variazione della Concentrazione in percentuale

Matrice Y – DY

Regione Y      DY
R1      500      -8%
R2      700      -6%
R3      400      -3%
R4     1400      -4%
R5     1800      -7%
R6      100         1%
R7      300         3%
R8      800        4%
R9     1300        5%
R10    1400       8%
R11    1600        2%
R12    1700        3%

In conclusione è interessante osservare come la matematica sia un potente linguaggio/strumento inventato dagli umani per descrivere, più o meno approssimativamente, i fenomeni naturali.

Non esiste però, come credevano Galileo e Newton, “Un libro della natura scritto in lingua matematica…”

Riferimenti:

Coronavirus i dati e la mappa: sito del Sole 24 Ore
https://lab24.ilsole24ore.com/coronavirus/#

Pandemia Coronavirus: sito Gimbe
https://coronavirus.gimbe.org/

Parabola, geometria: Wikipedia
https://coronavirus.gimbe.org/

Catastrophe Theory: Wikipedia
https://en.wikipedia.org/wiki/Catastrophe_theory

Previsioni, Filosofia e Matematica: Matematicamente

Previsioni: Filosofia e Matematica

Modelli SIR e Dinamica dei Sistemi: Matematicamente

Modelli matematici S.I.R. e Dinamica dei Sistemi nelle valutazioni epidemiologiche

Modello Idraulico di una epidemia: Matematicamente

Modello idraulico di una epidemia

Matrice Boston Consulting Group
https://it.wikipedia.org/wiki/Matrice_BCG

Commenti

commenti