adminv15
(30 punti)
5' di lettura
Nel seguente appunto approfondiremo il concetto di deviazione standard e la sua utilità nel campo del trattamento statistico dei dati. In linea di massima, potremmo definire la deviazione standard (nota anche come scarto quadratico medio) come un indice di "discostamento" di una serie di dati rispetto al loro valore medio.

Concetto di media e deviazione standard

Supponiamo di avere una serie di
[math] n [/math]
valori reali
[math] x_1, x_2, \dots, x_n [/math]
.
Il valore medio di questa serie è indicato solitamente con la notazione
[math] \overline{x} [/math]
ed esso è dato da:
[math] \overline{x} = \displaystyle \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + x_3 + \dots + x_n}{n} [/math]
bisogna tuttavia specificare che qui si sta parlando di media aritmetica, poiché esistono anche altre medie come ad esempio la media geometrica, quadratica, armonica...
La deviazione standard, che nei paragrafi successivi chiameremo
[math] \sigma [/math]
è invece data dall'uguaglianza:
[math] \sigma = \displaystyle \sqrt{\frac{\displaystyle \sum_{i=1}^n (x_i - \overline{x})^2}{n}} [/math]
L'uguaglianza può essere riscritta in maniera alternativa come:
[math] \sigma = \sqrt{\frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + \dots + (x_n - \overline{x})^2}{n}}[/math]
Notiamo che stiamo sommando, per ogni termine
[math] x_i [/math]
, il suo scarto, ossia la "distanza" dl valore medio. Eleviamo al quadrato per far sì che distanze negative abbiano "lo stesso peso" di quelle positive, con lo stesso modulo.

Per approfondimenti sul calcolo della media aritmetica, vedi anche qua

Deviazione standard per una serie di pochi valori

Generalmente, se chiamiamo
[math] n [/math]
il numero di dati a nostra disposizione e
[math] n , la deviazione standard viene sottostimata. In altre parole, si ottiene un valore di deviazione standard che ci fornisce un certo valore di incertezza, ma l'incertezza è in realtà più alta! Per questo motivo, quando si ha un numero molto limitato di valori, è più opportuno utilizzare la formula:
[math] \sigma = \displaystyle \sqrt{\frac{\displaystyle \sum_{i=1}^n (x_i - \overline{x})^2}{n - 1}} [/math]
La formula è sostanzialmente identica, la differenza sta solamente nel denominatore.

La varianza

La varianza viene indicata con la notazione
[math] s^2 [/math]
e la sua relazione con la deviazione standard è piuttosto semplice. Difatti, basta solamente ricordare che la varianza è pari al quadrato della deviazione standard. Pertanto, si ha l'uguaglianza:
[math] s^2 = \displaystyle \frac{\displaystyle \sum_{i=1}^n (x_i - \overline{x})^2}{n} [/math]
Per una dimostrazione accurata delle formule citate sopra, vedi il file allegato.
Per approfondimenti sulla varianza, vedi anche qua.

Casi limite

Supponiamo di avere un solo dato
[math] x_1 [/math]
. Risulta abbastanza chiaro che è impossibile stabilire il valore della deviazione standard poiché con un solo dato non riusciamo effettivamente a stimare quale potrebbe essere il valore vero di una certa misurazione.
Una conseguenza interessante è che se utilizziamo la formula per la deviazione standard citata sopra:
[math] \sigma = \displaystyle \sqrt{\frac{\displaystyle \sum_{i=1}^n (x_i - \overline{x})^2}{n - 1}} [/math]
con un solo valore
[math] x_1 [/math]
(e quindi con
[math] n = 1 [/math]
valori in totale) si ottiene:
[math] \sigma = \displaystyle \sqrt{\frac{(x_1 - \overline{x})^2}{0}} [/math]
che è effettivamente una forma indeterminata 0/0. Ciò rispecchia l'estrema incertezza che si ha di fronte ad una serie di dati composta in realtà da un solo elemento.

Esempi di calcolo della deviazione standard

Vediamo il seguente esercizio:
  • Calcolare la deviazione standard per la seguente serie di dati:
    [math] x_1 = 1, x_2 = 2, x_3 = 3, x_4 = 4, x_5 = 5 [/math]
    .
  • Svolgimento: Conviene prima di tutto trovare il valore di
    [math] \overline{x} [/math]
    . Calcoliamo quindi:
    [math] \overline{x} = \frac{x_1 + x_2 + x_3 + x_4 + x_5}{5} = \frac{15}{5} = 3 [/math]
    Calcoliamo adesso lo scarto di ciascun valore
    [math] x_i [/math]
    , trovando la differenza tra il rispettivo valore e la media precedentemente calcolata. Si ha quindi che:
    [math] x_1 - \overline{x} = 1 - 3 = -2, x_2 - \overline{x} = -1, x_3 - \overline{x} = 0, x_4 - \overline{x} = 1, x_5 - \overline{x} = 2 [/math]
    .
    Calcoliamo ora la somma dei quadrati degli scarti; si ottiene:
    [math] (-2)^2 + (-1)^2 + 0^2 + 1^2 + 2^2 = 10 [/math]
    Al denominatore metteremo
    [math] n - 1 = 4 [/math]
    , tenuto conto che i valori sono 5 (e sono quindi meno di 30). Infine, calcoliamo la deviazione standard richiesta:
    [math] \sigma = \sqrt{\frac{10}{4}} = \sqrt{2,5} \sim 1.58 [/math]
Informalmente, non è corretto dire che più alta è la deviazione standard, più i dati sono "discostati" tra loro.

Consulta il Formulario matematico