gugo82 ha scritto:Esercizio:
Siano $x_1 <= ... <= x_N$ numeri reali (non necessariamente distinti a due a due) ordinati in maniera non decrescente.
1. Dimostrare che la funzione $f(t) := 1/N sum_(n=1)^N |x_n - t|$ è convessa in $RR$ e dotata di minimo assoluto.
Testo nascosto, fai click qui per vederlo
Ognuna delle funzioni $t |-> 1/N |x_n - t|$ è convessa, perché ottenuta dalla funzione valore assoluto $t |-> |t|$ mediante simmetria ($S_y : t = -t'$), traslazione ($T_(x_n): t' = t'' - x_n$) e riscalamento secondo una costante positiva ($R: y = Ny'$).
La $f$ è somma delle $N$ funzioni convesse $t |-> 1/N |x_n-t|$, quindi è convessa.
Visto che la funzione è convessa e che $lim_(t -> +- oo) f(t) = +oo$, la $f$ prende sicuramente minimo assoluto in qualche punto di $RR$.
gugo82 ha scritto:2. Determinare i valori $x^**$ che forniscono il minimo ad $f$ e calcolare $f(x^**) = min_(t in RR) f(t)$.
Testo nascosto, fai click qui per vederlo
Si potrebbero usare, con un po' di pazienza, i teoremi classici del Calcolo Differenziale... Tuttavia basta ragionare come segue.
Supponiamo per semplicità che i valori $x_1, ..., x_N$ non siano ripetuti, cioè che $x_m != x_n$ per ogni coppia di indici $m != n$. Preso un valore di $t < x_2$, la funzione $f$ calcolata in $t$ vale:
$f(t) = 1/N [ |x_1 - t| + sum_(n=2)^N (x_n - t)] = \{ (1/N [ (x_1 - t) + (x_2 - t) + ... + (x_N - t)], ", se " t < x_1), (1/N [ (t - x_1) + (x_2 - t) + ... + (x_N - t)], ", se " x_1 <= t < x_2):}$
e da ciò si vede che:
- quando facciamo tendere $t -> x_1^-$, tutti gli addendi di cui è formata $f$ diminuiscono,
- quando $t=x_1$, il primo addendo è nullo e gli altri sono ancora diminuiti,
- quando $t>x_1$ e $t -> x_2^-$, i primi due addendi hanno somma costante (uguale a $x_2 - x_1 > 0$) e gli altri $N-2$ diminuiscono;
ora, in maniera del tutto analoga, se prendiamo $x_2 <= t < x_3$ l'espressione di $f$ diventa:
$f(t) = 1/N [ (t-x_1) + (t - x_2) + (x_3 - t) + ... + (x_N-t)] = 1/N [(-x_1-x_2+x_3+...x_N) - (N-2) t]$
e quando facciamo tendere $t -> x_3^-$ la somma diminuisce...
Ragionando nell'altro verso, prendiamo $t >= x_(N-1)$ abbiamo:
$f(t) = \{ (1/N [(t-x_1) +... + (t-x_(N-1)) + (t - x_N)], ", se " t>= x_N), (1/N [(t-x_1) +... + (t-x_(N-1)) + (x_N - t)], ", se " x_(N-1) <= t < x_N):}$
osserviamo che:
- quando facciamo tendere $t -> x_N^+$, tutti gli addendi di cui è formata $f$ diminuiscono,
- quando $t=x_N$, l'ultimo addendo è nullo e gli altri sono ancora diminuiti,
- quando $t<x_N$ e $t -> x_(N-1)^+$, gli ultimi due addendi hanno somma costante (uguale a $x_N - x_(N-1) > 0$) e gli altri $N-2$ diminuiscono;
ora, in maniera del tutto analoga, se prendiamo $x_(N-2) <= t < x_(N-1)$ l'espressione di $f$ diventa:
$f(t) = 1/N [ (t-x_1) + ... + (t - x_(N-2)) + (x_(N-1) - t) + (x_N-t)] = 1/N [(-x_1-... -x_(N-2)+ x_(N-1) + x_N) + (N-2) t]$
e quando facciamo tendere $t -> x_(N-2)^+$ la somma diminuisce...
Questo significa che il minimo della funzione $f$ è assunto nei valori di $t$ che si trovano "al centro" tra i punti $x_1, ..., x_N$, ossia in quei valori di $t$ che hanno alla loro sinistra tanti elementi dell'insieme $\{ x_1, ... , x_N\}$ quanti ne hanno alla loro destra.
Ora, se gli $x_n$ sono in numero dispari, i.e. se $N$ è dispari, allora l'unico punto $t$ che è "al centro" degli $x_1, ..., x_N$ è l'elemento centrale, quindi il punto che dà il minimo ad $f$ è:
$x^** = x_((N+1)/2)$
ed il minimo è:
$f(x^**) = 1/N [sum_(n<(N+1)/2) (x_((N+1)/2) - x_n) + sum_(n > (N+1)/2) (x_n - x_((N+1)/2))]$
e visto che le due somme contengono lo stesso numero di addendi si determina una semplificazione massiccia che fornisce:
$f(x^**) = min_(t in RR) f(t) = 1/N [- x_1 - ... - x_((N-1)/2) + x_((N+3)/2) + ... + x_N]$.
Se, invece, gli $x_n$ sono in numero pari, i.e. se $N$ è pari, il minimo di $f$ è assunto in qualche valore di $t$ che si trova tra i due elementi centrali, ossia per qualche $x_(N/2) <= t <= x_((N+2)/2)$. Fissato che sia un tale numero $t$, osserviamo che:
$f(t) = 1/N [sum_(n<= N/2) t-x_n + sum_(n>= (N+2)/2) x_n - t]$
e che le due somme hanno esattamente lo stesso numero di addendi, sicché i termini in $t$ semplificano e risulta:
$f(t) = 1/N [-x_1-...-x_(N/2) + x_((N+2)/2) + ... + x_N] = "costante"$;
ne viene che tutti i punti $x_(N/2) <= x^** <= x_((N+2)/2)$ danno il minimo ad $f$ e tale minimo è:
$f(x^**) = min_(t in RR) f(t) = 1/N [-x_1-...-x_(N/2) + x_((N+2)/2) + ... + x_N]$.
Quando tra gli $x_n$ ci sono elementi ripetuti, il ragionamento si può ripetere alla stessa maniera, avendo l'accortezza di riscrivere la legge di assegnazione di $f$ accorpando i termini simili.
Quindi in ogni caso il minimo di $f$ è preso nei valori "al centro" degli elementi $x_1, ..., x_N$.
gugo82 ha scritto:3. Dimostrare che la funzione $g(t) := 1/N sum_(n=1)^N (x_n - t)^2$ è strettamente convessa in $RR$ e dotata di un unico punto di minimo assoluto.
Testo nascosto, fai click qui per vederlo
La $g$ è somma di funzioni quadratiche strettamente convesse, dunque è anch'essa strettamente convessa.
Dato che $lim_(t -> +-oo) g(t) = +oo$, la $g$ è dotata di minimo assoluto.
Per stretta convessità, tale minimo è preso in un unico punto.
gugo82 ha scritto:4. Determinare il valore $hat(x)$ che fornisce il minimo a $g$ e calcolare $g(hat(x)) = min_(t in RR) g(t)$.
Testo nascosto, fai click qui per vederlo
Questa cosa si può fare in molti modi.
Quello più elementare, forse, consiste nello sviluppare i quadrati e riordinare, in modo da rendersi conto che il grafico di $g$ è una parabola nella forma $g=at^2 + bt +c$ con:
- $a := 1$,
- $b := - 2/N sum_(n=1)^N x_n$,
- $c := 1/N sum_(n=1)^N x_n^2$;
e, dato che una parabola convessa prende minimo nel vertice, troviamo:
$hat(x) = -b/(2a) = 1/N sum_(n=1)^N x_n$
ed anche:
$g(hat(x)) = min_(t in RR) g(t) = 1/N sum_(n=1)^N x_n^2 - 1/N^2 sum_(n=1)^N x_n^2$.
gugo82 ha scritto:6. Le funzioni $f$ e $g$, nonché i valori $x^**$ ed $hat(x)$, hanno tutti immediati significati statistici: quali sono?
Testo nascosto, fai click qui per vederlo
Il valore $f(t)$ è il cosiddetto scarto medio, cioè la media degli errori assoluti che si commettono approssimando gli $x_1,...,x_n$ con un numero $t in RR$, mentre $g(t)$ è il quadrato dello scarto quadratico medio, cioè la media dei quadrati degli errori che si commettono approssimando gli $x_1,...,x_n$ con un $t in RR$.
I valori $x^**$ che danno il minimo ad $f$ sono le mediane degli $x_1,..,x_n$, mentre il valore $hat(x)$ che dà il minimo a $g$ è la media (aritmetica) degli $x_1,...,x_n$.
Conseguentemente, il valore $g(hat(x))$ è la varianza degli $x_1,...,x_n$ e la sua radice, i.e. $sqrt(g(hat(x)))$, è la deviazione standard.
Sono sempre stato, e mi ritengo ancora un dilettante. Cioè una persona che si diletta, che cerca sempre di provare piacere e di regalare il piacere agli altri, che scopre ogni volta quello che fa come se fosse la prima volta. (Freak Antoni)