da ingres » 17/12/2023, 18:34
Però mi sembra che forse con una piccola correzione si possa fare.
Sia $m$ il numero di campioni di ciascuna parte (tutte della stessa dimensione) e $n$ è il numero totale di parti, per cui $n*m$ rappresenta il numero di campioni totale del data set.
Sia $mu$ la media dell'intero dataset. La varianza campionaria corretta sarà:
$sigma^2 = (sum_(j=1)^n sum_(i=1)^m (x_(ij) - mu)^2)/(n*m-1) *$
essendo $x_(ij)$ il campione i-simo del raggruppamento j-simo.
Posta $sigma_j^2= sum_(i=1)^m (x_(ij) - mu)^2/(m-1)$ la varianza campionaria corretta del raggruppamento j-simo, si potrà ancora scrivere
$sigma^2 = (m-1)/(n*m-1) * (sum_(j=1)^n sigma_j^2)$
ma per definizione la media delle varianze è:
$mu_(sigma^2) = (sum_(j=1)^n sigma_j^2)/n$
per cui:
$sigma^2 = (n(m-1))/(n*m-1)*mu_(sigma^2)$
Se poi la varianza di ogni singolo raggruppamento fosse calcolata senza correzione, si avrebbe
$sigma^2 = (n*m)/(n*m-1)*mu_(sigma^2)$
e infine nel caso di dataset molto grande ovvero con $n m$ >>1 si avrebbe effettivamente:
$sigma^2 approx mu_(sigma^2)$
Chi non vorrà attingere ad altra intelligenza che alla sua, si troverà ben presto ridotto alla più miserabile di tutte le imitazioni: a quella delle sue stesse opere (Ingres)