Varianza

da **Qwerty79** » 17/12/2023, 09:12

Ciao,
sto calcolando la varianza di un dataset molto grande. Ho calcolato il valore medio dell'intero dataset.
Per problemi computazionali, adesso vorrei spezzare il dataset in più parti di uguale dimensione e poi calcolare la varianza totale, secondo voi è corretto calcolare le varie varianza del singolo blocco e poi calcolare la media delle varianze per avere il valore della varianza come se l'avessi calcolato sull'intero dataset?

Grazie

da **sellacollesella** » 17/12/2023, 12:48

No, non è corretto come vorresti fare, ma ti basta calcolare:
\[
\begin{aligned}
& \mu = \frac{1}{m_1+m_2+\dots+m_n}\left(\sum_{i=1}^{m_1}a_i+\sum_{i=1}^{m_2}b_i+\dots+\sum_{i=1}^{m_n}z_i\right); \\
& \sigma^2 = \frac{1}{m_1+m_2+\dots+m_n-1}\left(\sum_{i=1}^{m_1}(a_i-\mu)^2+\sum_{i=1}^{m_2}(b_i-\mu)^2+\dots+\sum_{i=1}^{m_n}(z_i-\mu)^2\right); \\
\end{aligned}
\] dove $a,\,b,\,\dots,\,z$ sono gli $n$ raggruppamenti in cui hai suddiviso i dati.

da **ingres** » 17/12/2023, 18:34

Però mi sembra che forse con una piccola correzione si possa fare.

Sia $m$ il numero di campioni di ciascuna parte (tutte della stessa dimensione) e $n$ è il numero totale di parti, per cui $n*m$ rappresenta il numero di campioni totale del data set.

Sia $mu$ la media dell'intero dataset. La varianza campionaria corretta sarà:

$sigma^2 = (sum_(j=1)^n sum_(i=1)^m (x_(ij) - mu)^2)/(n*m-1) *$

essendo $x_(ij)$ il campione i-simo del raggruppamento j-simo.

Posta $sigma_j^2= sum_(i=1)^m (x_(ij) - mu)^2/(m-1)$ la varianza campionaria corretta del raggruppamento j-simo, si potrà ancora scrivere

$sigma^2 = (m-1)/(n*m-1) * (sum_(j=1)^n sigma_j^2)$

ma per definizione la media delle varianze è:

$mu_(sigma^2) = (sum_(j=1)^n sigma_j^2)/n$

per cui:

$sigma^2 = (n(m-1))/(n*m-1)*mu_(sigma^2)$

Se poi la varianza di ogni singolo raggruppamento fosse calcolata senza correzione, si avrebbe

$sigma^2 = (n*m)/(n*m-1)*mu_(sigma^2)$

e infine nel caso di dataset molto grande ovvero con $n m$ >>1 si avrebbe effettivamente:

$sigma^2 approx mu_(sigma^2)$

Varianza

Varianza

Re: Varianza

Re: Varianza

Chi c’è in linea