Varianza

Messaggioda Qwerty79 » 17/12/2023, 09:12

Ciao,
sto calcolando la varianza di un dataset molto grande. Ho calcolato il valore medio dell'intero dataset.
Per problemi computazionali, adesso vorrei spezzare il dataset in più parti di uguale dimensione e poi calcolare la varianza totale, secondo voi è corretto calcolare le varie varianza del singolo blocco e poi calcolare la media delle varianze per avere il valore della varianza come se l'avessi calcolato sull'intero dataset?

Grazie
Qwerty79
New Member
New Member
 
Messaggio: 49 di 96
Iscritto il: 11/02/2020, 18:27

Re: Varianza

Messaggioda sellacollesella » 17/12/2023, 12:48

No, non è corretto come vorresti fare, ma ti basta calcolare:
\[
\begin{aligned}
& \mu = \frac{1}{m_1+m_2+\dots+m_n}\left(\sum_{i=1}^{m_1}a_i+\sum_{i=1}^{m_2}b_i+\dots+\sum_{i=1}^{m_n}z_i\right); \\
& \sigma^2 = \frac{1}{m_1+m_2+\dots+m_n-1}\left(\sum_{i=1}^{m_1}(a_i-\mu)^2+\sum_{i=1}^{m_2}(b_i-\mu)^2+\dots+\sum_{i=1}^{m_n}(z_i-\mu)^2\right); \\
\end{aligned}
\] dove \(a,\,b,\,\dots,\,z\) sono gli \(n\) raggruppamenti in cui hai suddiviso i dati.
sellacollesella
Average Member
Average Member
 
Messaggio: 557 di 959
Iscritto il: 08/04/2022, 12:43

Re: Varianza

Messaggioda ingres » 17/12/2023, 18:34

Però mi sembra che forse con una piccola correzione si possa fare.

Sia $m$ il numero di campioni di ciascuna parte (tutte della stessa dimensione) e $n$ è il numero totale di parti, per cui $n*m$ rappresenta il numero di campioni totale del data set.

Sia $mu$ la media dell'intero dataset. La varianza campionaria corretta sarà:

$sigma^2 = (sum_(j=1)^n sum_(i=1)^m (x_(ij) - mu)^2)/(n*m-1) *$

essendo $x_(ij)$ il campione i-simo del raggruppamento j-simo.

Posta $sigma_j^2= sum_(i=1)^m (x_(ij) - mu)^2/(m-1)$ la varianza campionaria corretta del raggruppamento j-simo, si potrà ancora scrivere

$sigma^2 = (m-1)/(n*m-1) * (sum_(j=1)^n sigma_j^2)$

ma per definizione la media delle varianze è:

$mu_(sigma^2) = (sum_(j=1)^n sigma_j^2)/n$

per cui:

$sigma^2 = (n(m-1))/(n*m-1)*mu_(sigma^2)$

Se poi la varianza di ogni singolo raggruppamento fosse calcolata senza correzione, si avrebbe

$sigma^2 = (n*m)/(n*m-1)*mu_(sigma^2)$

e infine nel caso di dataset molto grande ovvero con $n m$ >>1 si avrebbe effettivamente:

$sigma^2 approx mu_(sigma^2)$
Chi non vorrà attingere ad altra intelligenza che alla sua, si troverà ben presto ridotto alla più miserabile di tutte le imitazioni: a quella delle sue stesse opere (Ingres)
ingres
Senior Member
Senior Member
 
Messaggio: 1501 di 1718
Iscritto il: 30/10/2022, 11:45


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite