Approssimazione dello scarto quadratico medio

Messaggioda Cheguevilla » 21/02/2009, 15:14

In questi giorni sto facendo un corso (abbastanza serio) di process management.
Tuttavia, è il "livello 1", e ci viene spiegato come utilizzare alcuni strumenti statistici, senza spiegarne i principi nel dettaglio.
Ad esempio, c'è stata fornito un metodo semplificato per il calcolo dello scarto quadratico medio.
$sigma~~1.128 1/nsum_(i=2)^n|x_i-x_(i-1)|$
Quel 1.128 è stato chiamato $d_2$, ma ne gli insegnanti ne il libro spiegano da dove venga fuori quel numero.
Qualcuno ha qualche idea su questa approssimazione?
Si può usare sempre o solo con determinate condizioni?
Immagine

Rischiavano la strada e per un uomo
ci vuole pure un senso a sopportare
di poter sanguinare
e il senso non dev'essere rischiare
ma forse non voler più sopportare.
Avatar utente
Cheguevilla
Cannot live without
Cannot live without
 
Messaggio: 3023 di 3869
Iscritto il: 12/02/2003, 13:24
Località: København

Messaggioda Cheguevilla » 21/02/2009, 20:36

Si questa roba qua è proprio quello che sto studiando.
Tuttavia, vedo che si parla ovunque di questo "Bias correction factor $D_2$", ma nessuno dimostra come si ricavi.
Si trovano tabelle che offrono risultati diversi per $D_2$ a seconda della numerosità del campione, ma non ho la più pallida idea circa la loro provenienza.
Anche io avevo pensato alla relazione tra lo scarto quadratico medio e la differenza quadratica media, ma in quel caso si parla sempre di quadrati, che qui non entrano in gioco.
Qui c'è una spiegazione del perchè si utilizzi l'approssimazione dello scarto, piuttosto che lo scarto quadratico medio in sè, e potrebbe anche andarmi bene, ma ancora non riesco a capire la logica che accomuni le cose.

Nota: mi fa un po' ridere il modo in cui hanno tradotto control chart in italiano (carta di controllo) nell'articolo linkato da Sergio...
Immagine

Rischiavano la strada e per un uomo
ci vuole pure un senso a sopportare
di poter sanguinare
e il senso non dev'essere rischiare
ma forse non voler più sopportare.
Avatar utente
Cheguevilla
Cannot live without
Cannot live without
 
Messaggio: 3026 di 3869
Iscritto il: 12/02/2003, 13:24
Località: København

Messaggioda Chicco_Stat_ » 23/02/2009, 18:59

Caro Cheguevilla, quanto tempo!

non ho ahimé il tempo materiale di mettermi a cercare riferimenti autorevoli a riguardo, per cui provo a buttare lì un'idea.
Mi dici che questo $D_2$ dipende dalla dimensione di campionamento e viene denominato "Bias Correction Factor"

La prima cosa a cui mi viene da pensare è: l'approssimazione è stata portata tramite un *altro* stimatore per lo scarto quadratico medio (in tal caso una media di scarti in valore assoluto). Benissimo, uno può usare perfino la varianza campionaria come stimatore per la media o la statistica "minimo" per stimare una moda, nulla vieta, ma chiaramente questi stimatori alternativi potrebbero non godere delle desiderabili proprietà degli stimatori "classici" (correttezza, consistenza, efficienza).
Un esempio tipico è proprio dato dalla stima della varianza..se si applica "tale e quale" la formula teorica della varianza al campione si ottiene una stima *distorta* della vera varianza della popolazione (ovvero il valor medio della variabile casuale stimatore varianza non coincide con la varianza vera). Per ovviare a ciò, tramite semplicissimi passaggi algebrici, si introduce un fattore di correzione, che nella fattispecie è $\frac{n}{n-1}$, e porta alla cosiddetta "varianza campionaria corretta".
Potrebbe essere stata fatta la medesima cosa nel tuo caso...quaglierebbe anche con la tabulazione per diversi valori di $n$ di questo $D_2$.
Il motivo per tutto questo? una media di scarti in valore assoluto è computazionalmente MOLTO meno demanding di una media di scarti al quadrato sotto radice.

spero di essere stato d'aiuto e non aver scritto boiate ;)
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 264 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano

Messaggioda Cheguevilla » 23/02/2009, 21:28

Ciao Chicco, sono contento di vedere che tu mi abbia risposto.
Certo, la prima cosa che ci è stata detta a questo corso è stata proprio che questo sistema consente di stimare la varianza con uno sforzo minimo.
Tuttavia, si parla di qualcosa di simile, poichè il motivo per cui si calcola questo indice è direttamente connesso al significato della varianza.
In pratica, i "run charts" hanno questo significato: supponiamo che il processo in analisi sia stabile, allora il 99% delle rilevazioni deve rientrare in $mi+-3sigma$.
Se una rilevazione è al di fuori di questi limiti, allora è necessario investigare le cause di questa deviazione, poichè con il 99% delle probabilità, le cause sono esterne alla natura del processo stesso.
A me può anche stare bene che si stimi lo scarto quadratico medio in questo modo, ma ero curioso di sapere per quale motivo i valori potessero considerarsi simili e da dove sbucasse fuori quel 1.128.
Inoltre, mi piacerebbe capire quale sia la differenza tra questa stima e lo scarto quadratico medio reale e quanto sia dipendente dai vari fattori connessi alle rilevazioni.
Più per curiosità matematiche che per altro. Ai fini dell'analisi di processo, si vive benissimo senza saperlo...
Immagine

Rischiavano la strada e per un uomo
ci vuole pure un senso a sopportare
di poter sanguinare
e il senso non dev'essere rischiare
ma forse non voler più sopportare.
Avatar utente
Cheguevilla
Cannot live without
Cannot live without
 
Messaggio: 3031 di 3869
Iscritto il: 12/02/2003, 13:24
Località: København

Messaggioda Chicco_Stat_ » 23/02/2009, 22:40

allora, ho dato una letturina ai link che son stati lasciati e forse ho capito qualcosa
il punto cruciale credo sia questo, copio da wiki:

Calculation of standard deviation

As for the calculation of control limits, the standard deviation required is that of the common-cause variation in the process. Hence, the usual estimator, in terms of sample variance, is not used as this estimates the total squared-error loss from both common- and special-causes of variation.

An alternative method is to use the relationship between the range of a sample and its standard deviation derived by Leonard H. C. Tippett, an estimator which tends to be less influenced by the extreme observations which typify special-causes.

relativamente a quest'ultima affermazione rimando al link fornito da sergio http://www.dim.unipd.it/rosa/cap_2.pdf pagina 2.90, dove vengono date le espressioni (anche se un po' criptiche) dei momenti della distribuzione della variabile statistica Range Campionario...come puoi vedere lì entra il nostro $D_2$ nell'esplicitazione del valor medio sotto ipotesi di normalità.

Il mio pensiero è questo: come riportato su wiki viene impiegata come stima non lo scarto quadratico medio, bensì una sua trasformata (passando tramite il Range, e son d'accordo con te che sono criptici comunque, non ci sono passaggi né spiegano niente) ed il motivo è la ROBUSTEZZA di questo nuovo stimatore. Robustezza che mette al riparo da quei picchi (valori estremi) tipici delle special causes di cui sopra, che non rientrano nell'insieme di fattori di interesse relativamente al controllo del processo, che si concentra precipuamente su deviazioni particolari delle common causes.
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 268 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano

Messaggioda Cheguevilla » 23/02/2009, 22:58

Si, ho visto.
Ma il link riportato, a pagina 2.90 dice semplicemente che
Nel caso di una popolazione con Distribuzione Normale, per questi parametri l'analisi statistica ha dimostrato le seguenti relazioni...
Questa è la cosa che mi incuriosisce.
Naturalmente, comprendo il problema sollevato dal fatto che lo scarto quadratico medio comporta una distensione dei limiti di controllo quando si verificano eventi attribuibili a cause non comuni.
Se non altro, è curioso il fatto che si prendano le differenze solo tra ogni elemento ed il precedente, dando quindi importanza all'ordine con cui gli eventi si verificano.
Immagine

Rischiavano la strada e per un uomo
ci vuole pure un senso a sopportare
di poter sanguinare
e il senso non dev'essere rischiare
ma forse non voler più sopportare.
Avatar utente
Cheguevilla
Cannot live without
Cannot live without
 
Messaggio: 3033 di 3869
Iscritto il: 12/02/2003, 13:24
Località: København

Messaggioda Chicco_Stat_ » 23/02/2009, 23:07

lì bisognerebbe vedere la derivazione della relazione che citano..forse ho qualcosa in giro in mezzo alle palate di fogli e libri che dominano la mia scrivania, se trovo riporto.
è curioso sì comunque che venga impiegato un indice che potrebbe tranquillamente essere riportato in un ambito di autocorrelazione a lag 1 a mio avviso...
però forse proprio per questo è più sensibile a cambiamenti delle componenti di fondo del processo, "tenendone conto" passo per passo.

per quanto riguarda i valori assunti dal tuo $D_2$ la relazione fra esso ed $n$ è (dopo un banale plot) evidentemente di tipo "radice quadrata" o al più logaritmico (ma pare esserci un asintoto orizzontale per $D_2=4$ quindi escluderei il logaritmo)
Problem: To Catch a Lion in the Sahara Desert - The Dirac Method

We observe that wild lions are, ipso facto, not observable in the Sahara Desert. Consequently, if there are any lions in the Sahara, they are tame. The capture of a tame lion may be left as an exercise for the reader.
Avatar utente
Chicco_Stat_
Junior Member
Junior Member
 
Messaggio: 269 di 348
Iscritto il: 01/02/2007, 23:13
Località: Milano

Messaggioda topi » 16/03/2009, 20:56

In una distribuzione uniforme fra a e b la distanza fra xn ed xn+1 (due campionamenti successivi) vale 1/3 dell' intervallo a-b. Basta risolvere un integrale doppio definito fra a e b. Nota: a prima vista qualcuno risponde 1/2 pensando che un elemento si trovi ad un estremo; qualcun altro risponde 1/4 pensando ad un elemento al centro!
Analogamente in una distribuzione normale bisogna calcolare la distanza x2-x1 fra due campionamenti successivi e trovarne il valor medio (estendendo il dominio da - a + infinito) . La funzione densità di probabilità ci dice con quale probabilità il primo valore si trova in un intorno di x1, idem per il secondo valore.
Risolvendo l' integrale doppio (non chiedetelo ame, che sono troppo arrugginito!) si trova che il valor medio della distanza fra un valor ed il successivo (o qualunque altro valore preso a caso!) è proprio 1,128 volte la deviazione standard.

Aggiungo che nella distribuzione uniforme , ad esempio fra 0 ed 1, la varianza vale 1/12 e la sua radice, ossia la deviazione standard vale circa 0,289; quindi il rapporto fra distanza media fra due valori successivi (ossia 1/3) e la deviazione standard (0,289) vale 1,155. Si tratta quindi di uno stimatore abbastanza robusto per quanto concerne l' aderenza ad una distribuzione piuttosto che un' altra
saluti
gino
gino
topi
Junior Member
Junior Member
 
Messaggio: 26 di 102
Iscritto il: 02/12/2006, 16:13
Località: Ravenna


Torna a Statistica e probabilità

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite