adminv15
(30 punti)
6' di lettura
3 / 5 (2)
In questo appunto viene analizzata la statistica descrittiva: viene fornita una definizione di tale tipo di statistica, viene definita la media, la moda e la mediana, viene spiegato il significato di scarto, di varianza e di covarianza.

Statistica

La statistica si occupa dei modi di raccogliere e analizzare dati relativi ad un certo insieme di persone o di oggetti, per trarne conclusioni e fare previsioni.

Esistono due branche della statistica:

  • Statistica descrittiva = parte della statistica che, data una serie di dati, trae da questi ultimi delle informazioni;
  • Statistica inferenziale (o induttiva) = parte della statistica che, basandosi sullo studio di un campione, trae informazioni sui cambiamenti del campione stesso.
In questo appunto ci occuperemo solamente di statistica descrittiva.
Le fasi fondamentali di un indagine statistica sono quindi:
  1. rilevamento dei dati;
  2. elaborazione dei dati.
Il gruppo preso in considerazione viene detto popolazione, e parte della popolazione che si decide di analizzare viene detta campione.

Quando si parla di popolazione si fa riferimento ad elementi che presentano tutti le stesse caratteristiche: chiameremo questi elementi unita' statistiche.

Ogni popolazione statistica possiede caratteri statistici che possono distinguersi in:

  1. Qualitativi, espressi in forma verbale, spesso rappresentati da un aggettivo, e possono essere:
    • sconnessi;
    • ordinati;
    • rettilinei;
    • ciclici.
  2. Quantitativi, descritti mediante numeri, possono essere :
    • discreti = possono essere messi in relazione sia in un insieme finito sia in un insieme infinito ma numerabile;
    • continui = non sono numerabili; tra l’uno e l’altro non c’è spazio.
Elementi di statistica descrittiva:
  • Dati grezzi
  • Distribuzioni in classi con relativa frequenza
  • Distribuzioni di frequenze
  • Ampiezza di una classe
  • Valore centrale di una classe.
Frequenza : indice che indica il numero di volte che un carattere si ripete nella tabella.

Frequenza relativa = la frequenza relativa di una modalità è il rapporto fra la frequenza delle modalità e il numero totale delle unità statistiche. = frequenza assoluta/numero elementi

Frequenza cumulata = risponde al comando ≤ (es.: studenti che hanno età minore a quella data).
Frequenza retrocumulata = risponde al comando ≥ .

Somma delle frequenze = intero collettivo
Per ulteriori approfondimenti sulla statistica inferenziale vedi anche qua

Caratteri che sintetizzano la distribuzione statistica

La media, in base alle sue caratteristiche e al metodo utilizzato per individuarne il valore, può essere definita media di calcolo o media di posizione.

Medie di calcolo = si determinano tenendo conto di tutti i valori della distribuzione.
Alcuni esempi di medie di calcolo sono:

  • Media Aritmetica
  • Media Ponderata
  • Media Armonica
  • Media Geometrica
  • Media Quadratica
Medie di posizione = si calcolano tenendo conto solo di alcuni valori:
Alcuni esempi di medie di posizione sono:
  • Moda
  • Mediana

La media può essere considerata come il valore di sintesi per le distribuzioni quantitative.

La media deve essere il valore del carattere che dovrebbe essere osservato in ogni unità del collettivo, affinché rimanga invariato il risultato complessivo dell’osservazione sull’intero collettivo.

La media deve essere il valore che è più vicino a tutti i termini della distribuzione.
In seguito sono riportati alcuni tipi di media, con relativa formula che è possibile utilizzare per il calcolo:
Media aritmetica : M = ∑xi / n
Media ponderata : M = ∑xi • fi / n
Media geometrica : M = √X1•X2• ... Xn
Media armonica : 1/ 1/x1+1/x2.../n
Media quadratica : √X1•X2•...Xn

La mediana è l’elemento attorno al quale si addensano i dati.

La mediana è un’altra sintesi per le distribuzioni quantitative, che costituisce un centro intorno a cui si dispone la distribuzione e per determinarla occorre ordinare i dati stessi.
Si possono così avere diverse situazioni : se la distribuzione è pari la mediana è la media tra i due elementi centrali, se il numero di dati è dispari la mediana è il valore centrale.
La mediana divide la distribuzione in due distribuzioni contenenti il 50% dei dati.

La moda è il valore a cui corrisponde la frequenza massima.
Se i valori si presentano raggruppati in classi, si parla di classi modali.

Scarti e Varianza

La media però non è sempre veritiera.
Si può lavorare con gli scarti semplici, uguali alla differenza tra il dato sperimentale e la media.
Se lo scarto è alto, i dati sono poco rappresentativi; se lo scarto è piccolo, i dati sono più veritieri.
Ma se considero solo gli scarti, la media assume un valore uguale a 0.
Ecco perché si parla di scarti quadratici.

Lo scarto quadratico è un indice più sensibile del precedente, che mi permette di calcolare anche la media.
Lo scarto quadratico è sempre positivo.
La media degli scarti quadratici prende il nome di varianza (σ²).

La radice della varianza prende il nome di scarto quadratico medio
σ ² = Var(x) = M(x-μ)²
dove: μ = media

La varianza è un indice che ci fa distinguere l’attendibilità dei dati di una rilevazione. Se la varianza fosse 0, tutti i numeri sarebbero uguali alla media.

Covarianza e coefficiente di Bravais - Pearson

La covarianza è una variabile che misura la dipendenza e il tipo di dipendenza tra le X e le Y; è un numero concentrato, varia cioè tra -1 e 1.

Date le coppie (x;y), si definisce covarianza la media dei prodotti degli scarti
cov (x,y) = M [(x-μx)•(y-μy)]

Il coefficiente di Bravais –Pearson è il coefficiente di correlazione lineare dato dal rapporto tra la covarianza e il prodotto tra gli scarti quadratici medi.
r = cov (x,y) / σx• σy

Per ulteriori approfondimenti sulla varianza e la covarianza vedi anche qua