Varianza¶
La Formula¶
Varianza della Popolazione (quando hai i dati per l'intero gruppo):
Varianza Campionaria (quando hai un sottoinsieme dei dati):
Cosa Significa¶
La varianza misura quanto sono dispersi i numeri in un set di dati. Quantifica il grado medio in cui ogni punto differisce dalla media.
- Varianza Zero: Tutti i valori sono identici (es. [5, 5, 5]). Non c'è dispersione.
- Varianza Alta: I valori sono lontani dalla media (es. [0, 100]).
- Varianza Bassa: I valori sono raggruppati vicino alla media (es. [48, 52]).
Poiché eleva al quadrato le differenze, la varianza dà un peso extra agli outlier (valori anomali). Un punto che è due volte più lontano contribuisce quattro volte di più alla varianza.
Perché Funziona — L'Intuizione¶
Perché elevare al quadrato le differenze?¶
Se sommassimo semplicemente le deviazioni dalla media \((x_i - \mu)\), la somma sarebbe zero perché i negativi cancellerebbero i positivi. Questa è la definizione di media!
Per evitare ciò, dobbiamo rendere tutto positivo. Potremmo prendere il valore assoluto, ma elevare al quadrato ha proprietà matematiche migliori: 1. Continuamente differenziabile: Più facile da usare nel calcolo e nell'ottimizzazione (come nei Minimi Quadrati). 2. Penalizza gli outlier: Evidenzia i valori estremi, il che è spesso desiderabile nella gestione del rischio e nel controllo qualità.
Perché dividere per \(n-1\)?¶
Quando calcoliamo la varianza campionaria, dividiamo per \(n-1\) invece di \(n\). Questa si chiama Correzione di Bessel.
- Il Problema: Non conosciamo la vera media della popolazione \(\mu\), quindi usiamo la media campionaria \(\bar{x}\).
- La Distorsione (Bias): La media campionaria \(\bar{x}\) è naturalmente "più vicina" ai punti dati del campione rispetto alla vera media della popolazione \(\mu\) (perché \(\bar{x}\) è calcolata da quei punti specifici).
- Il Risultato: Se usassimo \(\mu\), le distanze quadrate sarebbero maggiori. Usando \(\bar{x}\), la somma dei quadrati risulta leggermente troppo piccola.
- La Soluzione: Dividere per un numero leggermente più piccolo (\(n-1\)) gonfia il risultato quel tanto che basta per correggere questa distorsione in media.
Derivazione (Popolazione)¶
La varianza è definita come il Valore Atteso della deviazione quadrata dalla media:
Espandendo il quadrato:
Usando la linearità del valore atteso (\(E[A+B] = E[A] + E[B]\)):
Poiché \(E[X] = \mu\) per definizione:
Questo porta alla comune formula computazionale:
Variabili Spiegate¶
| Simbolo | Nome | Descrizione |
|---|---|---|
| \(\sigma^2\) | Varianza della Popolazione | Varianza dell'intera popolazione |
| \(s^2\) | Varianza Campionaria | Varianza stimata da un campione |
| \(x_i\) | Punto Dati | Singolo valore |
| \(\mu\) | Media della Popolazione | Media della popolazione |
| \(\bar{x}\) | Media Campionaria | Media del campione |
| \(N\) | Dimensione Popolazione | Numero totale di elementi nella popolazione |
| \(n\) | Dimensione Campione | Numero di elementi nel campione |
| \(n-1\) | Gradi di Libertà | Fattore di correzione per la varianza campionaria |
Esempio Pratico¶
Dati (Campione): [2, 4, 4, 4, 5, 5, 7, 9] \(n = 8\)
- Calcola la Media (\(\bar{x}\)):
-
Calcola Deviazioni Quadrate \((x_i - 5)^2\):
- \(2 \to (2-5)^2 = 9\)
- \(4 \to (4-5)^2 = 1\)
- \(4 \to (4-5)^2 = 1\)
- \(4 \to (4-5)^2 = 1\)
- \(5 \to (5-5)^2 = 0\)
- \(5 \to (5-5)^2 = 0\)
- \(7 \to (7-5)^2 = 4\)
- \(9 \to (9-5)^2 = 16\)
-
Somma delle Deviazioni Quadrate:
- Dividi per \(n-1\):
(Se questa fosse una popolazione, divideremmo per 8, ottenendo \(\sigma^2 = 4\)).
Errori Comuni¶
- Dimenticare di elevare al quadrato: La varianza è in "unità quadrate" (es. \(\text{metri}^2\)). Non è intuitiva da leggere direttamente. Fai sempre la radice quadrata per ottenere la Deviazione Standard (\(\sigma\)) nell'unità originale.
- Confondere \(\sigma^2\) e \(s^2\): Usare \(N\) per un piccolo campione sottostima la vera variabilità.
- "La varianza può essere negativa": Impossibile. È una somma di quadrati. Se ottieni un numero negativo, controlla i calcoli.
Formule Correlate¶
- Deviazione Standard — La radice quadrata della varianza (\(\sqrt{\sigma^2}\)).
- Covarianza — Come due variabili variano insieme.
- Errore Standard — La varianza della media campionaria stessa.