Varianza¶

La Formula¶

Varianza della Popolazione (quando hai i dati per l'intero gruppo):

\[ \sigma^2 = \frac{\sum_{i=1}^N (x_i - \mu)^2}{N} \]

Varianza Campionaria (quando hai un sottoinsieme dei dati):

\[ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1} \]

Cosa Significa¶

La varianza misura quanto sono dispersi i numeri in un set di dati. Quantifica il grado medio in cui ogni punto differisce dalla media.

Varianza Zero: Tutti i valori sono identici (es. [5, 5, 5]). Non c'è dispersione.
Varianza Alta: I valori sono lontani dalla media (es. [0, 100]).
Varianza Bassa: I valori sono raggruppati vicino alla media (es. [48, 52]).

Poiché eleva al quadrato le differenze, la varianza dà un peso extra agli outlier (valori anomali). Un punto che è due volte più lontano contribuisce quattro volte di più alla varianza.

Perché Funziona — L'Intuizione¶

Perché elevare al quadrato le differenze?¶

Se sommassimo semplicemente le deviazioni dalla media \((x_i - \mu)\), la somma sarebbe zero perché i negativi cancellerebbero i positivi. Questa è la definizione di media!

Per evitare ciò, dobbiamo rendere tutto positivo. Potremmo prendere il valore assoluto, ma elevare al quadrato ha proprietà matematiche migliori: 1. Continuamente differenziabile: Più facile da usare nel calcolo e nell'ottimizzazione (come nei Minimi Quadrati). 2. Penalizza gli outlier: Evidenzia i valori estremi, il che è spesso desiderabile nella gestione del rischio e nel controllo qualità.

Perché dividere per \(n-1\)?¶

Quando calcoliamo la varianza campionaria, dividiamo per \(n-1\) invece di \(n\). Questa si chiama Correzione di Bessel.

Il Problema: Non conosciamo la vera media della popolazione \(\mu\), quindi usiamo la media campionaria \(\bar{x}\).
La Distorsione (Bias): La media campionaria \(\bar{x}\) è naturalmente "più vicina" ai punti dati del campione rispetto alla vera media della popolazione \(\mu\) (perché \(\bar{x}\) è calcolata da quei punti specifici).
Il Risultato: Se usassimo \(\mu\), le distanze quadrate sarebbero maggiori. Usando \(\bar{x}\), la somma dei quadrati risulta leggermente troppo piccola.
La Soluzione: Dividere per un numero leggermente più piccolo (\(n-1\)) gonfia il risultato quel tanto che basta per correggere questa distorsione in media.

Derivazione (Popolazione)¶

La varianza è definita come il Valore Atteso della deviazione quadrata dalla media:

\[ \text{Var}(X) = E[(X - \mu)^2] \]

Espandendo il quadrato:

\[ = E[X^2 - 2X\mu + \mu^2] \]

Usando la linearità del valore atteso (\(E[A+B] = E[A] + E[B]\)):

\[ = E[X^2] - 2\mu E[X] + \mu^2 \]

Poiché \(E[X] = \mu\) per definizione:

\[ = E[X^2] - 2\mu(\mu) + \mu^2 \]

\[ = E[X^2] - 2\mu^2 + \mu^2 \]

\[ = E[X^2] - \mu^2 \]

Questo porta alla comune formula computazionale:

\[ \sigma^2 = \text{Media dei Quadrati} - (\text{Media})^2 \]

Variabili Spiegate¶

Simbolo	Nome	Descrizione
\(\sigma^2\)	Varianza della Popolazione	Varianza dell'intera popolazione
\(s^2\)	Varianza Campionaria	Varianza stimata da un campione
\(x_i\)	Punto Dati	Singolo valore
\(\mu\)	Media della Popolazione	Media della popolazione
\(\bar{x}\)	Media Campionaria	Media del campione
\(N\)	Dimensione Popolazione	Numero totale di elementi nella popolazione
\(n\)	Dimensione Campione	Numero di elementi nel campione
\(n-1\)	Gradi di Libertà	Fattore di correzione per la varianza campionaria

Esempio Pratico¶

Dati (Campione): [2, 4, 4, 4, 5, 5, 7, 9] \(n = 8\)

Calcola la Media (\(\bar{x}\)):

\[ \frac{2+4+4+4+5+5+7+9}{8} = \frac{40}{8} = 5 \]

Calcola Deviazioni Quadrate \((x_i - 5)^2\):
- \(2 \to (2-5)^2 = 9\)
- \(4 \to (4-5)^2 = 1\)
- \(4 \to (4-5)^2 = 1\)
- \(4 \to (4-5)^2 = 1\)
- \(5 \to (5-5)^2 = 0\)
- \(5 \to (5-5)^2 = 0\)
- \(7 \to (7-5)^2 = 4\)
- \(9 \to (9-5)^2 = 16\)
Somma delle Deviazioni Quadrate:

\[ 9 + 1 + 1 + 1 + 0 + 0 + 4 + 16 = 32 \]

Dividi per \(n-1\):

\[ s^2 = \frac{32}{8-1} = \frac{32}{7} \approx 4.57 \]

(Se questa fosse una popolazione, divideremmo per 8, ottenendo \(\sigma^2 = 4\)).

Errori Comuni¶

Dimenticare di elevare al quadrato: La varianza è in "unità quadrate" (es. \(\text{metri}^2\)). Non è intuitiva da leggere direttamente. Fai sempre la radice quadrata per ottenere la Deviazione Standard (\(\sigma\)) nell'unità originale.
Confondere \(\sigma^2\) e \(s^2\): Usare \(N\) per un piccolo campione sottostima la vera variabilità.
"La varianza può essere negativa": Impossibile. È una somma di quadrati. Se ottieni un numero negativo, controlla i calcoli.

Formule Correlate¶

Deviazione Standard — La radice quadrata della varianza (\(\sqrt{\sigma^2}\)).
Covarianza — Come due variabili variano insieme.
Errore Standard — La varianza della media campionaria stessa.