Vai al contenuto

Varianza

La Formula

Varianza della Popolazione (quando hai i dati per l'intero gruppo):

\[ \sigma^2 = \frac{\sum_{i=1}^N (x_i - \mu)^2}{N} \]

Varianza Campionaria (quando hai un sottoinsieme dei dati):

\[ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1} \]

Cosa Significa

La varianza misura quanto sono dispersi i numeri in un set di dati. Quantifica il grado medio in cui ogni punto differisce dalla media.

  • Varianza Zero: Tutti i valori sono identici (es. [5, 5, 5]). Non c'è dispersione.
  • Varianza Alta: I valori sono lontani dalla media (es. [0, 100]).
  • Varianza Bassa: I valori sono raggruppati vicino alla media (es. [48, 52]).

Poiché eleva al quadrato le differenze, la varianza dà un peso extra agli outlier (valori anomali). Un punto che è due volte più lontano contribuisce quattro volte di più alla varianza.

Perché Funziona — L'Intuizione

Perché elevare al quadrato le differenze?

Se sommassimo semplicemente le deviazioni dalla media \((x_i - \mu)\), la somma sarebbe zero perché i negativi cancellerebbero i positivi. Questa è la definizione di media!

Per evitare ciò, dobbiamo rendere tutto positivo. Potremmo prendere il valore assoluto, ma elevare al quadrato ha proprietà matematiche migliori: 1. Continuamente differenziabile: Più facile da usare nel calcolo e nell'ottimizzazione (come nei Minimi Quadrati). 2. Penalizza gli outlier: Evidenzia i valori estremi, il che è spesso desiderabile nella gestione del rischio e nel controllo qualità.

Perché dividere per \(n-1\)?

Quando calcoliamo la varianza campionaria, dividiamo per \(n-1\) invece di \(n\). Questa si chiama Correzione di Bessel.

  • Il Problema: Non conosciamo la vera media della popolazione \(\mu\), quindi usiamo la media campionaria \(\bar{x}\).
  • La Distorsione (Bias): La media campionaria \(\bar{x}\) è naturalmente "più vicina" ai punti dati del campione rispetto alla vera media della popolazione \(\mu\) (perché \(\bar{x}\) è calcolata da quei punti specifici).
  • Il Risultato: Se usassimo \(\mu\), le distanze quadrate sarebbero maggiori. Usando \(\bar{x}\), la somma dei quadrati risulta leggermente troppo piccola.
  • La Soluzione: Dividere per un numero leggermente più piccolo (\(n-1\)) gonfia il risultato quel tanto che basta per correggere questa distorsione in media.

Derivazione (Popolazione)

La varianza è definita come il Valore Atteso della deviazione quadrata dalla media:

\[ \text{Var}(X) = E[(X - \mu)^2] \]

Espandendo il quadrato:

\[ = E[X^2 - 2X\mu + \mu^2] \]

Usando la linearità del valore atteso (\(E[A+B] = E[A] + E[B]\)):

\[ = E[X^2] - 2\mu E[X] + \mu^2 \]

Poiché \(E[X] = \mu\) per definizione:

\[ = E[X^2] - 2\mu(\mu) + \mu^2 \]
\[ = E[X^2] - 2\mu^2 + \mu^2 \]
\[ = E[X^2] - \mu^2 \]

Questo porta alla comune formula computazionale:

\[ \sigma^2 = \text{Media dei Quadrati} - (\text{Media})^2 \]

Variabili Spiegate

Simbolo Nome Descrizione
\(\sigma^2\) Varianza della Popolazione Varianza dell'intera popolazione
\(s^2\) Varianza Campionaria Varianza stimata da un campione
\(x_i\) Punto Dati Singolo valore
\(\mu\) Media della Popolazione Media della popolazione
\(\bar{x}\) Media Campionaria Media del campione
\(N\) Dimensione Popolazione Numero totale di elementi nella popolazione
\(n\) Dimensione Campione Numero di elementi nel campione
\(n-1\) Gradi di Libertà Fattore di correzione per la varianza campionaria

Esempio Pratico

Dati (Campione): [2, 4, 4, 4, 5, 5, 7, 9] \(n = 8\)

  1. Calcola la Media (\(\bar{x}\)):
\[ \frac{2+4+4+4+5+5+7+9}{8} = \frac{40}{8} = 5 \]
  1. Calcola Deviazioni Quadrate \((x_i - 5)^2\):

    • \(2 \to (2-5)^2 = 9\)
    • \(4 \to (4-5)^2 = 1\)
    • \(4 \to (4-5)^2 = 1\)
    • \(4 \to (4-5)^2 = 1\)
    • \(5 \to (5-5)^2 = 0\)
    • \(5 \to (5-5)^2 = 0\)
    • \(7 \to (7-5)^2 = 4\)
    • \(9 \to (9-5)^2 = 16\)
  2. Somma delle Deviazioni Quadrate:

\[ 9 + 1 + 1 + 1 + 0 + 0 + 4 + 16 = 32 \]
  1. Dividi per \(n-1\):
\[ s^2 = \frac{32}{8-1} = \frac{32}{7} \approx 4.57 \]

(Se questa fosse una popolazione, divideremmo per 8, ottenendo \(\sigma^2 = 4\)).

Errori Comuni

  • Dimenticare di elevare al quadrato: La varianza è in "unità quadrate" (es. \(\text{metri}^2\)). Non è intuitiva da leggere direttamente. Fai sempre la radice quadrata per ottenere la Deviazione Standard (\(\sigma\)) nell'unità originale.
  • Confondere \(\sigma^2\) e \(s^2\): Usare \(N\) per un piccolo campione sottostima la vera variabilità.
  • "La varianza può essere negativa": Impossibile. È una somma di quadrati. Se ottieni un numero negativo, controlla i calcoli.

Formule Correlate