Covarianza¶

La Formula¶

Per un campione:

\[ \text{Cov}(x,y) = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n-1} \]

Per una popolazione:

\[ \sigma_{xy} = E[(X - \mu_x)(Y - \mu_y)] \]

Cosa Significa¶

La covarianza misura la direzione della relazione lineare tra due variabili.

Covarianza Positiva: Quando \(x\) è alto, \(y\) tende a essere alto. Quando \(x\) è basso, \(y\) tende a essere basso. Si muovono insieme.
Covarianza Negativa: Quando \(x\) è alto, \(y\) tende a essere basso. Si muovono in direzioni opposte.
Covarianza Zero: Non c'è uno schema lineare che collega i movimenti di \(x\) e \(y\).

A differenza della correlazione, la covarianza non è scalata. Se raddoppi i valori di \(x\) (ad esempio, misurando in centimetri invece che in metri), la covarianza aumenta, anche se la forza della relazione rimane la stessa. Questo rende difficile confrontare le covarianze tra diversi set di dati.

Perché Funziona — L'Intuizione¶

Immagina di disegnare un mirino sulla media dei tuoi dati \((\bar{x}, \bar{y})\). Questo divide il grafico a dispersione in quattro quadranti.

In alto a destra (\(x > \bar{x}, y > \bar{y}\)): Entrambe le deviazioni sono positive. Il prodotto è \((+) \cdot (+) = +\).
In basso a sinistra (\(x < \bar{x}, y < \bar{y}\)): Entrambe le deviazioni sono negative. Il prodotto è \((-) \cdot (-) = +\).
In alto a sinistra (\(x < \bar{x}, y > \bar{y}\)): Deviazione \(x\) negativa, \(y\) positiva. Il prodotto è \(-\).
In basso a destra (\(x > \bar{x}, y < \bar{y}\)): Deviazione \(x\) positiva, \(y\) negativa. Il prodotto è \(-\).

La covarianza è semplicemente la media di questi prodotti. * Se la maggior parte dei punti si trova in alto a destra e in basso a sinistra, i prodotti positivi dominano \(\to\) Covarianza Positiva. * Se la maggior parte dei punti si trova in alto a sinistra e in basso a destra, i prodotti negativi dominano \(\to\) Covarianza Negativa.

Derivazione¶

La covarianza deriva dalla definizione di Valore Atteso (\(E\)). La varianza di una singola variabile \(X\) è il valore atteso della deviazione quadrata dalla media:

\[ \text{Var}(X) = E[(X - \mu_x)^2] = E[(X - \mu_x)(X - \mu_x)] \]

La covarianza generalizza questo concetto a due variabili:

\[ \text{Cov}(X,Y) = E[(X - \mu_x)(Y - \mu_y)] \]

Espandendo questa aspettativa:

Espandi i termini:

\[ E[XY - X\mu_y - Y\mu_x + \mu_x\mu_y] \]

Usa la linearità del valore atteso (\(E[A + B] = E[A] + E[B]\) e \(E[cX] = cE[X]\)):

\[ E[XY] - \mu_y E[X] - \mu_x E[Y] + \mu_x \mu_y \]

Sostituisci \(E[X] = \mu_x\) e \(E[Y] = \mu_y\):

\[ E[XY] - \mu_y \mu_x - \mu_x \mu_y + \mu_x \mu_y \]

Semplifica:

\[ \text{Cov}(X,Y) = E[XY] - \mu_x \mu_y \]

Questa formula alternativa è utile per i calcoli: "Media del prodotto meno prodotto delle medie."

Variabili Spiegate¶

Simbolo	Nome	Descrizione
\(\text{Cov}(x,y)\)	Covarianza Campionaria	Misura della variabilità congiunta in un campione
\(\sigma_{xy}\)	Covarianza della Popolazione	Misura teorica per l'intera popolazione
\(x_i, y_i\)	Punti Dati	Singole osservazioni
\(\bar{x}, \bar{y}\)	Medie Campionarie	Media dei campioni \(x\) e \(y\)
\(\mu_x, \mu_y\)	Medie della Popolazione	Media teorica di \(X\) e \(Y\)
\(n\)	Dimensione del Campione	Numero di coppie di dati
\(E[\cdot]\)	Valore Atteso	La media ponderata per la probabilità

Esempio Pratico¶

Dati: \(x = [1, 2, 3]\), \(y = [2, 4, 6]\). Medie: \(\bar{x} = 2\), \(\bar{y} = 4\).

Calcola Deviazioni:
- \((1-2, 2-4) = (-1, -2)\)
- \((2-2, 4-4) = (0, 0)\)
- \((3-2, 6-4) = (1, 2)\)
Moltiplica Deviazioni:
- \((-1)(-2) = 2\)
- \((0)(0) = 0\)
- \((1)(2) = 2\)
Somma e Dividi:
- Somma = \(2 + 0 + 2 = 4\)
- \(\text{Cov}(x,y) = \frac{4}{3-1} = \frac{4}{2} = 2\)

La covarianza è 2. Il segno positivo ci dice che si muovono insieme.

Errori Comuni¶

Interpretare la Grandezza: Una covarianza di 500 non è necessariamente "più forte" di una di 0.5. Dipende dalle unità di misura. Usa sempre la Correlazione (\(r\)) per giudicare la forza.
Confondere \(n\) e \(n-1\): Per i campioni, dividi per \(n-1\) (correzione di Bessel) per ottenere uno stimatore corretto.

Formule Correlate¶

Correlazione di Pearson — La versione normalizzata della covarianza.
Varianza — La covarianza di una variabile con se stessa.