Coefficiente di Correlazione di Pearson¶

La Formula¶

\[ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} \]

Oppure, in termini di statistiche campionarie:

\[ r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} = \frac{\text{Cov}(x,y)}{s_x s_y} \]

Cosa Significa¶

Il coefficiente $r$ di Pearson è un numero compreso tra $-1$ e $+1$ che indica quanto due variabili cambiano insieme in modo lineare.

$r = 1$: Relazione lineare positiva perfetta. Se $x$ aumenta, $y$ aumenta in proporzione fissa. I punti giacciono esattamente su una retta con pendenza positiva.
$r = -1$: Relazione lineare negativa perfetta. Se $x$ aumenta, $y$ diminuisce. I punti giacciono esattamente su una retta con pendenza negativa.
$r = 0$: Nessuna relazione lineare. Sapere $x$ non dice nulla su $y$ (linearmente).

Misura quanto i punti sono "vicini" a una linea retta. Non misura la pendenza della retta, ma solo quanto bene la retta approssima i dati.

Perché Funziona — La Storia Dietro la Formula¶

Alla Ricerca della Co-Relazione¶

Alla fine del XIX secolo, Francis Galton era ossessionato dall'ereditarietà. Notò che i genitori alti tendevano ad avere figli alti, ma non così alti — "regredivano" verso la media. Voleva un numero per quantificare la forza di questo legame ereditario.

Iniziò rappresentando i dati graficamente. Tracciò linee attraverso le medie. Si rese conto che se standardizzava le variabili (misurandole in unità di deviazione), la pendenza della linea di regressione stessa diventava una misura della forza della relazione.

Karl Pearson, protetto di Galton, prese questa intuizione geometrica e la trasformò nella precisa formula algebrica che usiamo oggi. Capì che la "correlazione" è essenzialmente il prodotto medio delle deviazioni standardizzate.

Intuizione: Moltiplicare le Deviazioni¶

Guarda il numeratore: $\sum (x_i - \bar{x})(y_i - \bar{y})$. - Se un punto è sopra la media sia in $x$ che in $y$, entrambi i termini sono positivi. Il prodotto è positivo (+). - Se un punto è sotto la media sia in $x$ che in $y$, entrambi i termini sono negativi. Il prodotto è positivo (+). - Se un punto è alto in $x$ ma basso in $y$ (o viceversa), uno è positivo e l'altro negativo. Il prodotto è negativo (-).

Sommare questi prodotti dà un "punteggio netto" di accordo. - Prodotti prevalentemente +? Correlazione positiva. - Prodotti prevalentemente -? Correlazione negativa. - Mix di entrambi? Si annullano a vicenda tendendo a zero.

Il denominatore serve a scalare questa somma in modo che il risultato ricada sempre tra -1 e 1, eliminando le unità di misura (metri, chilogrammi, euro) dall'equazione.

Derivazione¶

Possiamo derivare $r$ chiedendoci: Qual è il coseno dell'angolo tra due vettori centrati?

Derivazione Geometrica (Interpretazione Vettoriale)¶

Immagina i nostri dati come due vettori in uno spazio $n$-dimensionale. Siano i vettori centrati:

\[ \mathbf{u} = \begin{bmatrix} x_1 - \bar{x} \\ \vdots \\ x_n - \bar{x} \end{bmatrix}, \quad \mathbf{v} = \begin{bmatrix} y_1 - \bar{y} \\ \vdots \\ y_n - \bar{y} \end{bmatrix} \]

Il prodotto scalare di questi vettori è:

\[ \mathbf{u} \cdot \mathbf{v} = \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) \]

La lunghezza (norma euclidea) di ogni vettore è:

\[ \|u\| = \sqrt{\sum (x_i - \bar{x})^2}, \quad \|v\| = \sqrt{\sum (y_i - \bar{y})^2} \]

Dall'algebra lineare, il prodotto scalare è correlato al coseno dell'angolo $\theta$ tra i vettori:

\[ \mathbf{u} \cdot \mathbf{v} = \|u\| \|v\| \cos \theta \]

Risolvendo per $\cos \theta$:

\[ \cos \theta = \frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \, \|\mathbf{v}\|} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}} \]

Questa è esattamente la formula di $r$! Pertanto, il coefficiente $r$ di Pearson è il coseno dell'angolo tra i vettori delle variabili centrate.

Connessione con la Pendenza dei Minimi Quadrati¶

Ricorda la pendenza della retta di regressione lineare semplice:

\[ \hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} \]

E l'$r$ di Pearson:

\[ r = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} \]

Possiamo riscrivere $\hat{\beta}_1$ in termini di $r$:

\[ \hat{\beta}_1 = r \frac{\sqrt{S_{yy}}}{\sqrt{S_{xx}}} = r \frac{s_y}{s_x} \]

Questo conferma l'intuizione di Galton: se standardizzi i dati (cosicché $s_x = s_y = 1$), la pendenza della regressione è il coefficiente di correlazione.

Variabili Spiegate¶

Simbolo	Nome	Descrizione
$r$	Correlazione di Pearson	Misura dell'associazione lineare ($-1 \le r \le 1$)
$x_i$ e $y_i$	Punti dati	Singole osservazioni appaiate
$\bar{x}$ e $\bar{y}$	Medie	Valori medi di $x$ e $y$
$S_{xy}$	Somma delle deviazioni incrociate	Numeratore; misura la direzione della covarianza
$S_{xx}$ e $S_{yy}$	Somma delle deviazioni quadrate	Denominatori; legati alla varianza di $x$ e $y$
$\text{Cov}(x{,}y)$	Covarianza	Misura non scalata dell'associazione
$s_x$ e $s_y$	Deviazioni standard campionarie	Misure di dispersione per ogni variabile

Esempio Pratico¶

Vendite di Gelato vs. Temperatura¶

Giorno	Temp ($^\circ$C) ($x$)	Vendite ($) ($y$)
1	20	200
2	25	300
3	30	350

1. Calcola le Medie:

\[ \bar{x} = 25, \quad \bar{y} = 283.33 \]

2. Calcola Deviazioni e Prodotti: $S_{xy} = 750, \quad S_{xx} = 50, \quad S_{yy} = 11666.67$

3. Applica la Formula:

\[ r = \frac{750}{\sqrt{50 \cdot 11666.67}} \approx 0.98 \]

$r \approx 0.98$ indica una correlazione positiva molto forte.

Errori Comuni¶

Correlazione $\ne$ Causazione: Un $r$ alto non significa che $x$ causi $y$. Entrambi potrebbero essere causati da una terza variabile $z$.
Assunzione di Linearità: $r$ rileva solo relazioni lineari. Se $y = x^2$, $r$ potrebbe essere 0 anche se la relazione è perfetta.
Outlier: Un singolo valore anomalo può influenzare drasticamente $r$.

Formule Correlate¶

Storia¶

1888 — Francis Galton introduce il concetto di "co-relazione".
1895 — Karl Pearson sviluppa la formula matematica attuale.
1915-1920 — Ronald Fisher ne deriva la distribuzione campionaria esatta.

Simbolo	Nome	Descrizione
\(r\)	Correlazione di Pearson	Misura dell'associazione lineare (\(-1 \le r \le 1\))
\(x_i\) e \(y_i\)	Punti dati	Singole osservazioni appaiate
\(\bar{x}\) e \(\bar{y}\)	Medie	Valori medi di \(x\) e \(y\)
\(S_{xy}\)	Somma delle deviazioni incrociate	Numeratore; misura la direzione della covarianza
\(S_{xx}\) e \(S_{yy}\)	Somma delle deviazioni quadrate	Denominatori; legati alla varianza di \(x\) e \(y\)
\(\text{Cov}(x{,}y)\)	Covarianza	Misura non scalata dell'associazione
\(s_x\) e \(s_y\)	Deviazioni standard campionarie	Misure di dispersione per ogni variabile