Vai al contenuto

Coefficiente di Correlazione di Pearson

La Formula

\[ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} \]

Oppure, in termini di statistiche campionarie:

\[ r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} = \frac{\text{Cov}(x,y)}{s_x s_y} \]

Cosa Significa

Il coefficiente \(r\) di Pearson è un numero compreso tra \(-1\) e \(+1\) che indica quanto due variabili cambiano insieme in modo lineare.

  • \(r = 1\): Relazione lineare positiva perfetta. Se \(x\) aumenta, \(y\) aumenta in proporzione fissa. I punti giacciono esattamente su una retta con pendenza positiva.
  • \(r = -1\): Relazione lineare negativa perfetta. Se \(x\) aumenta, \(y\) diminuisce. I punti giacciono esattamente su una retta con pendenza negativa.
  • \(r = 0\): Nessuna relazione lineare. Sapere \(x\) non dice nulla su \(y\) (linearmente).

Misura quanto i punti sono "vicini" a una linea retta. Non misura la pendenza della retta, ma solo quanto bene la retta approssima i dati.

Perché Funziona — La Storia Dietro la Formula

Alla Ricerca della Co-Relazione

Alla fine del XIX secolo, Francis Galton era ossessionato dall'ereditarietà. Notò che i genitori alti tendevano ad avere figli alti, ma non così alti — "regredivano" verso la media. Voleva un numero per quantificare la forza di questo legame ereditario.

Iniziò rappresentando i dati graficamente. Tracciò linee attraverso le medie. Si rese conto che se standardizzava le variabili (misurandole in unità di deviazione), la pendenza della linea di regressione stessa diventava una misura della forza della relazione.

Karl Pearson, protetto di Galton, prese questa intuizione geometrica e la trasformò nella precisa formula algebrica che usiamo oggi. Capì che la "correlazione" è essenzialmente il prodotto medio delle deviazioni standardizzate.

Intuizione: Moltiplicare le Deviazioni

Guarda il numeratore: \(\sum (x_i - \bar{x})(y_i - \bar{y})\). - Se un punto è sopra la media sia in \(x\) che in \(y\), entrambi i termini sono positivi. Il prodotto è positivo (+). - Se un punto è sotto la media sia in \(x\) che in \(y\), entrambi i termini sono negativi. Il prodotto è positivo (+). - Se un punto è alto in \(x\) ma basso in \(y\) (o viceversa), uno è positivo e l'altro negativo. Il prodotto è negativo (-).

Sommare questi prodotti dà un "punteggio netto" di accordo. - Prodotti prevalentemente +? Correlazione positiva. - Prodotti prevalentemente -? Correlazione negativa. - Mix di entrambi? Si annullano a vicenda tendendo a zero.

Il denominatore serve a scalare questa somma in modo che il risultato ricada sempre tra -1 e 1, eliminando le unità di misura (metri, chilogrammi, euro) dall'equazione.

Derivazione

Possiamo derivare \(r\) chiedendoci: Qual è il coseno dell'angolo tra due vettori centrati?

Derivazione Geometrica (Interpretazione Vettoriale)

Immagina i nostri dati come due vettori in uno spazio \(n\)-dimensionale. Siano i vettori centrati:

\[ \mathbf{u} = \begin{bmatrix} x_1 - \bar{x} \\ \vdots \\ x_n - \bar{x} \end{bmatrix}, \quad \mathbf{v} = \begin{bmatrix} y_1 - \bar{y} \\ \vdots \\ y_n - \bar{y} \end{bmatrix} \]

Il prodotto scalare di questi vettori è:

\[ \mathbf{u} \cdot \mathbf{v} = \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) \]

La lunghezza (norma euclidea) di ogni vettore è:

\[ \|u\| = \sqrt{\sum (x_i - \bar{x})^2}, \quad \|v\| = \sqrt{\sum (y_i - \bar{y})^2} \]

Dall'algebra lineare, il prodotto scalare è correlato al coseno dell'angolo \(\theta\) tra i vettori:

\[ \mathbf{u} \cdot \mathbf{v} = \|u\| \|v\| \cos \theta \]

Risolvendo per \(\cos \theta\):

\[ \cos \theta = \frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \, \|\mathbf{v}\|} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}} \]

Questa è esattamente la formula di \(r\)! Pertanto, il coefficiente \(r\) di Pearson è il coseno dell'angolo tra i vettori delle variabili centrate.

Connessione con la Pendenza dei Minimi Quadrati

Ricorda la pendenza della retta di regressione lineare semplice:

\[ \hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} \]

E l'\(r\) di Pearson:

\[ r = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} \]

Possiamo riscrivere \(\hat{\beta}_1\) in termini di \(r\):

\[ \hat{\beta}_1 = r \frac{\sqrt{S_{yy}}}{\sqrt{S_{xx}}} = r \frac{s_y}{s_x} \]

Questo conferma l'intuizione di Galton: se standardizzi i dati (cosicché \(s_x = s_y = 1\)), la pendenza della regressione è il coefficiente di correlazione.

Variabili Spiegate

Simbolo Nome Descrizione
\(r\) Correlazione di Pearson Misura dell'associazione lineare (\(-1 \le r \le 1\))
\(x_i\) e \(y_i\) Punti dati Singole osservazioni appaiate
\(\bar{x}\) e \(\bar{y}\) Medie Valori medi di \(x\) e \(y\)
\(S_{xy}\) Somma delle deviazioni incrociate Numeratore; misura la direzione della covarianza
\(S_{xx}\) e \(S_{yy}\) Somma delle deviazioni quadrate Denominatori; legati alla varianza di \(x\) e \(y\)
\(\text{Cov}(x{,}y)\) Covarianza Misura non scalata dell'associazione
\(s_x\) e \(s_y\) Deviazioni standard campionarie Misure di dispersione per ogni variabile

Esempio Pratico

Vendite di Gelato vs. Temperatura

Giorno Temp (\(^\circ\)C) (\(x\)) Vendite (\() (\)y$)
1 20 200
2 25 300
3 30 350

1. Calcola le Medie:

\[ \bar{x} = 25, \quad \bar{y} = 283.33 \]

2. Calcola Deviazioni e Prodotti: \(S_{xy} = 750, \quad S_{xx} = 50, \quad S_{yy} = 11666.67\)

3. Applica la Formula:

\[ r = \frac{750}{\sqrt{50 \cdot 11666.67}} \approx 0.98 \]

\(r \approx 0.98\) indica una correlazione positiva molto forte.

Errori Comuni

  • Correlazione \(\ne\) Causazione: Un \(r\) alto non significa che \(x\) causi \(y\). Entrambi potrebbero essere causati da una terza variabile \(z\).
  • Assunzione di Linearità: \(r\) rileva solo relazioni lineari. Se \(y = x^2\), \(r\) potrebbe essere 0 anche se la relazione è perfetta.
  • Outlier: Un singolo valore anomalo può influenzare drasticamente \(r\).

Formule Correlate

Storia

  • 1888Francis Galton introduce il concetto di "co-relazione".
  • 1895Karl Pearson sviluppa la formula matematica attuale.
  • 1915-1920Ronald Fisher ne deriva la distribuzione campionaria esatta.