Vai al contenuto

Correlazione per Ranghi di Spearman

La Formula

Se non ci sono ranghi uguali (ties):

\[ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \]

Dove \(d_i = \text{rank}(x_i) - \text{rank}(y_i)\) è la differenza tra i due ranghi di ogni osservazione.

Se ci sono pareggi, usa semplicemente la formula di Pearson sui ranghi.

Cosa Significa

Il \(\rho\) (rho) di Spearman misura la forza e la direzione di una relazione monotona tra due variabili ordinate.

  • Monotona: Se \(x\) aumenta, \(y\) tende ad aumentare (o diminuire), ma non necessariamente a un tasso costante. Una curva va bene, purché non cambi direzione.
  • Per Ranghi: Non si preoccupa dei valori grezzi ("100 metri"), ma solo dell'ordine ("1° posto", "2° posto").

Risponde alla domanda: "Se ordino i dati per \(x\), sono ordinati anche per \(y\)?"

Perché Funziona — L'Intuizione

La correlazione di Spearman è letteralmente la correlazione di Pearson applicata ai ranghi.

Immagina di convertire i dati grezzi in ranghi (1, 2, 3...). Il valore più piccolo diventa 1, il successivo 2, ecc. * Se \(x\) e \(y\) sono perfettamente legati in modo monotono, i loro ranghi saranno identici (\(1 \to 1, 2 \to 2\)). La differenza \(d_i\) sar\u00e0 0 per tutti. La formula diventa \(1 - 0 = 1\). * Se sono perfettamente opposti, i ranghi saranno invertiti.

Usare i ranghi rimuove l'influenza di outlier estremi e forme non lineari, concentrandosi puramente sull='ordine'.

Derivazione

Partiamo dalla formula di Pearson per le variabili \(R_x\) e \(R_y\) (i ranghi). Poiché i ranghi sono sempre gli interi \(1, 2, \dots, n\): 1. La Media: La somma degli interi è \(\frac{n(n+1)}{2}\), quindi la media è \(\bar{R} = \frac{n+1}{2}\). 2. La Varianza: La somma delle deviazioni quadrate degli interi è fissa: \(\sum (R_i - \bar{R})^2 = \frac{n(n^2-1)}{12}\).

Sostituendo queste costanti note nella formula di Pearson e semplificando, si ottiene la formula scorciatoia:

\[ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \]

Variabili Spiegate

Simbolo Nome Descrizione
\(\rho\) (rho) Correlazione di Spearman Il coefficiente di correlazione per i ranghi
\(d_i\) Differenza di Rango \(\text{rank}(x_i) - \text{rank}(y_i)\)
\(n\) Dimensione del Campione Numero di osservazioni

Esempio Pratico

Ore di Studio vs. Posizione in Classifica

Studente Ore Voto Rango (Ore) Rango (Voto) \(d\) \(d^2\)
A 1 50 1 1 0 0
B 10 80 2 2 0 0
C 100 95 3 3 0 0

\(d = 0, 0, 0 \to \sum d^2 = 0\).

\[ \rho = 1 - \frac{6(0)}{3(3^2 - 1)} = 1 \]

Correlazione perfetta, anche se la relazione non \u00e8 lineare.

Errori Comuni

  • Usare la formula scorciatoia con pareggi: Se molti valori sono uguali (es. due persone al 2° posto), la formula scorciatoia \u00e8 imprecisa. Usa Pearson sui ranghi.
  • Confondere Monotono con Lineare: Spearman = 1 significa solo "sempre crescente", non "crescente in linea retta".

Formule Correlate