Correlazione per Ranghi di Spearman¶
La Formula¶
Se non ci sono ranghi uguali (ties):
Dove \(d_i = \text{rank}(x_i) - \text{rank}(y_i)\) è la differenza tra i due ranghi di ogni osservazione.
Se ci sono pareggi, usa semplicemente la formula di Pearson sui ranghi.
Cosa Significa¶
Il \(\rho\) (rho) di Spearman misura la forza e la direzione di una relazione monotona tra due variabili ordinate.
- Monotona: Se \(x\) aumenta, \(y\) tende ad aumentare (o diminuire), ma non necessariamente a un tasso costante. Una curva va bene, purché non cambi direzione.
- Per Ranghi: Non si preoccupa dei valori grezzi ("100 metri"), ma solo dell'ordine ("1° posto", "2° posto").
Risponde alla domanda: "Se ordino i dati per \(x\), sono ordinati anche per \(y\)?"
Perché Funziona — L'Intuizione¶
La correlazione di Spearman è letteralmente la correlazione di Pearson applicata ai ranghi.
Immagina di convertire i dati grezzi in ranghi (1, 2, 3...). Il valore più piccolo diventa 1, il successivo 2, ecc. * Se \(x\) e \(y\) sono perfettamente legati in modo monotono, i loro ranghi saranno identici (\(1 \to 1, 2 \to 2\)). La differenza \(d_i\) sar\u00e0 0 per tutti. La formula diventa \(1 - 0 = 1\). * Se sono perfettamente opposti, i ranghi saranno invertiti.
Usare i ranghi rimuove l'influenza di outlier estremi e forme non lineari, concentrandosi puramente sull='ordine'.
Derivazione¶
Partiamo dalla formula di Pearson per le variabili \(R_x\) e \(R_y\) (i ranghi). Poiché i ranghi sono sempre gli interi \(1, 2, \dots, n\): 1. La Media: La somma degli interi è \(\frac{n(n+1)}{2}\), quindi la media è \(\bar{R} = \frac{n+1}{2}\). 2. La Varianza: La somma delle deviazioni quadrate degli interi è fissa: \(\sum (R_i - \bar{R})^2 = \frac{n(n^2-1)}{12}\).
Sostituendo queste costanti note nella formula di Pearson e semplificando, si ottiene la formula scorciatoia:
Variabili Spiegate¶
| Simbolo | Nome | Descrizione |
|---|---|---|
| \(\rho\) (rho) | Correlazione di Spearman | Il coefficiente di correlazione per i ranghi |
| \(d_i\) | Differenza di Rango | \(\text{rank}(x_i) - \text{rank}(y_i)\) |
| \(n\) | Dimensione del Campione | Numero di osservazioni |
Esempio Pratico¶
Ore di Studio vs. Posizione in Classifica
| Studente | Ore | Voto | Rango (Ore) | Rango (Voto) | \(d\) | \(d^2\) |
|---|---|---|---|---|---|---|
| A | 1 | 50 | 1 | 1 | 0 | 0 |
| B | 10 | 80 | 2 | 2 | 0 | 0 |
| C | 100 | 95 | 3 | 3 | 0 | 0 |
\(d = 0, 0, 0 \to \sum d^2 = 0\).
Correlazione perfetta, anche se la relazione non \u00e8 lineare.
Errori Comuni¶
- Usare la formula scorciatoia con pareggi: Se molti valori sono uguali (es. due persone al 2° posto), la formula scorciatoia \u00e8 imprecisa. Usa Pearson sui ranghi.
- Confondere Monotono con Lineare: Spearman = 1 significa solo "sempre crescente", non "crescente in linea retta".