Distanza di Cook¶
La Formula¶
Dove \(\hat{y}_{j(i)}\) è il valore previsto per l'osservazione \(j\) quando l'osservazione \(i\) è stata rimossa dal dataset.
Una formula equivalente e più pratica è:
Cosa Significa¶
La Distanza di Cook misura quanto cambiano tutti i valori adattati in una regressione quando una singola osservazione viene eliminata. Combina due cose:
- Quanto è grande il residuo (quanto male il modello si adatta a quel punto)
- Quanta leva ha il punto (quanto è lontano dal centro dei dati)
Un punto con una grande Distanza di Cook è detto punto influente — rimuoverlo cambierebbe notevolmente i risultati della regressione. Pensalo come chiedere: "Se cancellassi questo singolo dato, la mia retta di regressione si sposterebbe?"
Perché Funziona — L'Intuizione¶
Immagina di adattare una retta di regressione ai tuoi dati. Ora immagina di rimuovere un punto e riadattare. Se la retta si muove appena, quel punto non era molto influente. Se la retta si sposta drasticamente, quel punto stava tirando la retta verso di sé.
La Distanza di Cook formalizza questa idea. Misura la "distanza" tra l'insieme completo delle previsioni \(\hat{y}\) e le previsioni \(\hat{y}_{(i)}\) che otterresti senza l'osservazione \(i\).
L'intuizione chiave è che un punto può essere influente in due modi:
- Ha un grande residuo — il modello già si adatta male a quel punto, suggerendo che è inusuale nella direzione \(y\).
- Ha alta leva — è lontano dal centro dello spazio dei predittori (inusuale nella direzione \(x\)), quindi "tira" la retta di regressione.
La Distanza di Cook cattura entrambi gli effetti simultaneamente, ed è per questo che la formula equivalente ha un termine di residuo e un termine di leva.
Derivazione¶
Punto di Partenza¶
Vogliamo misurare quanto cambiano i valori adattati quando l'osservazione \(i\) viene rimossa. La misura naturale è la somma delle differenze quadrate tra i due insiemi di previsioni:
Espressione in Termini dei Coefficienti¶
I valori adattati sono \(\hat{\mathbf{y}} = \mathbf{X}\hat{\mathbf{\beta}}\), e i valori adattati leave-one-out sono \(\hat{\mathbf{y}}_{(i)} = \mathbf{X}\hat{\mathbf{\beta}}_{(i)}\). Quindi:
Usando l'Identità di Sherman-Morrison-Woodbury¶
Invece di riadattare il modello \(n\) volte, possiamo usare un'identità matriciale per mostrare che rimuovere l'osservazione \(i\) cambia i coefficienti di:
dove \(e_i = y_i - \hat{y}_i\) è il residuo ordinario e \(h_{ii}\) è l'\(i\)-esimo elemento diagonale della matrice hat \(\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\).
Sostituzione¶
Inserendo questo nella formula della distanza e semplificando:
Questa è la formula pratica. Decompone la Distanza di Cook in:
- Una componente di residuo: \(\frac{e_i^2}{p \cdot MSE}\) — quanto male il modello si adatta a questo punto
- Una componente di leva: \(\frac{h_{ii}}{(1 - h_{ii})^2}\) — quanto questo punto può influenzare l'adattamento
La Matrice Hat e la Leva¶
La matrice hat è definita come:
Mappa i valori osservati nei valori adattati: \(\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}\). L'elemento diagonale \(h_{ii}\) è la leva dell'osservazione \(i\):
- \(0 \leq h_{ii} \leq 1\)
- La leva media è \(\frac{p}{n}\)
- Alta leva significa che il punto è lontano dal centro dello spazio dei predittori
Soglie per "Influente"¶
Regole pratiche comuni:
- \(D_i > 1\): Quasi sempre influente (soglia più usata).
- \(D_i > \frac{4}{n}\): Una soglia più conservativa, segnala più punti da esaminare.
- \(D_i > \frac{4}{n - p - 1}\): Si aggiusta per la complessità del modello.
Queste sono linee guida, non regole rigide. Indaga sempre i punti segnalati piuttosto che rimuoverli automaticamente.
Variabili Spiegate¶
| Simbolo | Nome | Descrizione |
|---|---|---|
| \(D_i\) | Distanza di Cook | Misura di influenza per l'osservazione \(i\) |
| \(e_i\) | Residuo | \(y_i - \hat{y}_i\), l'errore per l'osservazione \(i\) |
| \(h_{ii}\) | Leva | Diagonale della matrice hat per l'osservazione \(i\) |
| \(p\) | Numero di Parametri | Inclusa l'intercetta (es. 2 nella SLR) |
| \(n\) | Dimensione Campione | Numero di osservazioni |
| \(MSE\) | Errore Quadratico Medio | \(\frac{1}{n-p} \sum e_i^2\) |
| \(\hat{y}_{j(i)}\) | Previsione Leave-one-out | Previsione per \(j\) senza l'osservazione \(i\) |
| \(\mathbf{H}\) | Matrice Hat | \(\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\) |
Esempio Pratico¶
Dati: Regressione lineare semplice con \(n = 4\) osservazioni.
| \(x\) | \(y\) |
|---|---|
| 1 | 2 |
| 2 | 4 |
| 3 | 5 |
| 10 | 30 |
Passo 1: Adattare il modello. L'adattamento OLS dà \(\hat{y} = -0.74 + 3.05x\).
- \(MSE = 2.73\), \(p = 2\)
Passo 2: Calcolare residui e leve.
| \(i\) | \(\hat{y}_i\) | \(e_i\) | \(h_{ii}\) |
|---|---|---|---|
| 1 | 2.31 | -0.31 | 0.46 |
| 2 | 5.36 | -1.36 | 0.29 |
| 3 | 8.41 | -3.41 | 0.18 |
| 4 | 29.72 | 0.28 | 0.83 |
(Nota: Il punto 4 a \(x = 10\) ha leva molto alta \(h_{44} = 0.83\).)
Passo 3: Calcolare la Distanza di Cook.
Per l'osservazione 4:
Per l'osservazione 3:
L'osservazione 3 ha la Distanza di Cook più alta — ha un grande residuo. Anche se l'osservazione 4 ha leva estrema, il suo residuo è piccolo perché tira la retta verso di sé.
Errori Comuni¶
- Alta leva = influente: Non necessariamente. Un punto può avere alta leva ma trovarsi esattamente sulla retta di regressione (residuo piccolo), dando una Distanza di Cook bassa.
- Grande residuo = influente: Non necessariamente. Un outlier in \(y\) vicino a \(\bar{x}\) ha bassa leva, quindi potrebbe non spostare la retta di molto.
- Rimuovere automaticamente i punti influenti: La Distanza di Cook segnala punti da investigare, non da eliminare. Il punto potrebbe essere l'osservazione più informativa nel tuo dataset.
- Usare una sola soglia: Soglie diverse segnalano numeri diversi di punti. Guarda sempre la distribuzione dei valori \(D_i\), non solo un singolo cutoff.
Formule Correlate¶
- R-Quadrato — Misura di bontà dell'adattamento influenzata dai punti influenti.
- Stimatori OLS — I coefficienti di cui la Distanza di Cook misura la sensibilità.
- Intervallo di Confidenza — I punti influenti allargano gli intervalli di confidenza.
- Intervallo di Previsione — Anche influenzato dai punti ad alta leva.