Vai al contenuto

Distanza di Cook

La Formula

\[ D_i = \frac{\sum_{j=1}^{n} (\hat{y}_j - \hat{y}_{j(i)})^2}{p \cdot MSE} \]

Dove \(\hat{y}_{j(i)}\) è il valore previsto per l'osservazione \(j\) quando l'osservazione \(i\) è stata rimossa dal dataset.

Una formula equivalente e più pratica è:

\[ D_i = \frac{e_i^2}{p \cdot MSE} \cdot \frac{h_{ii}}{(1 - h_{ii})^2} \]

Cosa Significa

La Distanza di Cook misura quanto cambiano tutti i valori adattati in una regressione quando una singola osservazione viene eliminata. Combina due cose:

  1. Quanto è grande il residuo (quanto male il modello si adatta a quel punto)
  2. Quanta leva ha il punto (quanto è lontano dal centro dei dati)

Un punto con una grande Distanza di Cook è detto punto influente — rimuoverlo cambierebbe notevolmente i risultati della regressione. Pensalo come chiedere: "Se cancellassi questo singolo dato, la mia retta di regressione si sposterebbe?"

Perché Funziona — L'Intuizione

Immagina di adattare una retta di regressione ai tuoi dati. Ora immagina di rimuovere un punto e riadattare. Se la retta si muove appena, quel punto non era molto influente. Se la retta si sposta drasticamente, quel punto stava tirando la retta verso di sé.

La Distanza di Cook formalizza questa idea. Misura la "distanza" tra l'insieme completo delle previsioni \(\hat{y}\) e le previsioni \(\hat{y}_{(i)}\) che otterresti senza l'osservazione \(i\).

L'intuizione chiave è che un punto può essere influente in due modi:

  • Ha un grande residuo — il modello già si adatta male a quel punto, suggerendo che è inusuale nella direzione \(y\).
  • Ha alta leva — è lontano dal centro dello spazio dei predittori (inusuale nella direzione \(x\)), quindi "tira" la retta di regressione.

La Distanza di Cook cattura entrambi gli effetti simultaneamente, ed è per questo che la formula equivalente ha un termine di residuo e un termine di leva.

Derivazione

Punto di Partenza

Vogliamo misurare quanto cambiano i valori adattati quando l'osservazione \(i\) viene rimossa. La misura naturale è la somma delle differenze quadrate tra i due insiemi di previsioni:

\[ D_i = \frac{(\hat{\mathbf{y}} - \hat{\mathbf{y}}_{(i)})^T (\hat{\mathbf{y}} - \hat{\mathbf{y}}_{(i)})}{p \cdot MSE} \]

Espressione in Termini dei Coefficienti

I valori adattati sono \(\hat{\mathbf{y}} = \mathbf{X}\hat{\mathbf{\beta}}\), e i valori adattati leave-one-out sono \(\hat{\mathbf{y}}_{(i)} = \mathbf{X}\hat{\mathbf{\beta}}_{(i)}\). Quindi:

\[ D_i = \frac{(\hat{\mathbf{\beta}} - \hat{\mathbf{\beta}}_{(i)})^T (\mathbf{X}^T\mathbf{X}) (\hat{\mathbf{\beta}} - \hat{\mathbf{\beta}}_{(i)})}{p \cdot MSE} \]

Usando l'Identità di Sherman-Morrison-Woodbury

Invece di riadattare il modello \(n\) volte, possiamo usare un'identità matriciale per mostrare che rimuovere l'osservazione \(i\) cambia i coefficienti di:

\[ \hat{\mathbf{\beta}} - \hat{\mathbf{\beta}}_{(i)} = \frac{(\mathbf{X}^T\mathbf{X})^{-1} \mathbf{x}_i e_i}{1 - h_{ii}} \]

dove \(e_i = y_i - \hat{y}_i\) è il residuo ordinario e \(h_{ii}\) è l'\(i\)-esimo elemento diagonale della matrice hat \(\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\).

Sostituzione

Inserendo questo nella formula della distanza e semplificando:

\[ D_i = \frac{e_i^2}{p \cdot MSE} \cdot \frac{h_{ii}}{(1 - h_{ii})^2} \]

Questa è la formula pratica. Decompone la Distanza di Cook in:

  • Una componente di residuo: \(\frac{e_i^2}{p \cdot MSE}\) — quanto male il modello si adatta a questo punto
  • Una componente di leva: \(\frac{h_{ii}}{(1 - h_{ii})^2}\) — quanto questo punto può influenzare l'adattamento

La Matrice Hat e la Leva

La matrice hat è definita come:

\[ \mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \]

Mappa i valori osservati nei valori adattati: \(\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}\). L'elemento diagonale \(h_{ii}\) è la leva dell'osservazione \(i\):

  • \(0 \leq h_{ii} \leq 1\)
  • La leva media è \(\frac{p}{n}\)
  • Alta leva significa che il punto è lontano dal centro dello spazio dei predittori

Soglie per "Influente"

Regole pratiche comuni:

  • \(D_i > 1\): Quasi sempre influente (soglia più usata).
  • \(D_i > \frac{4}{n}\): Una soglia più conservativa, segnala più punti da esaminare.
  • \(D_i > \frac{4}{n - p - 1}\): Si aggiusta per la complessità del modello.

Queste sono linee guida, non regole rigide. Indaga sempre i punti segnalati piuttosto che rimuoverli automaticamente.

Variabili Spiegate

Simbolo Nome Descrizione
\(D_i\) Distanza di Cook Misura di influenza per l'osservazione \(i\)
\(e_i\) Residuo \(y_i - \hat{y}_i\), l'errore per l'osservazione \(i\)
\(h_{ii}\) Leva Diagonale della matrice hat per l'osservazione \(i\)
\(p\) Numero di Parametri Inclusa l'intercetta (es. 2 nella SLR)
\(n\) Dimensione Campione Numero di osservazioni
\(MSE\) Errore Quadratico Medio \(\frac{1}{n-p} \sum e_i^2\)
\(\hat{y}_{j(i)}\) Previsione Leave-one-out Previsione per \(j\) senza l'osservazione \(i\)
\(\mathbf{H}\) Matrice Hat \(\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\)

Esempio Pratico

Dati: Regressione lineare semplice con \(n = 4\) osservazioni.

\(x\) \(y\)
1 2
2 4
3 5
10 30

Passo 1: Adattare il modello. L'adattamento OLS dà \(\hat{y} = -0.74 + 3.05x\).

  • \(MSE = 2.73\), \(p = 2\)

Passo 2: Calcolare residui e leve.

\(i\) \(\hat{y}_i\) \(e_i\) \(h_{ii}\)
1 2.31 -0.31 0.46
2 5.36 -1.36 0.29
3 8.41 -3.41 0.18
4 29.72 0.28 0.83

(Nota: Il punto 4 a \(x = 10\) ha leva molto alta \(h_{44} = 0.83\).)

Passo 3: Calcolare la Distanza di Cook.

Per l'osservazione 4:

\[ D_4 = \frac{(0.28)^2}{2 \times 2.73} \cdot \frac{0.83}{(1 - 0.83)^2} = \frac{0.078}{5.46} \cdot \frac{0.83}{0.029} = 0.014 \times 28.6 = 0.41 \]

Per l'osservazione 3:

\[ D_3 = \frac{(-3.41)^2}{2 \times 2.73} \cdot \frac{0.18}{(1 - 0.18)^2} = \frac{11.63}{5.46} \cdot \frac{0.18}{0.67} = 2.13 \times 0.27 = 0.57 \]

L'osservazione 3 ha la Distanza di Cook più alta — ha un grande residuo. Anche se l'osservazione 4 ha leva estrema, il suo residuo è piccolo perché tira la retta verso di sé.

Errori Comuni

  • Alta leva = influente: Non necessariamente. Un punto può avere alta leva ma trovarsi esattamente sulla retta di regressione (residuo piccolo), dando una Distanza di Cook bassa.
  • Grande residuo = influente: Non necessariamente. Un outlier in \(y\) vicino a \(\bar{x}\) ha bassa leva, quindi potrebbe non spostare la retta di molto.
  • Rimuovere automaticamente i punti influenti: La Distanza di Cook segnala punti da investigare, non da eliminare. Il punto potrebbe essere l'osservazione più informativa nel tuo dataset.
  • Usare una sola soglia: Soglie diverse segnalano numeri diversi di punti. Guarda sempre la distribuzione dei valori \(D_i\), non solo un singolo cutoff.

Formule Correlate