RLS: Proprietà dello Stimatore dell'Intercetta¶
Le Formule¶
Cosa Significano¶
Come il suo gemello \(\hat{\beta}_1\), lo stimatore dell'intercetta è non distorto — in media, centra la vera intercetta. Nessun errore sistematico.
La formula della varianza è più interessante. Dipende da tre cose: il livello di rumore (\(\sigma^2\)), la dimensione del campione (\(n\)), e quanto la media di \(x\) è lontana dallo zero (\(\bar{x}^2 / S_{xx}\)). Quest'ultimo termine è quello sorprendente, e racconta una storia geometrica avvincente.
Perché Funziona — L'Intuizione¶
Il Quadro Geometrico¶
Ricorda che \(\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\). L'intercetta si trova partendo dal baricentro \((\bar{x}, \bar{y})\) ed estrapolando la retta fino a \(x = 0\).
Ora immagina la retta di regressione come un'altalena in equilibrio sul baricentro. La pendenza \(\hat{\beta}_1\) può oscillare un po' (ha la sua varianza). Se \(\bar{x}\) è vicino a zero, quell'oscillazione muove a malapena l'intercetta — non stai estrapolando lontano. Ma se \(\bar{x}\) è lontano da zero, anche una piccola oscillazione della pendenza si traduce in una grande oscillazione a \(x = 0\).
Ecco perché \(\bar{x}^2\) appare nella varianza. Più i tuoi dati sono lontani dall'asse y, più l'incertezza sulla pendenza si amplifica in incertezza sull'intercetta. È lo stesso motivo per cui un piccolo errore di sterzo ad alta velocità causa una deviazione di corsia maggiore che a bassa velocità — l'errore viene moltiplicato per la distanza.
Derivazione Completa¶
Passo 1: Esprimere \(\hat{\beta}_0\) in termini delle \(y_i\)
Passo 2: Dimostrare la non distorsione
Sostituendo \(y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\) e usando \(\sum d_i = 1\) e \(\sum d_i x_i = 0\):
Passo 3: Derivare la varianza
Leggere la Formula¶
La varianza ha due componenti additive:
\(\frac{\sigma^2}{n}\) — La varianza di \(\bar{y}\). Anche se conoscessi la pendenza perfettamente, avresti ancora incertezza nell'intercetta perché il livello generale dei dati è incerto.
\(\frac{\sigma^2 \bar{x}^2}{S_{xx}}\) — L'incertezza amplificata della pendenza. Uguale a \(\bar{x}^2 \cdot \text{Var}(\hat{\beta}_1)\). L'oscillazione della pendenza, moltiplicata per il braccio di leva \(\bar{x}^2\).
Caso speciale: Se \(\bar{x} = 0\) (dati centrati all'origine), il secondo termine scompare e \(\text{Var}(\hat{\beta}_0) = \sigma^2/n\). L'intercetta diventa precisa come la media campionaria. Ecco perché centrare i dati è un'ottima idea in pratica.
Esempio Svolto¶
Dai dati sulle ore di studio: \(n = 5\), \(\bar{x} = 5\), \(S_{xx} = 26\), \(\sigma^2 = 16\).
Confronta con \(\text{SE}(\hat{\beta}_1) \approx 0{,}78\). L'intercetta è stimata con molta meno precisione — perché \(\bar{x} = 5\) è lontano da zero, l'incertezza sulla pendenza viene amplificata da un braccio di leva di \(5^2 = 25\).
Errori Comuni¶
- Ignorare che \(\text{Var}(\hat{\beta}_0)\) dipende da \(\bar{x}\): Due dataset con gli stessi \(n\), \(\sigma^2\) e \(S_{xx}\) possono avere precisioni dell'intercetta molto diverse se i loro valori \(x\) sono centrati diversamente.
- Non centrare quando serve: Se sei interessato all'intercetta, centrare i valori \(x\) elimina l'incertezza indotta dalla pendenza. La stima della pendenza non cambia.
Formule Correlate¶
- RLS: Derivazione degli Stimatori OLS — da dove viene \(\hat{\beta}_0\)
- RLS: Proprietà dello Stimatore della Pendenza — la derivazione gemella per \(\hat{\beta}_1\)
- RLS: Risposta Media e Predizione — usare entrambi gli stimatori per l'inferenza
Riferimenti¶
- Kutner, M. H., et al. (2004). Applied Linear Statistical Models, 5a ed. McGraw-Hill.
- Weisberg, S. (2014). Applied Linear Regression, 4a ed. Wiley.