RLS: Proprietà dello Stimatore della Pendenza¶

Le Formule¶

\[ E(\hat{\beta}_1) = \beta_1 \]

\[ \text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{S_{xx}} = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \]

Cosa Significano¶

La prima equazione dice: \(\hat{\beta}_1\) è non distorto. Se potessi ripetere l'esperimento infinite volte — raccogliendo nuovi dati ogni volta e calcolando una nuova pendenza — la media di tutte quelle pendenze sarebbe esattamente la vera pendenza \(\beta_1\). Il tuo stimatore non sovrastima né sottostima sistematicamente. In media, centra il bersaglio.

La seconda equazione ti dice quanto \(\hat{\beta}_1\) oscillerebbe attraverso tutte quelle ripetizioni ipotetiche. Ogni volta che raccogli nuovi dati, otterrai una pendenza leggermente diversa. La formula della varianza ti dice quanto sarebbero disperse quelle pendenze.

Due cose rendono \(\hat{\beta}_1\) più preciso: meno rumore (\(\sigma^2\)) e più dispersione in \(x\) (\(S_{xx}\)). Entrambe profondamente intuitive una volta che capisci perché.

Perché Funziona — L'Intuizione¶

Prima di tutto: Riscrivere \(\hat{\beta}_1\) come Combinazione Lineare delle \(y_i\)¶

Questo è l'insight chiave che apre tutto. Lo stimatore della pendenza sembra un rapporto complicato, ma è segretamente una somma pesata dei valori di \(y\):

\[ \hat{\beta}_1 = \sum_{i=1}^n c_i \, y_i \quad \text{dove} \quad c_i = \frac{x_i - \bar{x}}{S_{xx}} \]

Questo è fondamentale. La pendenza è una funzione lineare delle \(y_i\). I pesi \(c_i\) dipendono solo dai valori di \(x\), che trattiamo come fissi. I punti con valori di \(x\) lontani da \(\bar{x}\) hanno più peso — hanno più "leva" sulla pendenza. I punti vicini a \(\bar{x}\) la influenzano appena.

Proprietà dei pesi:

\[ \sum c_i = 0 \quad \text{e} \quad \sum c_i x_i = 1 \]

I pesi sommano a zero — positivi per \(x_i > \bar{x}\), negativi per \(x_i < \bar{x}\). La pendenza contrasta i valori \(y\) a destra contro quelli a sinistra.

Dimostrazione che \(E(\hat{\beta}_1) = \beta_1\)¶

Sostituendo \(y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\):

\[ \hat{\beta}_1 = \sum c_i (\beta_0 + \beta_1 x_i + \varepsilon_i) = \beta_0 \underbrace{\sum c_i}_{=0} + \beta_1 \underbrace{\sum c_i x_i}_{=1} + \sum c_i \varepsilon_i \]

\[ \hat{\beta}_1 = \beta_1 + \sum c_i \varepsilon_i \]

Prendendo il valore atteso, dato che \(E(\varepsilon_i) = 0\):

\[ \boxed{E(\hat{\beta}_1) = \beta_1} \]

La bellezza di questa dimostrazione: \(\hat{\beta}_1\) è uguale alla pendenza vera più una somma pesata di termini di rumore. In media, il rumore scompare.

Derivazione di \(\text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{S_{xx}}\)¶

Da \(\hat{\beta}_1 = \beta_1 + \sum c_i \varepsilon_i\):

\[ \text{Var}(\hat{\beta}_1) = \sigma^2 \sum c_i^2 = \sigma^2 \cdot \frac{S_{xx}}{S_{xx}^2} = \frac{\sigma^2}{S_{xx}} \]

\[ \boxed{\text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{S_{xx}}} \]

Perché Ha Senso¶

\(\sigma^2\) al numeratore: Più rumore nei dati significa più incertezza nella pendenza. Inevitabile.

\(S_{xx}\) al denominatore: Più dispersione nei tuoi valori di \(x\) significa una pendenza più precisa. Immagina di stimare la pendenza di una collina:

Se misuri l'altitudine in due punti distanti 1 metro, un piccolo errore di misura potrebbe far sembrare la collina piatta o ripida.
Se misuri in due punti distanti 1 chilometro, lo stesso errore cambia appena la pendenza stimata.

La dispersione in \(x\) ti dà una "linea di base" più lunga per vedere il segnale attraverso il rumore.

\(n\) è nascosto dentro \(S_{xx}\): Dato che \(S_{xx} = \sum(x_i - \bar{x})^2\), aggiungere più punti dati generalmente aumenta \(S_{xx}\). Più dati aiutano, e dati più dispersi aiutano ancora di più.

Esempio Svolto¶

Dai dati sulle ore di studio: \(S_{xx} = 26\), supponiamo \(\sigma^2 = 16\).

\[ \text{Var}(\hat{\beta}_1) = \frac{16}{26} \approx 0{,}615 \]

\[ \text{SE}(\hat{\beta}_1) = \sqrt{0{,}615} \approx 0{,}784 \]

La nostra pendenza era \(\hat{\beta}_1 \approx 4{,}04\). Un intervallo di confidenza al 95% (\(t_{3, 0{,}025} \approx 3{,}18\)):

\[ 4{,}04 \pm 3{,}18 \times 0{,}784 = 4{,}04 \pm 2{,}49 = (1{,}55; \; 6{,}53) \]

La vera pendenza è probabilmente tra 1,55 e 6,53 punti per ora.

Errori Comuni¶

Dimenticare che i valori \(x\) sono trattati come fissi: Tutta la casualità viene dagli \(\varepsilon_i\). I valori \(x\) sono costanti fissate.
Pensare che più dati aiutino sempre ugualmente: La varianza dipende da \(S_{xx}\), non solo da \(n\). Aggiungere 10 punti tutti vicini a \(\bar{x}\) aiuta poco. Aggiungere 2 punti agli estremi aiuta molto.
Usare \(\sigma^2\) quando si ha \(s^2\): In pratica, \(\sigma^2\) è sconosciuto e stimato con \(s^2 = \frac{\sum e_i^2}{n-2}\). Quando sostituisci \(s^2\), devi usare la distribuzione \(t\) per l'inferenza.

Formule Correlate¶

RLS: Derivazione degli Stimatori OLS — da dove viene \(\hat{\beta}_1\)
RLS: Proprietà dello Stimatore dell'Intercetta — la derivazione gemella per \(\hat{\beta}_0\)
RLS: Risposta Media e Predizione — usare la pendenza per costruire bande di confidenza
Errore Standard — l'idea generale della variabilità degli stimatori

Riferimenti¶

Gauss, C. F. (1821–1823). Theoria combinationis observationum erroribus minimis obnoxiae.
Weisberg, S. (2014). Applied Linear Regression, 4a ed.
Kutner, M. H., et al. (2004). Applied Linear Statistical Models, 5a ed.