Regressione Lineare Semplice: Derivazione degli Stimatori OLS¶

Le Formule¶

\[ \hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}} \]

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]

Cosa Significano¶

Hai una nuvola di punti e vuoi disegnare la retta "migliore" che li attraversa: \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\). Ma cosa significa "migliore"?

\(\hat{\beta}_1\) (la pendenza) ti dice: per ogni aumento di un'unità in \(x\), di quanto cambia \(y\) in media? \(\hat{\beta}_0\) (l'intercetta) ti dice: dove la retta incrocia l'asse y — qual è il valore predetto di \(y\) quando \(x = 0\)?

Questi sono gli stimatori dei Minimi Quadrati Ordinari (OLS) — i valori di \(\beta_0\) e \(\beta_1\) che rendono la somma dei residui al quadrato più piccola possibile. Sono, in un senso preciso, la retta che è in disaccordo con i dati il meno possibile.

Perché Funziona — La Storia Dietro le Formule¶

L'Idea dei Minimi Quadrati¶

Siamo nel 1805. Adrien-Marie Legendre pubblica un libro sulla determinazione delle orbite delle comete e, quasi come una nota a piè di pagina, introduce un metodo che chiama moindres carrés — minimi quadrati. L'idea è elegante: se non puoi tracciare una retta che passi per ogni punto, traccia quella che minimizza la distanza totale al quadrato da ogni punto alla retta.

Perché distanze al quadrato? Tre ragioni, tutte valide:

I segni si cancellano: Alcuni punti sono sopra la retta (errore positivo), altri sotto (negativo). Se sommaste semplicemente gli errori, si cancellerebbero e pensereste che una retta terribile sia ottima.
Gli errori grandi contano di più: Elevare al quadrato penalizza gli errori grandi in modo sproporzionato. Un punto distante 10 unità contribuisce 100 alla somma, non 10. Questo tira la retta verso i valori anomali — che è sia un pregio che un difetto.
La matematica torna benissimo: Gli errori al quadrato portano a soluzioni esplicite e pulite. Gli errori in valore assoluto no — servirebbero metodi iterativi.

Gauss in seguito affermò di aver usato il metodo fin dal 1795 (prima che Legendre pubblicasse), dando vita a una delle dispute sulla priorità più meschine nella storia della matematica. In ogni caso, il metodo rimase.

L'Impostazione¶

Abbiamo il modello:

\[ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \]

dove \(\varepsilon_i\) sono errori casuali. Vogliamo trovare \(\hat{\beta}_0\) e \(\hat{\beta}_1\) che minimizzano:

\[ S(\beta_0, \beta_1) = \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2 \]

È semplicemente una funzione di due variabili. Il calcolo ci dice: prendi le derivate parziali, ponile uguali a zero, risolvi.

Derivazione di \(\hat{\beta}_1\) (La Pendenza)¶

Passo 1: Derivata parziale rispetto a \(\beta_0\)

\[ \frac{\partial S}{\partial \beta_0} = -2\sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i) = 0 \]

Dividi per \(-2\) e espandi:

\[ \sum y_i - n\beta_0 - \beta_1 \sum x_i = 0 \]

Risolvendo per \(\beta_0\):

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \tag{1} \]

Questa è già la nostra formula per l'intercetta! Dice: la retta di regressione passa sempre per il punto \((\bar{x}, \bar{y})\) — il baricentro dei dati. Un fatto geometrico bellissimo.

Passo 2: Derivata parziale rispetto a \(\beta_1\)

\[ \frac{\partial S}{\partial \beta_1} = -2\sum_{i=1}^n x_i(y_i - \beta_0 - \beta_1 x_i) = 0 \]

Dividi per \(-2\):

\[ \sum x_i y_i - \beta_0 \sum x_i - \beta_1 \sum x_i^2 = 0 \tag{2} \]

Passo 3: Sostituisci (1) in (2)

Sostituisci \(\beta_0\) con \(\bar{y} - \hat{\beta}_1 \bar{x}\):

\[ \sum x_i y_i - (\bar{y} - \hat{\beta}_1 \bar{x})\sum x_i - \hat{\beta}_1 \sum x_i^2 = 0 \]

Dato che \(\sum x_i = n\bar{x}\):

\[ \sum x_i y_i - n\bar{x}\bar{y} + \hat{\beta}_1 n\bar{x}^2 - \hat{\beta}_1 \sum x_i^2 = 0 \]

Riordinando:

\[ \hat{\beta}_1 \left(\sum x_i^2 - n\bar{x}^2\right) = \sum x_i y_i - n\bar{x}\bar{y} \]

Riconoscendo che \(\sum x_i^2 - n\bar{x}^2 = \sum(x_i - \bar{x})^2 = S_{xx}\) e \(\sum x_i y_i - n\bar{x}\bar{y} = \sum(x_i - \bar{x})(y_i - \bar{y}) = S_{xy}\):

\[ \boxed{\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}} \]

Cosa Dice Davvero Questa Formula¶

Riguarda la formula della pendenza. Il numeratore \(S_{xy}\) misura quanto \(x\) e \(y\) si muovono insieme — è la covarianza (non normalizzata). Il denominatore \(S_{xx}\) misura quanto sono dispersi i valori di \(x\).

La pendenza è letteralmente: "quanto co-variano \(x\) e \(y\), rispetto a quanto varia \(x\) da solo?"

Se \(x\) e \(y\) si muovono insieme perfettamente, il rapporto è ripido. Se \(x\) varia molto ma \(y\) non segue, il rapporto è piatto. Se si muovono in direzioni opposte, la pendenza è negativa. È esattamente l'idea intuitiva di "quanto sale rispetto a quanto avanza," ma calcolata da dati rumorosi.

Derivazione di \(\hat{\beta}_0\) (L'Intercetta)¶

L'abbiamo già trovata al Passo 1:

\[ \boxed{\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}} \]

Geometricamente: parti dal baricentro \((\bar{x}, \bar{y})\) e scorri lungo la retta fino a \(x = 0\). L'intercetta è dove atterri.

Questo significa anche che se centri i tuoi dati (sottrai le medie), l'intercetta sparisce. La regressione centrata ha \(\hat{\beta}_0 = 0\) e conta solo la pendenza.

Variabili Spiegate¶

Simbolo	Nome	Descrizione
\(\hat{\beta}_1\)	Pendenza stimata	Variazione in \(\hat{y}\) per una variazione unitaria in \(x\)
\(\hat{\beta}_0\)	Intercetta stimata	\(y\) predetto quando \(x = 0\)
\(S_{xy}\)	Somma delle deviazioni incrociate	\(\sum(x_i - \bar{x})(y_i - \bar{y})\), misura il co-movimento
\(S_{xx}\)	Somma delle deviazioni al quadrato in \(x\)	\(\sum(x_i - \bar{x})^2\), misura la dispersione in \(x\)
\(\bar{x}, \bar{y}\)	Medie campionarie	Il baricentro dei dati
\(\varepsilon_i\)	Termine d'errore	Rumore casuale in ogni osservazione

Esempio Svolto¶

Ore di Studio vs. Voto all'Esame¶

Studente	Ore (\(x\))	Voto (\(y\))
1	2	65
2	3	70
3	5	80
4	7	85
5	8	90

Calcolare le medie:

\(\bar{x} = \frac{2+3+5+7+8}{5} = 5, \quad \bar{y} = \frac{65+70+80+85+90}{5} = 78\)

Calcolare \(S_{xy}\) e \(S_{xx}\):

\(x_i - \bar{x}\)	\(y_i - \bar{y}\)	\((x_i-\bar{x})(y_i-\bar{y})\)	\((x_i-\bar{x})^2\)
\(-3\)	\(-13\)	\(39\)	\(9\)
\(-2\)	\(-8\)	\(16\)	\(4\)
\(0\)	\(2\)	\(0\)	\(0\)
\(2\)	\(7\)	\(14\)	\(4\)
\(3\)	\(12\)	\(36\)	\(9\)

\(S_{xy} = 105, \quad S_{xx} = 26\)

La pendenza:

\[ \hat{\beta}_1 = \frac{105}{26} \approx 4{,}04 \]

Ogni ora aggiuntiva di studio predice circa 4 punti in più all'esame.

L'intercetta:

\[ \hat{\beta}_0 = 78 - 4{,}04 \times 5 = 57{,}8 \]

La retta di regressione: \(\hat{y} = 57{,}8 + 4{,}04x\).

Uno studente che studia 0 ore prenderebbe circa 58 (da prendere con le pinze — l'estrapolazione oltre l'intervallo dei dati è rischiosa).

Errori Comuni¶

Interpretare l'intercetta letteralmente: \(\hat{\beta}_0\) è dove la retta tocca \(x = 0\), ma se i tuoi dati non includono \(x = 0\), questo valore è solo estrapolazione. Un modello che predice l'altezza dall'età potrebbe dare \(\hat{\beta}_0 = 50\) cm, il che ha senso per un neonato — ma un modello che predice lo stipendio dagli anni di esperienza potrebbe dare \(\hat{\beta}_0 = -20.000€\), che non ha senso.
Confondere correlazione con causalità: OLS trova il miglior fit lineare. Non dice nulla sul perché \(x\) e \(y\) siano legati. Le vendite di gelato e gli annegamenti sono correlati (entrambi aumentano d'estate), ma il gelato non causa gli annegamenti.
Dimenticare che la retta passa per \((\bar{x}, \bar{y})\): È un utile controllo di buon senso. Se la tua retta non passa per il baricentro, qualcosa è andato storto.

Formule Correlate¶

RLS: Proprietà dello Stimatore della Pendenza — \(E(\hat{\beta}_1)\) e \(\text{Var}(\hat{\beta}_1)\)
RLS: Proprietà dello Stimatore dell'Intercetta — \(E(\hat{\beta}_0)\) e \(\text{Var}(\hat{\beta}_0)\)
RLS: Risposta Media e Predizione — intervalli di confidenza e predizione
Distribuzione Gaussiana — la distribuzione degli errori assunta nella RLS

Storia¶

1805 — Adrien-Marie Legendre pubblica il metodo dei minimi quadrati in Nouvelles méthodes pour la détermination des orbites des comètes
1809 — Gauss afferma di averlo usato fin dal 1795 e pubblica la propria derivazione in Theoria Motus, collegando i minimi quadrati alla distribuzione normale
1821–1823 — Gauss dimostra il teorema di Gauss-Markov: sotto certe condizioni, OLS fornisce i migliori stimatori lineari non distorti (a varianza minima). Questo è il motivo per cui usiamo i minimi quadrati, non solo perché la matematica è elegante
1886 — Francis Galton conia il termine "regressione" studiando come le altezze dei figli "regrediscono verso la media" rispetto ai genitori — dandoci il nome che usiamo ancora oggi

Riferimenti¶

Legendre, A.-M. (1805). Nouvelles méthodes pour la détermination des orbites des comètes.
Gauss, C. F. (1809). Theoria Motus Corporum Coelestium.
Weisberg, S. (2014). Applied Linear Regression, 4a ed. Wiley.