RLS: Risposta Media e Predizione¶

Le Formule¶

Risposta Media Stimata¶

\[ \hat{Y}_h = \hat{\beta}_0 + \hat{\beta}_1 x_h \]

Varianza della Risposta Media¶

\[ \text{Var}(\hat{Y}_h) = \sigma^2 \left(\frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}\right) \]

Intervallo di Confidenza per la Risposta Media \(E(Y | X = x_h)\)¶

\[ \hat{Y}_h \pm t_{n-2, \alpha/2} \cdot s \sqrt{\frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}} \]

Intervallo di Predizione per una Nuova Osservazione \(Y_{\text{new}}\) in \(x_h\)¶

\[ \hat{Y}_h \pm t_{n-2, \alpha/2} \cdot s \sqrt{1 + \frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}} \]

Cosa Significano¶

Ci sono due domande molto diverse che puoi fare a un modello di regressione, e confonderle è uno degli errori più comuni in statistica:

"Qual è la \(y\) media per questo valore di \(x\)?" — Chiedi della risposta media \(E(Y | X = x_h)\). Stai stimando il centro della distribuzione in \(x_h\). L'intervallo di confidenza risponde a questo.
"Quale sarà la prossima osservazione a questo \(x\)?" — Chiedi di un singolo nuovo dato. Anche se conoscessi la media perfettamente, le osservazioni individuali si disperdono attorno ad essa. L'intervallo di predizione risponde a questo.

L'intervallo di predizione è sempre più largo — include sia l'incertezza sulla media sia la dispersione casuale degli individui attorno alla media.

Perché Funziona — L'Intuizione¶

La Varianza di \(\hat{Y}_h\) — Perché la Forma a Papillon?¶

Se hai mai visto un grafico di regressione con bande di confidenza, avrai notato che formano una forma a papillon (o clessidra) — più strette a \(\bar{x}\) e che si allargano allontanandosi. La formula della varianza spiega perché.

A \(x_h = \bar{x}\): Il secondo termine scompare. \(\text{Var}(\hat{Y}_h) = \sigma^2/n\). Stai prevedendo la risposta media al baricentro, dove hai massima informazione.

Man mano che \(x_h\) si allontana da \(\bar{x}\): Il termine \((x_h - \bar{x})^2\) cresce. Stai estrapolando lungo la retta di regressione, e l'incertezza sulla pendenza viene amplificata dalla distanza dal centro. È di nuovo l'effetto altalena.

Derivazione di \(\text{Var}(\hat{Y}_h)\)¶

\[ \hat{Y}_h = \bar{y} + \hat{\beta}_1(x_h - \bar{x}) \]

Dato che \(\bar{y}\) e \(\hat{\beta}_1\) sono indipendenti:

\[ \text{Var}(\hat{Y}_h) = \frac{\sigma^2}{n} + (x_h - \bar{x})^2 \cdot \frac{\sigma^2}{S_{xx}} \]

\[ \boxed{= \sigma^2\left(\frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}\right)} \]

Due fonti di incertezza sommate: - \(\sigma^2/n\): incertezza sul livello generale (la media) - \(\sigma^2(x_h - \bar{x})^2/S_{xx}\): incertezza dalla pendenza, amplificata dalla distanza dal centro

Intervallo di Confidenza vs. Intervallo di Predizione — Quell'"1" in Più¶

Per predire una nuova osservazione individuale \(Y_{\text{new}}\) in \(x_h\):

\[ \text{Var}(Y_{\text{new}} - \hat{Y}_h) = \underbrace{\sigma^2}_{\text{rumore irriducibile}} + \underbrace{\sigma^2\left(\frac{1}{n} + \frac{(x_h-\bar{x})^2}{S_{xx}}\right)}_{\text{incertezza sulla media}} \]

Quell'"1" iniziale è il rumore irriducibile — anche con dati infiniti e una retta perfetta, le osservazioni individuali oscillano comunque attorno alla media con varianza \(\sigma^2\). L'intervallo di confidenza si restringe a zero quando \(n \to \infty\). L'intervallo di predizione non diventa mai più stretto di \(\pm t \cdot \sigma\) — c'è un pavimento imposto dalla casualità intrinseca del mondo.

Una distinzione profonda: - Intervallo di confidenza: "Dov'è la vera media?" → Diventa arbitrariamente preciso con più dati - Intervallo di predizione: "Dove cadrà il prossimo punto?" → Ha una larghezza minima irriducibile

Esempio Svolto¶

Dati ore di studio: \(n = 5\), \(\bar{x} = 5\), \(S_{xx} = 26\), \(\hat{\beta}_0 = 57{,}8\), \(\hat{\beta}_1 = 4{,}04\), \(s = 2{,}13\).

Predire il voto medio a \(x_h = 6\) ore¶

\[ \hat{Y}_h = 57{,}8 + 4{,}04(6) = 82{,}04 \]

Intervallo di confidenza (95%, \(t_{3; 0{,}025} = 3{,}182\)):

\[ 82{,}04 \pm 3{,}182 \times 2{,}13\sqrt{0{,}2 + 0{,}038} = 82{,}04 \pm 3{,}31 = (78{,}7; \; 85{,}4) \]

Siamo confidenti al 95% che il voto medio per studenti che studiano 6 ore sia tra 78,7 e 85,4.

Intervallo di predizione:

\[ 82{,}04 \pm 3{,}182 \times 2{,}13\sqrt{1{,}238} = 82{,}04 \pm 7{,}54 = (74{,}5; \; 89{,}6) \]

Un singolo studente che studia 6 ore probabilmente prenderebbe tra 74,5 e 89,6 — un intervallo molto più ampio, perché le persone variano.

Errori Comuni¶

Usare un intervallo di confidenza quando serve uno di predizione: Se qualcuno chiede "che voto prenderà questo studente?", serve un intervallo di predizione. Se chiede "qual è il voto medio degli studenti che studiano 6 ore?", serve un intervallo di confidenza.
Estrapolare con sicurezza: Le bande si allargano per un motivo. Predire a \(x_h = 20\) ore con dati da 2–8 ore è azzardato.
Dimenticare che l'intervallo di predizione ha un pavimento: Nessuna quantità di dati fa sparire l'intervallo di predizione. C'è sempre \(\sigma^2\) di incertezza irriducibile.
Pensare che bande di confidenza strette significhino buone predizioni: Puoi avere bande di confidenza sottilissime e intervalli di predizione enormi. Sono domande separate.

Formule Correlate¶

RLS: Derivazione degli Stimatori OLS — il punto di partenza
RLS: Proprietà dello Stimatore della Pendenza — \(\text{Var}(\hat{\beta}_1)\) alimenta questa derivazione
RLS: Proprietà dello Stimatore dell'Intercetta — \(\text{Var}(\hat{\beta}_0)\)
Errore Standard — il concetto generale

Riferimenti¶

Kutner, M. H., et al. (2004). Applied Linear Statistical Models, 5a ed.
Weisberg, S. (2014). Applied Linear Regression, 4a ed.
Working, H. & Hotelling, H. (1929). "Applications of the Theory of Error to the Interpretation of Trends." J. Amer. Statist. Assoc.