Vai al contenuto

RLS: Risposta Media e Predizione

Le Formule

Risposta Media Stimata

\[ \hat{Y}_h = \hat{\beta}_0 + \hat{\beta}_1 x_h \]

Varianza della Risposta Media

\[ \text{Var}(\hat{Y}_h) = \sigma^2 \left(\frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}\right) \]

Intervallo di Confidenza per la Risposta Media \(E(Y | X = x_h)\)

\[ \hat{Y}_h \pm t_{n-2, \alpha/2} \cdot s \sqrt{\frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}} \]

Intervallo di Predizione per una Nuova Osservazione \(Y_{\text{new}}\) in \(x_h\)

\[ \hat{Y}_h \pm t_{n-2, \alpha/2} \cdot s \sqrt{1 + \frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}} \]

Cosa Significano

Ci sono due domande molto diverse che puoi fare a un modello di regressione, e confonderle è uno degli errori più comuni in statistica:

  1. "Qual è la \(y\) media per questo valore di \(x\)?" — Chiedi della risposta media \(E(Y | X = x_h)\). Stai stimando il centro della distribuzione in \(x_h\). L'intervallo di confidenza risponde a questo.

  2. "Quale sarà la prossima osservazione a questo \(x\)?" — Chiedi di un singolo nuovo dato. Anche se conoscessi la media perfettamente, le osservazioni individuali si disperdono attorno ad essa. L'intervallo di predizione risponde a questo.

L'intervallo di predizione è sempre più largo — include sia l'incertezza sulla media sia la dispersione casuale degli individui attorno alla media.

Perché Funziona — L'Intuizione

La Varianza di \(\hat{Y}_h\) — Perché la Forma a Papillon?

Se hai mai visto un grafico di regressione con bande di confidenza, avrai notato che formano una forma a papillon (o clessidra) — più strette a \(\bar{x}\) e che si allargano allontanandosi. La formula della varianza spiega perché.

A \(x_h = \bar{x}\): Il secondo termine scompare. \(\text{Var}(\hat{Y}_h) = \sigma^2/n\). Stai prevedendo la risposta media al baricentro, dove hai massima informazione.

Man mano che \(x_h\) si allontana da \(\bar{x}\): Il termine \((x_h - \bar{x})^2\) cresce. Stai estrapolando lungo la retta di regressione, e l'incertezza sulla pendenza viene amplificata dalla distanza dal centro. È di nuovo l'effetto altalena.

Derivazione di \(\text{Var}(\hat{Y}_h)\)

\[ \hat{Y}_h = \bar{y} + \hat{\beta}_1(x_h - \bar{x}) \]

Dato che \(\bar{y}\) e \(\hat{\beta}_1\) sono indipendenti:

\[ \text{Var}(\hat{Y}_h) = \frac{\sigma^2}{n} + (x_h - \bar{x})^2 \cdot \frac{\sigma^2}{S_{xx}} \]
\[ \boxed{= \sigma^2\left(\frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}\right)} \]

Due fonti di incertezza sommate: - \(\sigma^2/n\): incertezza sul livello generale (la media) - \(\sigma^2(x_h - \bar{x})^2/S_{xx}\): incertezza dalla pendenza, amplificata dalla distanza dal centro

Intervallo di Confidenza vs. Intervallo di Predizione — Quell'"1" in Più

Per predire una nuova osservazione individuale \(Y_{\text{new}}\) in \(x_h\):

\[ \text{Var}(Y_{\text{new}} - \hat{Y}_h) = \underbrace{\sigma^2}_{\text{rumore irriducibile}} + \underbrace{\sigma^2\left(\frac{1}{n} + \frac{(x_h-\bar{x})^2}{S_{xx}}\right)}_{\text{incertezza sulla media}} \]

Quell'"1" iniziale è il rumore irriducibile — anche con dati infiniti e una retta perfetta, le osservazioni individuali oscillano comunque attorno alla media con varianza \(\sigma^2\). L'intervallo di confidenza si restringe a zero quando \(n \to \infty\). L'intervallo di predizione non diventa mai più stretto di \(\pm t \cdot \sigma\) — c'è un pavimento imposto dalla casualità intrinseca del mondo.

Una distinzione profonda: - Intervallo di confidenza: "Dov'è la vera media?" → Diventa arbitrariamente preciso con più dati - Intervallo di predizione: "Dove cadrà il prossimo punto?" → Ha una larghezza minima irriducibile

Esempio Svolto

Dati ore di studio: \(n = 5\), \(\bar{x} = 5\), \(S_{xx} = 26\), \(\hat{\beta}_0 = 57{,}8\), \(\hat{\beta}_1 = 4{,}04\), \(s = 2{,}13\).

Predire il voto medio a \(x_h = 6\) ore

\[ \hat{Y}_h = 57{,}8 + 4{,}04(6) = 82{,}04 \]

Intervallo di confidenza (95%, \(t_{3; 0{,}025} = 3{,}182\)):

\[ 82{,}04 \pm 3{,}182 \times 2{,}13\sqrt{0{,}2 + 0{,}038} = 82{,}04 \pm 3{,}31 = (78{,}7; \; 85{,}4) \]

Siamo confidenti al 95% che il voto medio per studenti che studiano 6 ore sia tra 78,7 e 85,4.

Intervallo di predizione:

\[ 82{,}04 \pm 3{,}182 \times 2{,}13\sqrt{1{,}238} = 82{,}04 \pm 7{,}54 = (74{,}5; \; 89{,}6) \]

Un singolo studente che studia 6 ore probabilmente prenderebbe tra 74,5 e 89,6 — un intervallo molto più ampio, perché le persone variano.

Errori Comuni

  • Usare un intervallo di confidenza quando serve uno di predizione: Se qualcuno chiede "che voto prenderà questo studente?", serve un intervallo di predizione. Se chiede "qual è il voto medio degli studenti che studiano 6 ore?", serve un intervallo di confidenza.
  • Estrapolare con sicurezza: Le bande si allargano per un motivo. Predire a \(x_h = 20\) ore con dati da 2–8 ore è azzardato.
  • Dimenticare che l'intervallo di predizione ha un pavimento: Nessuna quantità di dati fa sparire l'intervallo di predizione. C'è sempre \(\sigma^2\) di incertezza irriducibile.
  • Pensare che bande di confidenza strette significhino buone predizioni: Puoi avere bande di confidenza sottilissime e intervalli di predizione enormi. Sono domande separate.

Formule Correlate

Riferimenti

  • Kutner, M. H., et al. (2004). Applied Linear Statistical Models, 5a ed.
  • Weisberg, S. (2014). Applied Linear Regression, 4a ed.
  • Working, H. & Hotelling, H. (1929). "Applications of the Theory of Error to the Interpretation of Trends." J. Amer. Statist. Assoc.