RLS: Risposta Media e Predizione¶
Le Formule¶
Risposta Media Stimata¶
Varianza della Risposta Media¶
Intervallo di Confidenza per la Risposta Media \(E(Y | X = x_h)\)¶
Intervallo di Predizione per una Nuova Osservazione \(Y_{\text{new}}\) in \(x_h\)¶
Cosa Significano¶
Ci sono due domande molto diverse che puoi fare a un modello di regressione, e confonderle è uno degli errori più comuni in statistica:
-
"Qual è la \(y\) media per questo valore di \(x\)?" — Chiedi della risposta media \(E(Y | X = x_h)\). Stai stimando il centro della distribuzione in \(x_h\). L'intervallo di confidenza risponde a questo.
-
"Quale sarà la prossima osservazione a questo \(x\)?" — Chiedi di un singolo nuovo dato. Anche se conoscessi la media perfettamente, le osservazioni individuali si disperdono attorno ad essa. L'intervallo di predizione risponde a questo.
L'intervallo di predizione è sempre più largo — include sia l'incertezza sulla media sia la dispersione casuale degli individui attorno alla media.
Perché Funziona — L'Intuizione¶
La Varianza di \(\hat{Y}_h\) — Perché la Forma a Papillon?¶
Se hai mai visto un grafico di regressione con bande di confidenza, avrai notato che formano una forma a papillon (o clessidra) — più strette a \(\bar{x}\) e che si allargano allontanandosi. La formula della varianza spiega perché.
A \(x_h = \bar{x}\): Il secondo termine scompare. \(\text{Var}(\hat{Y}_h) = \sigma^2/n\). Stai prevedendo la risposta media al baricentro, dove hai massima informazione.
Man mano che \(x_h\) si allontana da \(\bar{x}\): Il termine \((x_h - \bar{x})^2\) cresce. Stai estrapolando lungo la retta di regressione, e l'incertezza sulla pendenza viene amplificata dalla distanza dal centro. È di nuovo l'effetto altalena.
Derivazione di \(\text{Var}(\hat{Y}_h)\)¶
Dato che \(\bar{y}\) e \(\hat{\beta}_1\) sono indipendenti:
Due fonti di incertezza sommate: - \(\sigma^2/n\): incertezza sul livello generale (la media) - \(\sigma^2(x_h - \bar{x})^2/S_{xx}\): incertezza dalla pendenza, amplificata dalla distanza dal centro
Intervallo di Confidenza vs. Intervallo di Predizione — Quell'"1" in Più¶
Per predire una nuova osservazione individuale \(Y_{\text{new}}\) in \(x_h\):
Quell'"1" iniziale è il rumore irriducibile — anche con dati infiniti e una retta perfetta, le osservazioni individuali oscillano comunque attorno alla media con varianza \(\sigma^2\). L'intervallo di confidenza si restringe a zero quando \(n \to \infty\). L'intervallo di predizione non diventa mai più stretto di \(\pm t \cdot \sigma\) — c'è un pavimento imposto dalla casualità intrinseca del mondo.
Una distinzione profonda: - Intervallo di confidenza: "Dov'è la vera media?" → Diventa arbitrariamente preciso con più dati - Intervallo di predizione: "Dove cadrà il prossimo punto?" → Ha una larghezza minima irriducibile
Esempio Svolto¶
Dati ore di studio: \(n = 5\), \(\bar{x} = 5\), \(S_{xx} = 26\), \(\hat{\beta}_0 = 57{,}8\), \(\hat{\beta}_1 = 4{,}04\), \(s = 2{,}13\).
Predire il voto medio a \(x_h = 6\) ore¶
Intervallo di confidenza (95%, \(t_{3; 0{,}025} = 3{,}182\)):
Siamo confidenti al 95% che il voto medio per studenti che studiano 6 ore sia tra 78,7 e 85,4.
Intervallo di predizione:
Un singolo studente che studia 6 ore probabilmente prenderebbe tra 74,5 e 89,6 — un intervallo molto più ampio, perché le persone variano.
Errori Comuni¶
- Usare un intervallo di confidenza quando serve uno di predizione: Se qualcuno chiede "che voto prenderà questo studente?", serve un intervallo di predizione. Se chiede "qual è il voto medio degli studenti che studiano 6 ore?", serve un intervallo di confidenza.
- Estrapolare con sicurezza: Le bande si allargano per un motivo. Predire a \(x_h = 20\) ore con dati da 2–8 ore è azzardato.
- Dimenticare che l'intervallo di predizione ha un pavimento: Nessuna quantità di dati fa sparire l'intervallo di predizione. C'è sempre \(\sigma^2\) di incertezza irriducibile.
- Pensare che bande di confidenza strette significhino buone predizioni: Puoi avere bande di confidenza sottilissime e intervalli di predizione enormi. Sono domande separate.
Formule Correlate¶
- RLS: Derivazione degli Stimatori OLS — il punto di partenza
- RLS: Proprietà dello Stimatore della Pendenza — \(\text{Var}(\hat{\beta}_1)\) alimenta questa derivazione
- RLS: Proprietà dello Stimatore dell'Intercetta — \(\text{Var}(\hat{\beta}_0)\)
- Errore Standard — il concetto generale
Riferimenti¶
- Kutner, M. H., et al. (2004). Applied Linear Statistical Models, 5a ed.
- Weisberg, S. (2014). Applied Linear Regression, 4a ed.
- Working, H. & Hotelling, H. (1929). "Applications of the Theory of Error to the Interpretation of Trends." J. Amer. Statist. Assoc.