Vai al contenuto

Intervallo di Predizione

La Formula

Per predire una singola nuova osservazione da una popolazione normale:

\[ \bar{x} \pm t_{n-1,\, \alpha/2} \cdot s\sqrt{1 + \frac{1}{n}} \]

Per predire una nuova osservazione a \(x_h\) nella regressione lineare semplice:

\[ \hat{Y}_h \pm t_{n-2,\, \alpha/2} \cdot s\sqrt{1 + \frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}} \]

Cosa Significa

Un intervallo di confidenza risponde: "Dov'è la vera media?"

Un intervallo di predizione risponde a una domanda diversa: "Dove cadrà la prossima osservazione individuale?"

Anche se conoscessi la vera media esattamente — nessuna incertezza — le osservazioni individuali si disperderebbero comunque attorno ad essa. Le persone non hanno tutte la stessa altezza. Le batterie non durano tutte lo stesso numero di ore. L'intervallo di predizione cattura sia l'incertezza sulla media sia questa variabilità individuale irriducibile.

Ecco perché un intervallo di predizione è sempre più largo di un intervallo di confidenza. Sempre. Senza eccezioni. E a differenza dell'intervallo di confidenza, non si restringe mai a zero per quanti dati si raccolgano — perché la casualità individuale non scompare.

Perché Funziona — La Storia Dietro la Formula

L'Idea Chiave: Due Fonti di Incertezza

Supponi di aver raccolto \(n\) osservazioni e di voler predire una nuova, \(X_{\text{new}}\). La tua miglior stima è \(\bar{x}\), la media campionaria. L'errore di predizione è:

\[ X_{\text{new}} - \bar{X} \]

Qual è la varianza di questo errore? Qui diventa interessante. \(X_{\text{new}}\) e \(\bar{X}\) sono indipendenti — la nuova osservazione non è ancora stata raccolta, quindi non può essere correlata con i dati già in possesso. Questa indipendenza è cruciale, perché significa:

\[ \text{Var}(X_{\text{new}} - \bar{X}) = \text{Var}(X_{\text{new}}) + \text{Var}(\bar{X}) \]

Nessun termine incrociato. Nessuna covarianza di cui preoccuparsi. Le varianze si sommano semplicemente.

Se le variabili non fossero indipendenti, avremmo bisogno di \(\text{Var}(A - B) = \text{Var}(A) + \text{Var}(B) - 2\text{Cov}(A, B)\). Ma \(\text{Cov}(X_{\text{new}}, \bar{X}) = 0\) perché \(X_{\text{new}}\) è un'estrazione fresca, indipendente dai dati di addestramento. Quindi il termine di covarianza svanisce.

Derivazione Completa — Il Caso della Media

Passo 1: Impostare l'errore di predizione

Vogliamo predire \(X_{\text{new}} \sim N(\mu, \sigma^2)\) usando la media campionaria \(\bar{X}\). L'errore è:

\[ X_{\text{new}} - \bar{X} \]

Passo 2: Trovare il valore atteso dell'errore

\[ E(X_{\text{new}} - \bar{X}) = E(X_{\text{new}}) - E(\bar{X}) \]

Possiamo separare il valore atteso perché \(E(A - B) = E(A) - E(B)\) sempre (linearità del valore atteso — nessuna assunzione necessaria).

\[ = \mu - \mu = 0 \]

Bene — la nostra predizione è non distorta. In media, ci azzecchiamo.

Passo 3: Trovare la varianza dell'errore

\[ \text{Var}(X_{\text{new}} - \bar{X}) = \text{Var}(X_{\text{new}}) + \text{Var}(\bar{X}) \]

Le varianze si sommano (non si sottraggono) perché \(\text{Var}(A - B) = \text{Var}(A) + \text{Var}(B)\) quando \(A\) e \(B\) sono indipendenti. Il segno meno in \(A - B\) diventa un più nella varianza — la varianza non si interessa della direzione, solo della grandezza. Formalmente: \(\text{Var}(-B) = (-1)^2 \text{Var}(B) = \text{Var}(B)\).

Ora sostituiamo:

\[ \text{Var}(X_{\text{new}}) = \sigma^2 \]

Questa è semplicemente la varianza di una singola osservazione dalla popolazione — è ciò che \(\sigma^2\) significa.

\[ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} \]

Questo è l'errore standard al quadrato. Lo abbiamo derivato altrove: \(\text{Var}\left(\frac{1}{n}\sum X_i\right) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n}\).

Quindi:

\[ \text{Var}(X_{\text{new}} - \bar{X}) = \sigma^2 + \frac{\sigma^2}{n} = \sigma^2\left(1 + \frac{1}{n}\right) \]

Passo 4: La deviazione standard dell'errore

\[ \text{SD}(X_{\text{new}} - \bar{X}) = \sigma\sqrt{1 + \frac{1}{n}} \]

Passo 5: Standardizzare

Poiché sia \(X_{\text{new}}\) che \(\bar{X}\) sono normali (somma/differenza di normali è normale), e sostituiamo \(\sigma\) con \(s\):

\[ T = \frac{X_{\text{new}} - \bar{X}}{s\sqrt{1 + \frac{1}{n}}} \sim t_{n-1} \]

Questo segue una distribuzione \(t\) (non normale) perché abbiamo sostituito \(\sigma\) con \(s\), introducendo la stessa incertezza aggiuntiva che Gosset identificò. I gradi di libertà sono \(n - 1\) perché \(s\) usa \(n - 1\) gradi di libertà.

Passo 6: Invertire per ottenere l'intervallo

\[ \boxed{\bar{X} \pm t_{n-1,\,\alpha/2} \cdot s\sqrt{1 + \frac{1}{n}}} \]

Il "+1" — Perché Non Scompare Mai

Guarda il termine sotto la radice quadrata: \(1 + \frac{1}{n}\).

Quando \(n \to \infty\), il \(\frac{1}{n}\) svanisce. L'incertezza di stima scompare — con dati infiniti, conosci \(\mu\) perfettamente. Ma l'1 resta. Rappresenta \(\text{Var}(X_{\text{new}}) = \sigma^2\), la dispersione dell'individuo attorno alla media. Nessuna quantità di dati elimina questo. Anche un essere onnisciente che conosce \(\mu\) esattamente affronterebbe comunque \(\sigma^2\) di imprevedibilità per la prossima osservazione.

Confronta con l'intervallo di confidenza: \(\bar{x} \pm t \cdot s / \sqrt{n}\). Qui il termine sotto la radice è solo \(\frac{1}{n}\), che va a zero. L'IC si restringe a un punto quando \(n\) cresce. L'intervallo di predizione si restringe a \(\pm t \cdot \sigma\) — e si ferma.

Questa è la differenza fondamentale:

Intervallo di Confidenza Intervallo di Predizione
Chiede Dov'è \(\mu\)? Dove sarà \(X_{\text{new}}\)?
Varianza \(\frac{\sigma^2}{n}\) \(\sigma^2 + \frac{\sigma^2}{n}\)
Per \(n \to \infty\) Si restringe a zero Si restringe a \(\pm z \cdot \sigma\)
Irriducibile? No Sì — il pavimento \(\sigma^2\)

Il Caso della Regressione

Nella regressione lineare semplice, predire \(Y_{\text{new}}\) a uno specifico \(x_h\), tre fonti di incertezza si combinano:

\[ \text{Var}(Y_{\text{new}} - \hat{Y}_h) = \underbrace{\sigma^2}_{\text{dispersione individuale}} + \underbrace{\sigma^2 \cdot \frac{1}{n}}_{\text{incertezza su } \bar{y}} + \underbrace{\sigma^2 \cdot \frac{(x_h - \bar{x})^2}{S_{xx}}}_{\text{incertezza sulla pendenza}} \]

Il primo termine è il pavimento irriducibile. Il secondo è l'incertezza sul livello complessivo. Il terzo è l'incertezza sulla pendenza, amplificata da quanto \(x_h\) dista da \(\bar{x}\) (l'effetto a papillon).

\[ = \sigma^2\left(1 + \frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}\right) \]

Dando l'intervallo:

\[ \hat{Y}_h \pm t_{n-2,\,\alpha/2} \cdot s\sqrt{1 + \frac{1}{n} + \frac{(x_h - \bar{x})^2}{S_{xx}}} \]

I gradi di libertà sono \(n - 2\) qui (non \(n - 1\)) perché la regressione stima due parametri (\(\beta_0\) e \(\beta_1\)), spendendo due gradi di libertà.

Variabili Spiegate

Simbolo Nome Descrizione
\(X_{\text{new}}\) Nuova osservazione Il valore futuro che stiamo cercando di predire
\(\bar{x}\) Media campionaria La nostra miglior stima per la media (o \(\hat{Y}_h\) nella regressione)
\(s\) Deviazione standard campionaria Dispersione stimata delle osservazioni individuali
\(n\) Dimensione del campione Numero di osservazioni nei dati di addestramento
\(t_{df,\,\alpha/2}\) Valore critico Moltiplicatore dalla distribuzione \(t\)
\(\sigma^2\) Varianza della popolazione La dispersione individuale irriducibile

Esempi Svolti

Esempio 1: Durata Batterie

Testi \(n = 16\) batterie. \(\bar{x} = 48\) ore, \(s = 4\) ore. Predici dove cadrà la prossima batteria (95%).

\(t_{15,\, 0{,}025} = 2{,}131\)

Intervallo di confidenza (per la media):

\[ 48 \pm 2{,}131 \times \frac{4}{\sqrt{16}} = 48 \pm 2{,}131 \times 1 = 48 \pm 2{,}13 \]

IC: (45,9; 50,1) — dove si trova la durata media delle batterie.

Intervallo di predizione (per la prossima batteria):

\[ 48 \pm 2{,}131 \times 4\sqrt{1 + \frac{1}{16}} = 48 \pm 2{,}131 \times 4 \times 1{,}031 = 48 \pm 8{,}79 \]

IP: (39,2; 56,8) — dove probabilmente cadrà la prossima batteria individuale.

L'IP è oltre 4 volte più largo. Anche se abbiamo una stima decente della media, le singole batterie variano molto.

Esempio 2: Effetto della Dimensione del Campione

Stesso \(s = 4\), variando \(n\):

\(n\) Semi-ampiezza IC Semi-ampiezza IP Rapporto IP / IC
4 6,59 10,48 1,6x
16 2,13 8,79 4,1x
100 0,80 8,06 10,1x
10000 0,08 7,85 98x

L'IC si restringe implacabilmente. L'IP si muove appena — è dominato dal pavimento \(\sigma^2\). A \(n = 10\,000\) l'IC è sottilissimo ma l'IP è ancora circa \(\pm 8\) ore. Conosci la media con estrema precisione, ma le singole batterie continuano a disperdersi.

Esempio 3: Regressione — Punteggi d'Esame

Dalle pagine RLS: \(n = 5\), \(\bar{x} = 5\), \(S_{xx} = 26\), \(\hat{Y}_h = 82{,}04\) a \(x_h = 6\) ore, \(s = 2{,}13\).

\(t_{3,\, 0{,}025} = 3{,}182\)

IC (punteggio medio per studenti che studiano 6 ore):

\[ 82{,}04 \pm 3{,}182 \times 2{,}13\sqrt{\frac{1}{5} + \frac{1}{26}} = 82{,}04 \pm 3{,}31 \]

IC: (78,7; 85,4)

IP (punteggio di uno specifico studente che studia 6 ore):

\[ 82{,}04 \pm 3{,}182 \times 2{,}13\sqrt{1 + \frac{1}{5} + \frac{1}{26}} = 82{,}04 \pm 7{,}54 \]

IP: (74,5; 89,6)

L'IP è più del doppio — perché il punteggio di un singolo studente ha una casualità intrinseca che va oltre ciò che la retta di regressione può predire.

Errori Comuni

  • Usare un IC quando serve un IP: Se qualcuno chiede "quale sarà la pressione sanguigna di questo specifico paziente?", serve un IP. Se chiede "qual è la pressione media per le persone con questo farmaco?", serve un IC. La maggior parte delle decisioni reali riguarda individui, non medie — quindi gli IP sono spesso ciò che serve davvero.
  • Aspettarsi che l'IP si restringa a zero: Non succederà. Il pavimento \(\sigma^2\) è un limite rigido. Se la deviazione standard residua del modello è 10, il tuo IP al 95% non sarà mai più stretto di circa \(\pm 20\), per quanti dati raccogli.
  • Dimenticare che l'IP si allarga nella regressione: Per valori estremi di \(x_h\) (lontani da \(\bar{x}\)), il termine \((x_h - \bar{x})^2/S_{xx}\) esplode. L'estrapolazione rende le predizioni ancora meno affidabili.
  • Riportare IC chiamandoli "predizioni": Molti articoli riportano bande IC attorno alle rette di regressione e affermano che mostrano l'incertezza predittiva. Non è così — mostrano l'incertezza sulla media. Le vere bande di predizione sono molto più larghe.

Formule Correlate

Storia

  • 1908 — La distribuzione \(t\) di Gosset rende possibili gli intervalli con campioni piccoli — sia di confidenza che di predizione.
  • 1937 — Neyman formalizza gli intervalli di confidenza, distinguendo attentamente tra la stima dei parametri e la predizione di osservabili. L'intervallo di predizione è quest'ultima.
  • Anni '60–'70 — Con la regressione diventata il cavallo di battaglia della scienza applicata, la distinzione tra bande di confidenza e di predizione acquista importanza pratica. I libri di testo iniziano a enfatizzare il "+1" — ma molti praticanti confondono ancora i due.
  • Oggi — Il machine learning ha riacceso l'interesse per gli intervalli di predizione sotto il nome di "incertezza predittiva" o "incertezza calibrata." Metodi moderni (predizione conforme, predizione bayesiana) estendono l'idea oltre le assunzioni di normalità.

Riferimenti

  • Kutner, M. H., et al. (2004). Applied Linear Statistical Models, 5ª ed.
  • Hahn, G. J. & Meeker, W. Q. (1991). Statistical Intervals: A Guide for Practitioners. Wiley.
  • Morey, R. D., et al. (2016). "The fallacy of placing confidence in confidence intervals." Psychonomic Bulletin & Review.