Intervallo di Confidenza¶

La Formula¶

Per la media di una popolazione:

\[ \bar{x} \pm t_{n-1,\, \alpha/2} \cdot \frac{s}{\sqrt{n}} \]

O più in generale, per qualsiasi stimatore \(\hat{\theta}\):

\[ \hat{\theta} \pm t_{\,df,\, \alpha/2} \cdot \text{SE}(\hat{\theta}) \]

Cosa Significa¶

Misuri qualcosa — diciamo l'altezza media degli studenti nella tua università. Sondaggi 50 persone e ottieni \(\bar{x} = 172\) cm. Ma sai che se avessi scelto altre 50 persone, avresti ottenuto un numero leggermente diverso. Quindi quanto è vicino 172 alla vera media?

Un intervallo di confidenza al 95% dice: "Abbiamo calcolato un intervallo da questi dati. Se ripetessimo l'intera procedura molte volte — nuovo campione, nuovo intervallo, ogni volta — il 95% di quegli intervalli conterrebbe il vero valore."

Non sta dicendo che c'è una probabilità del 95% che il vero valore sia in questo specifico intervallo. Il vero valore è fisso — o è lì dentro o non lo è. Quello che è casuale è l'intervallo stesso.

Perché Funziona — La Storia Dietro la Formula¶

L'Idea Fondamentale: Invertire un Test¶

L'intervallo di confidenza nasce da un trucco geniale: capovolgere un'affermazione probabilistica sullo stimatore in un'affermazione sul parametro.

Passo 1: La distribuzione campionaria di \(\bar{x}\)

Dal Teorema del Limite Centrale, per \(n\) grande (o se la popolazione è normale):

\[ \bar{x} \sim N\!\left(\mu,\; \frac{\sigma^2}{n}\right) \]

Passo 2: Standardizzare

\[ Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1) \]

Passo 3: Scrivere un'affermazione probabilistica

\[ P\!\left(-1{,}96 \le \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \le 1{,}96\right) = 0{,}95 \]

Passo 4: Il trucco dell'inversione — risolvere per \(\mu\)

Moltiplica tutto per \(\sigma/\sqrt{n}\), poi riordina:

\[ P\!\left(\bar{x} - 1{,}96 \cdot \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{x} + 1{,}96 \cdot \frac{\sigma}{\sqrt{n}}\right) = 0{,}95 \]

Siamo partiti da una probabilità su \(\bar{x}\) (casuale) rispetto a \(\mu\) (fisso), e riordinando abbiamo ottenuto un intervallo intorno a \(\bar{x}\) che intrappola \(\mu\).

Ma Non Conosciamo \(\sigma\) — Entra Gosset¶

Nel mondo reale, quasi mai conosci \(\sigma\). Lo stimi con \(s\). Ma sostituire \(s\) a \(\sigma\) introduce incertezza aggiuntiva.

William Sealy Gosset risolse questo nel 1908. Quando sostituisci \(\sigma\) con \(s\):

\[ T = \frac{\bar{x} - \mu}{s / \sqrt{n}} \sim t_{n-1} \]

segue una distribuzione \(t\) con \(n - 1\) gradi di libertà — più larga della normale, con code più pesanti, specialmente quando \(n\) è piccolo.

Perché \(n - 1\) gradi di libertà? Perché \(s\) è calcolato dagli stessi dati di \(\bar{x}\). Le deviazioni \(x_i - \bar{x}\) devono sommare a zero, quindi solo \(n - 1\) di esse sono libere di variare. Hai "speso" un grado di libertà stimando \(\bar{x}\).

Derivazione Passo per Passo¶

Caso con \(\sigma\) Noto (Intervallo Z)¶

1. La media campionaria: \(\bar{X} = \frac{1}{n}\sum X_i\)

2. Il valore atteso:

\[ E(\bar{X}) = \frac{1}{n}\sum E(X_i) = \frac{1}{n} \cdot n\mu = \mu \]

Abbiamo usato la linearità del valore atteso: \(E(aX) = aE(X)\), e \(E(X_1 + X_2) = E(X_1) + E(X_2)\) vale sempre, indipendentemente dall'indipendenza.

3. La varianza:

\[ \text{Var}(\bar{X}) = \frac{1}{n^2} \sum \text{Var}(X_i) \]

Il \(\frac{1}{n}\) è diventato \(\frac{1}{n^2}\) perché \(\text{Var}(aX) = a^2\text{Var}(X)\) — le costanti escono al quadrato dalla varianza (a differenza del valore atteso, dove escono linearmente). E possiamo separare la somma perché le \(X_i\) sono indipendenti.

\[ = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n} \]

4. Poiché una combinazione lineare di normali è normale:

\[ \bar{X} \sim N\!\left(\mu,\; \frac{\sigma^2}{n}\right) \]

5. Standardizzare:

\[ Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1) \]

6. Invertire per ottenere l'intervallo:

\[ \boxed{\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}} \]

Caso con \(\sigma\) Ignoto (Intervallo t)¶

7. Sostituire \(\sigma\) con \(s = \sqrt{\frac{1}{n-1}\sum(X_i - \bar{X})^2}\)

Dividiamo per \(n - 1\) (non \(n\)) perché le deviazioni \(X_i - \bar{X}\) sono vincolate a sommare a zero. Questo vincolo rimuove un grado di libertà. Dividere per \(n - 1\) rende \(s^2\) uno stimatore non distorto di \(\sigma^2\).

8. Il rapporto \(T = \frac{\bar{X} - \mu}{s/\sqrt{n}}\) segue una \(t_{n-1}\) perché \(s\) è casuale — fluttua da campione a campione. La distribuzione \(t\) tiene conto di questa variabilità extra con code più pesanti.

\[ \boxed{\bar{X} \pm t_{n-1,\, \alpha/2} \cdot \frac{s}{\sqrt{n}}} \]

Variabili Spiegate¶

Simbolo	Nome	Descrizione
\(\bar{x}\)	Media campionaria	Il centro dell'intervallo
\(\mu\)	Media della popolazione	Il vero valore che cerchiamo di intrappolare
\(s\)	Deviazione standard campionaria	La nostra stima della dispersione
\(n\)	Dimensione del campione	Numero di osservazioni
\(t_{n-1,\, \alpha/2}\)	Valore critico	Il moltiplicatore dalla distribuzione \(t\)
\(1 - \alpha\)	Livello di confidenza	Tipicamente 0,95 (95%) o 0,99 (99%)

Esempi Svolti¶

Esempio 1: Tempo di Percorrenza¶

Sondaggi \(n = 36\) pendolari. Media: \(\bar{x} = 42\) minuti. \(s = 12\) minuti. IC al 95%.

\(t_{35,\, 0{,}025} \approx 2{,}03\):

\[ 42 \pm 2{,}03 \times \frac{12}{\sqrt{36}} = 42 \pm 4{,}06 \]

IC al 95%: (37,9; 46,1) minuti.

Esempio 2: Campione Piccolo — Durata Batterie¶

Testi \(n = 8\) batterie. \(\bar{x} = 48{,}2\) ore. \(s = 3{,}6\) ore.

\(t_{7,\, 0{,}025} = 2{,}365\) (più grande di 1,96 — i campioni piccoli pagano una penalità):

\[ 48{,}2 \pm 2{,}365 \times \frac{3{,}6}{\sqrt{8}} = 48{,}2 \pm 3{,}01 \]

IC al 95%: (45,2; 51,2) ore.

Errori Comuni¶

"C'è una probabilità del 95% che \(\mu\) sia in questo intervallo": No. \(\mu\) è fisso. L'intervallo è casuale. La probabilità si riferisce alla procedura, non a \(\mu\).
Usare \(z\) invece di \(t\) con campioni piccoli: Quando \(n < 30\) e \(\sigma\) è ignoto, l'intervallo-\(z\) è troppo stretto. La \(t\) corregge per l'incertezza extra nello stimare \(\sigma\).
Confondere intervallo di confidenza con intervallo di predizione: Un IC stima dove sta la media. Un intervallo di predizione stima dove cadrà la prossima osservazione. Quest'ultimo è sempre più largo.

Formule Correlate¶

Errore Standard — l'\(s/\sqrt{n}\) al cuore dell'IC
Intervallo di Predizione — per osservazioni individuali
Distribuzione Gaussiana — il fondamento distribuzionale
RLS: Risposta Media e Predizione — IC nel contesto della regressione

Storia¶

1908 — Gosset (come "Student") deriva la distribuzione \(t\).
1937 — Jerzy Neyman formalizza la teoria degli intervalli di confidenza, definendo l'interpretazione della probabilità di copertura.
1937 — Neyman presenta il suo framework alla Royal Statistical Society. Fisher odiava l'approccio, preferendo la sua "inferenza fiduciale." La faida durò decenni.

Riferimenti¶

Neyman, J. (1937). "Outline of a theory of statistical estimation based on the classical theory of probability." Phil. Trans. Royal Society.
Student (Gosset, W. S.) (1908). "The probable error of a mean." Biometrika.
Morey, R. D., et al. (2016). "The fallacy of placing confidence in confidence intervals." Psychonomic Bulletin & Review.