Intervallo di Confidenza¶
La Formula¶
Per la media di una popolazione:
O più in generale, per qualsiasi stimatore \(\hat{\theta}\):
Cosa Significa¶
Misuri qualcosa — diciamo l'altezza media degli studenti nella tua università. Sondaggi 50 persone e ottieni \(\bar{x} = 172\) cm. Ma sai che se avessi scelto altre 50 persone, avresti ottenuto un numero leggermente diverso. Quindi quanto è vicino 172 alla vera media?
Un intervallo di confidenza al 95% dice: "Abbiamo calcolato un intervallo da questi dati. Se ripetessimo l'intera procedura molte volte — nuovo campione, nuovo intervallo, ogni volta — il 95% di quegli intervalli conterrebbe il vero valore."
Non sta dicendo che c'è una probabilità del 95% che il vero valore sia in questo specifico intervallo. Il vero valore è fisso — o è lì dentro o non lo è. Quello che è casuale è l'intervallo stesso.
Perché Funziona — La Storia Dietro la Formula¶
L'Idea Fondamentale: Invertire un Test¶
L'intervallo di confidenza nasce da un trucco geniale: capovolgere un'affermazione probabilistica sullo stimatore in un'affermazione sul parametro.
Passo 1: La distribuzione campionaria di \(\bar{x}\)
Dal Teorema del Limite Centrale, per \(n\) grande (o se la popolazione è normale):
Passo 2: Standardizzare
Passo 3: Scrivere un'affermazione probabilistica
Passo 4: Il trucco dell'inversione — risolvere per \(\mu\)
Moltiplica tutto per \(\sigma/\sqrt{n}\), poi riordina:
Siamo partiti da una probabilità su \(\bar{x}\) (casuale) rispetto a \(\mu\) (fisso), e riordinando abbiamo ottenuto un intervallo intorno a \(\bar{x}\) che intrappola \(\mu\).
Ma Non Conosciamo \(\sigma\) — Entra Gosset¶
Nel mondo reale, quasi mai conosci \(\sigma\). Lo stimi con \(s\). Ma sostituire \(s\) a \(\sigma\) introduce incertezza aggiuntiva.
William Sealy Gosset risolse questo nel 1908. Quando sostituisci \(\sigma\) con \(s\):
segue una distribuzione \(t\) con \(n - 1\) gradi di libertà — più larga della normale, con code più pesanti, specialmente quando \(n\) è piccolo.
Perché \(n - 1\) gradi di libertà? Perché \(s\) è calcolato dagli stessi dati di \(\bar{x}\). Le deviazioni \(x_i - \bar{x}\) devono sommare a zero, quindi solo \(n - 1\) di esse sono libere di variare. Hai "speso" un grado di libertà stimando \(\bar{x}\).
Derivazione Passo per Passo¶
Caso con \(\sigma\) Noto (Intervallo Z)¶
1. La media campionaria: \(\bar{X} = \frac{1}{n}\sum X_i\)
2. Il valore atteso:
Abbiamo usato la linearità del valore atteso: \(E(aX) = aE(X)\), e \(E(X_1 + X_2) = E(X_1) + E(X_2)\) vale sempre, indipendentemente dall'indipendenza.
3. La varianza:
Il \(\frac{1}{n}\) è diventato \(\frac{1}{n^2}\) perché \(\text{Var}(aX) = a^2\text{Var}(X)\) — le costanti escono al quadrato dalla varianza (a differenza del valore atteso, dove escono linearmente). E possiamo separare la somma perché le \(X_i\) sono indipendenti.
4. Poiché una combinazione lineare di normali è normale:
5. Standardizzare:
6. Invertire per ottenere l'intervallo:
Caso con \(\sigma\) Ignoto (Intervallo t)¶
7. Sostituire \(\sigma\) con \(s = \sqrt{\frac{1}{n-1}\sum(X_i - \bar{X})^2}\)
Dividiamo per \(n - 1\) (non \(n\)) perché le deviazioni \(X_i - \bar{X}\) sono vincolate a sommare a zero. Questo vincolo rimuove un grado di libertà. Dividere per \(n - 1\) rende \(s^2\) uno stimatore non distorto di \(\sigma^2\).
8. Il rapporto \(T = \frac{\bar{X} - \mu}{s/\sqrt{n}}\) segue una \(t_{n-1}\) perché \(s\) è casuale — fluttua da campione a campione. La distribuzione \(t\) tiene conto di questa variabilità extra con code più pesanti.
Variabili Spiegate¶
| Simbolo | Nome | Descrizione |
|---|---|---|
| \(\bar{x}\) | Media campionaria | Il centro dell'intervallo |
| \(\mu\) | Media della popolazione | Il vero valore che cerchiamo di intrappolare |
| \(s\) | Deviazione standard campionaria | La nostra stima della dispersione |
| \(n\) | Dimensione del campione | Numero di osservazioni |
| \(t_{n-1,\, \alpha/2}\) | Valore critico | Il moltiplicatore dalla distribuzione \(t\) |
| \(1 - \alpha\) | Livello di confidenza | Tipicamente 0,95 (95%) o 0,99 (99%) |
Esempi Svolti¶
Esempio 1: Tempo di Percorrenza¶
Sondaggi \(n = 36\) pendolari. Media: \(\bar{x} = 42\) minuti. \(s = 12\) minuti. IC al 95%.
\(t_{35,\, 0{,}025} \approx 2{,}03\):
IC al 95%: (37,9; 46,1) minuti.
Esempio 2: Campione Piccolo — Durata Batterie¶
Testi \(n = 8\) batterie. \(\bar{x} = 48{,}2\) ore. \(s = 3{,}6\) ore.
\(t_{7,\, 0{,}025} = 2{,}365\) (più grande di 1,96 — i campioni piccoli pagano una penalità):
IC al 95%: (45,2; 51,2) ore.
Errori Comuni¶
- "C'è una probabilità del 95% che \(\mu\) sia in questo intervallo": No. \(\mu\) è fisso. L'intervallo è casuale. La probabilità si riferisce alla procedura, non a \(\mu\).
- Usare \(z\) invece di \(t\) con campioni piccoli: Quando \(n < 30\) e \(\sigma\) è ignoto, l'intervallo-\(z\) è troppo stretto. La \(t\) corregge per l'incertezza extra nello stimare \(\sigma\).
- Confondere intervallo di confidenza con intervallo di predizione: Un IC stima dove sta la media. Un intervallo di predizione stima dove cadrà la prossima osservazione. Quest'ultimo è sempre più largo.
Formule Correlate¶
- Errore Standard — l'\(s/\sqrt{n}\) al cuore dell'IC
- Intervallo di Predizione — per osservazioni individuali
- Distribuzione Gaussiana — il fondamento distribuzionale
- RLS: Risposta Media e Predizione — IC nel contesto della regressione
Storia¶
- 1908 — Gosset (come "Student") deriva la distribuzione \(t\).
- 1937 — Jerzy Neyman formalizza la teoria degli intervalli di confidenza, definendo l'interpretazione della probabilità di copertura.
- 1937 — Neyman presenta il suo framework alla Royal Statistical Society. Fisher odiava l'approccio, preferendo la sua "inferenza fiduciale." La faida durò decenni.
Riferimenti¶
- Neyman, J. (1937). "Outline of a theory of statistical estimation based on the classical theory of probability." Phil. Trans. Royal Society.
- Student (Gosset, W. S.) (1908). "The probable error of a mean." Biometrika.
- Morey, R. D., et al. (2016). "The fallacy of placing confidence in confidence intervals." Psychonomic Bulletin & Review.