Distribuzione t di Student¶

Definizione Matematica¶

Se Z ~ N(0,1) e V ~ χ²(ν) sono indipendenti, allora:

\[ t = \frac{Z}{\sqrt{V/\nu}} \]

segue una distribuzione t con ν gradi di libertà (df).

La funzione di densità di probabilità è:

\[ f(t) = \frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\,\Gamma(\frac{\nu}{2})} \left(1+\frac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}} \]

Proprietà Chiave¶

Simmetrica intorno a 0, come la distribuzione normale
Code più pesanti della normale (più incline ai valori estremi)
Media = 0 (per ν > 1)
Varianza = ν/(ν-2) per ν > 2 (più alta della varianza di N(0,1) che è 1)
Quando ν → ∞, la distribuzione t → N(0,1)

Quando Usarla¶

Usa la distribuzione t quando: - Hai un piccolo campione (n < 30) - Conosci la media campionaria ma NON la deviazione standard della popolazione - Vuoi stimare intervalli di confidenza o fare test d'ipotesi

Per campioni grandi (n ≥ 30), la distribuzione t converge alla normale standard, quindi la differenza è trascurabile.

Derivazione¶

Il Problema¶

Hai n campioni da una popolazione normale: X₁, X₂, ..., Xₙ. Vuoi sapere se la media campionaria X̄ è coerente con una media di popolazione ipotizzata μ.

La media campionaria è distribuita normalmente:

\[ \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) \]

Standardizzazione con σ Sconosciuto¶

Se conoscessimo σ, useremmo lo Z-score:

\[ Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1) \]

Ma nella pratica non conosciamo σ. Usiamo la deviazione standard campionaria s:

\[ s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2} \]

Sostituendo s a σ otteniamo:

\[ t = \frac{\bar{X} - \mu}{s/\sqrt{n}} \]

Questa statistica NON segue N(0,1) perché s introduce incertezza aggiuntiva.

Scomposizione della Statistica t¶

Moltiplica sopra e sotto per σ:

\[ t = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \cdot \frac{\sigma}{s} = \frac{Z}{s/\sigma} \]

Dove Z ~ N(0,1).

Relazione con Chi-Quadrato¶

La varianza campionaria scalata segue una distribuzione chi-quadrato:

\[ V = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1) \]

Quindi:

\[ \frac{s}{\sigma} = \sqrt{\frac{V}{n-1}} \]

Risultato Finale¶

Sostituendo:

\[ t = \frac{Z}{\sqrt{V/(n-1)}} \]

Questa è la statistica t: una normale standard divisa per la radice quadrata di una chi-quadrato (scalata per df).

Z e V sono indipendenti (proprietà della distribuzione normale), quindi t segue la distribuzione t di Student con ν = n-1 gradi di libertà.

Perché le Code Più Pesanti?¶

Quando n è piccolo, s² è una stima imprecisa di σ². A volte s² è troppo piccola, rendendo t più grande di Z. Questo crea valori estremi occasionali, producendo code più pesanti.

Quando n cresce, s² → σ² (legge dei grandi numeri), quindi t → Z.

Usi Comuni¶

Intervalli di confidenza per medie quando σ è sconosciuto
Test t: a un campione, a due campioni, appaiati
Regressione lineare: test di significatività dei coefficienti

Storia Breve¶

Sviluppata da William Sealy Gosset nel 1908 mentre lavorava alla Guinness. Pubblicò con lo pseudonimo "Student" perché l'azienda vietava ai dipendenti di pubblicare.

Gosset aveva un problema pratico: doveva testare la qualità della birra con campioni piccoli (4-6 bottiglie per lotto). Le formule basate sulla normale davano risultati inaffidabili. Derivò questa distribuzione attraverso simulazioni manuali e risolse il problema dei piccoli campioni.

Ronald Fisher più tardi generalizzò e dimostrò rigorosamente la teoria, rendendo la distribuzione t uno strumento fondamentale della statistica moderna.

Confronto con la Normale¶

df = 1: Code molto pesanti (quasi come una Cauchy)
df = 3: Code notevolmente più pesanti di N(0,1)
df = 10: Differenze minori
df = 30: Praticamente identica a N(0,1)
df = ∞: Esattamente N(0,1)