Statistiche Campionarie Basate sulla Verosimiglianza¶
La Storia Dietro la Matematica¶
All'inizio del XVIII secolo, i matematici affrontavano un problema fondamentale: come estrarre informazioni affidabili da dati rumorosi e incompleti? Thomas Bayes, Daniel Bernoulli e Pierre-Simon Laplace furono tra i primi a riconoscere che la probabilità poteva essere usata "al contrario" — non per predire i dati da parametri noti, ma per inferire parametri da dati osservati.
Tuttavia, fu Ronald Aylmer Fisher (1890-1962), genetista e statistico britannico, a rivoluzionare completamente questo campo. Negli anni '20 del Novecento, Fisher lavorava alla Rothamsted Experimental Station, analizzando dati agricoli. Si rese conto che i metodi statistici esistenti erano inadeguati: mancavano di rigore matematico e di una teoria unificante.
Nel suo fondamentale articolo del 1922 "On the Mathematical Foundations of Theoretical Statistics", Fisher introdusse tre concetti rivoluzionari:
- Il Principio di Verosimiglianza — L'idea che tutta l'informazione rilevante sui parametri contenuta nei dati è catturata dalla funzione di verosimiglianza
- La Stima di Massima Verosimiglianza (MLE) — Un metodo sistematico per trovare i "migliori" stimatori
- L'Informazione di Fisher — Una misura della precisione con cui un parametro può essere stimato
Fisher era noto per il suo carattere combattivo. Ebbe famose controversie con Karl Pearson e Jerzy Neyman sulla filosofia dell'inferenza statistica. Mentre Pearson preferiva il metodo dei momenti (più semplice ma meno efficiente), Fisher insisteva che la verosimiglianza forniva il framework teorico ottimale. La storia gli ha dato ragione: la MLE è oggi il metodo di stima parametrica più utilizzato in quasi tutti i campi scientifici.
Perché Importa¶
Le statistiche basate sulla verosimiglianza sono il fondamento dell'inferenza statistica moderna. Vengono utilizzate in:
- Machine Learning: addestramento di modelli probabilistici (regressione logistica, reti neurali, modelli di linguaggio)
- Medicina: stima dei tassi di efficacia dei farmaci in trial clinici
- Economia: stima di parametri in modelli econometrici (ARIMA, GARCH)
- Fisica: calibrazione di rivelatori di particelle e analisi di dati sperimentali
- Biologia: inferenza filogenetica, analisi di sequenze genomiche
- Finanza: valutazione di opzioni, stima della volatilità
Senza la teoria della verosimiglianza, non avremmo metodi rigorosi per quantificare l'incertezza delle nostre stime o per confrontare modelli competitivi.
Prerequisiti¶
- Concetti base di probabilità (variabili aleatorie, distribuzioni)
- Varianza e Momenti
- Calcolo differenziale (derivate, massimizzazione di funzioni)
- Conoscenza della Distribuzione Gaussiana
I Concetti Fondamentali¶
Prima di derivare le formule, dobbiamo costruire i mattoni concettuali partendo dai primi principi.
Che Cos'è la Verosimiglianza?¶
La verosimiglianza non è una probabilità. Questa distinzione è cruciale e spesso mal compresa.
Probabilità: Fissiamo il parametro \(\theta\) e chiediamo: "Quanto è probabile osservare diversi valori dei dati \(X\)?"
Verosimiglianza: Fissiamo i dati osservati \(x\) e chiediamo: "Quanto sono 'plausibili' diversi valori del parametro \(\theta\) dato ciò che abbiamo osservato?"
Nota: la funzione matematica è la stessa (\(f\)), ma il significato è opposto. La verosimiglianza \(L(\theta | x)\) non è una distribuzione di probabilità per \(\theta\) — non integra a 1 rispetto a \(\theta\).
Esempio Intuitivo: Immagina di osservare 8 teste su 10 lanci di moneta. - Se \(\theta = 0.5\) (moneta equa), la probabilità di questo risultato è \(\binom{10}{8}(0.5)^{10} \approx 0.044\) - Se \(\theta = 0.8\) (moneta truccata), la stessa probabilità è \(\binom{10}{8}(0.8)^8(0.2)^2 \approx 0.302\)
La verosimiglianza ci dice: "I dati sono circa 7 volte più verosimili se \(\theta = 0.8\) rispetto a \(\theta = 0.5\)."
Verosimiglianza per Campioni Indipendenti¶
Se abbiamo \(n\) osservazioni indipendenti e identicamente distribuite (i.i.d.) \(x_1, x_2, \ldots, x_n\), la verosimiglianza del campione completo è il prodotto delle verosimiglianze individuali:
Perché il prodotto? Per l'indipendenza. La probabilità congiunta di eventi indipendenti è il prodotto delle probabilità individuali:
La Log-Verosimiglianza¶
In pratica, lavoriamo quasi sempre con la log-verosimiglianza:
Perché prendere il logaritmo?
- Prodotti → Somme: \(\ln(a \cdot b) = \ln a + \ln b\). Le somme sono molto più facili da derivare.
- Stabilità numerica: Moltiplicare molte probabilità piccole (es. \(10^{-10} \times 10^{-12}\)) causa underflow sui computer. I logaritmi trasformano questi numeri in somme gestibili.
- Monotonicità: Poiché \(\ln(x)\) è strettamente crescente, massimizzare \(\ell(\theta)\) equivale a massimizzare \(L(\theta)\).
Lo Stimatore di Massima Verosimiglianza (MLE)¶
Lo stimatore di massima verosimiglianza \(\hat{\theta}_{MLE}\) è il valore che massimizza la verosimiglianza:
Interpretazione: "Tra tutti i possibili valori di \(\theta\), quale rende i dati osservati i più plausibili?"
Per trovarlo, usiamo il calcolo differenziale:
- Deriviamo \(\ell(\theta)\) rispetto a \(\theta\)
- Poniamo la derivata uguale a zero (condizione del primo ordine)
- Risolviamo per \(\theta\)
- Verifichiamo che sia un massimo (non un minimo o punto di sella)
Derivazione Completa: Distribuzione Normale¶
Ora deriviamo gli stimatori MLE per la distribuzione più importante in statistica: la normale (o gaussiana).
Impostazione del Problema¶
Supponiamo di avere \(n\) osservazioni i.i.d. \(x_1, x_2, \ldots, x_n\) da una distribuzione normale con parametri ignoti \(\mu\) (media) e \(\sigma^2\) (varianza):
La funzione di densità di probabilità (PDF) della normale è:
Obiettivo: Trovare \(\hat{\mu}\) e \(\hat{\sigma}^2\) che massimizzano la verosimiglianza.
Passo 1: Costruire la Funzione di Verosimiglianza¶
Per \(n\) osservazioni i.i.d., la verosimiglianza è:
Sostituendo la PDF:
Possiamo separare il prodotto:
Semplificando:
Passo 2: Passare alla Log-Verosimiglianza¶
Prendiamo il logaritmo naturale di entrambi i lati. Ricordiamo le proprietà dei logaritmi: - \(\ln(a^b) = b\ln(a)\) - \(\ln(ab) = \ln(a) + \ln(b)\) - \(\ln(e^x) = x\)
Espandiamo ulteriormente usando \(\ln(ab) = \ln a + \ln b\):
Nota importante: Il termine \(-\frac{n}{2}\ln(2\pi)\) è una costante (non dipende da \(\mu\) o \(\sigma^2\)), quindi possiamo ignorarlo nella massimizzazione. Otteniamo:
Passo 3: Stimare \(\mu\) (Media)¶
Per trovare \(\hat{\mu}\), deriviamo \(\ell\) rispetto a \(\mu\) e poniamola uguale a zero.
Perché derivare? Ai punti di massimo (o minimo), la pendenza della funzione è zero. Stiamo cercando il picco della curva di log-verosimiglianza.
Il primo termine non dipende da \(\mu\), quindi la sua derivata è zero:
Calcoliamo la derivata della somma. Usando la regola della catena:
Quindi:
Poniamo la derivata uguale a zero (condizione del primo ordine):
Poiché \(\sigma^2 \neq 0\), possiamo moltiplicare entrambi i lati per \(\sigma^2\):
Espandiamo la somma:
Il secondo termine è \(n\mu\) (sommiamo \(\mu\) per \(n\) volte):
Risolviamo per \(\mu\):
Risultato: Lo stimatore MLE della media è la media campionaria \(\bar{x}\).
Interpretazione: Il valore di \(\mu\) che rende i dati più verosimili è esattamente la media dei dati. Intuitivamente: se i dati sono distribuiti attorno a \(\mu\), la migliore stima di \(\mu\) è il centro dei dati osservati.
Passo 4: Stimare \(\sigma^2\) (Varianza)¶
Ora troviamo \(\hat{\sigma}^2\). Deriviamo \(\ell\) rispetto a \(\sigma^2\) e poniamola uguale a zero.
Nota tecnica: Deriviamo rispetto a \(\sigma^2\) (non \(\sigma\)) perché rende i calcoli più semplici. \(\sigma^2\) è il parametro naturale della distribuzione normale.
Calcoliamo le derivate dei due termini separatamente.
Primo termine: Usando \(\frac{d}{dx}\ln(x) = \frac{1}{x}\):
Secondo termine: Riscriviamo come \(-\frac{1}{2}(\sigma^2)^{-1}\sum(x_i-\mu)^2\). Usando la regola della potenza \(\frac{d}{dx}x^{-1} = -x^{-2}\):
Combinando i due termini:
Poniamo uguale a zero:
Moltiplichiamo entrambi i lati per \(2(\sigma^2)^2\) per eliminare i denominatori:
Risolviamo per \(\sigma^2\):
Ma attenzione! Abbiamo derivato rispetto a \(\sigma^2\) trattando \(\mu\) come noto. In realtà, \(\mu\) è ignoto e dobbiamo sostituirlo con la sua stima \(\hat{\mu} = \bar{x}\):
Risultato: Lo stimatore MLE della varianza è la varianza campionaria (con denominatore \(n\)).
Nota importante sulla distorsione: Questo stimatore è distorto (biased). Il suo valore atteso è:
Per ottenere uno stimatore non distorto, si usa il denominatore \(n-1\) invece di \(n\):
Perché questa distorsione? Quando stimiamo \(\mu\) con \(\bar{x}\), "usiamo" un grado di libertà dei dati. La media campionaria \(\bar{x}\) è costruita per minimizzare la somma degli scarti quadratici, quindi \(\sum(x_i-\bar{x})^2\) sottostima sistematicamente \(\sum(x_i-\mu)^2\). La correzione \(n-1\) compensa questa sottostima.
Riepilogo delle Stime MLE per la Normale¶
Per un campione i.i.d. \(x_1, \ldots, x_n\) da \(\mathcal{N}(\mu, \sigma^2)\):
Altri Esempi: Distribuzioni Esponenziale e Binomiale¶
Distribuzione Esponenziale¶
PDF: \(f(x|\lambda) = \lambda e^{-\lambda x}\) per \(x \geq 0\), \(\lambda > 0\)
Log-verosimiglianza:
Derivata:
Soluzione:
La MLE del parametro di tasso è il reciproco della media campionaria.
Distribuzione Binomiale¶
PMF: \(P(X=k) = \binom{n}{k}p^k(1-p)^{n-k}\)
Per \(m\) ripetizioni indipendenti con \(k_1, \ldots, k_m\) successi:
Log-verosimiglianza:
Derivata:
Soluzione:
La MLE della probabilità di successo è la proporzione empirica di successi.
Proprietà degli Stimatori MLE¶
1. Consistenza¶
Per \(n \to \infty\), \(\hat{\theta}_{MLE} \overset{P}{\to} \theta_0\) (converge in probabilità al valore vero).
Significato: Con abbastanza dati, la MLE trova il parametro vero.
2. Normalità Asintotica¶
Per \(n\) grande:
dove \(I(\theta)\) è l'informazione di Fisher:
Significato: La distribuzione campionaria della MLE è approssimativamente normale. Questo ci permette di costruire intervalli di confidenza e test di ipotesi.
3. Efficienza¶
Tra tutti gli stimatori non distorti, la MLE raggiunge la varianza minima asintoticamente (raggiunge il limite di Cramér-Rao).
Significato: Non esiste stimatore non distorto con varianza inferiore (asintoticamente). La MLE è "ottimale" in questo senso.
4. Invarianza¶
Se \(\hat{\theta}\) è la MLE di \(\theta\), allora \(g(\hat{\theta})\) è la MLE di \(g(\theta)\) per qualsiasi funzione \(g\).
Esempio: Se \(\hat{\sigma}^2\) è la MLE della varianza, allora \(\sqrt{\hat{\sigma}^2} = \hat{\sigma}\) è la MLE della deviazione standard.
Informazione di Fisher¶
L'informazione di Fisher quantifica quanto "informazione" un'osservazione fornisce sul parametro ignoto.
Interpretazione: - Maggiore \(I(\theta)\), più precisamente possiamo stimare \(\theta\) - La varianza asintotica della MLE è \(1/(nI(\theta))\)
Esempio per la Normale: Per \(X \sim \mathcal{N}(\mu, \sigma^2)\) con \(\sigma^2\) noto:
Quindi \(\text{Var}(\hat{\mu}) \approx \frac{\sigma^2}{n}\), che corrisponde esattamente alla varianza della media campionaria.
Test di Rapporto di Verosimiglianza¶
La verosimiglianza non serve solo per stimare parametri, ma anche per confrontare modelli e testare ipotesi.
Statistica del Rapporto di Verosimiglianza¶
Per testare \(H_0: \theta \in \Theta_0\) contro \(H_1: \theta \in \Theta_1\):
Sotto \(H_0\), per \(n\) grande:
dove \(k\) è la differenza nel numero di parametri tra i modelli.
Esempio: Testare se una moneta è equa (\(H_0: p = 0.5\)) contro \(H_1: p \neq 0.5\).
Criteri di Selezione del Modello¶
AIC (Criterio di Informazione di Akaike)¶
dove \(k\) è il numero di parametri. Si sceglie il modello con AIC minimo.
Penalità per complessità: Il termine \(2k\) penalizza modelli con troppi parametri (evita overfitting).
BIC (Criterio di Informazione Bayesiano)¶
Penalizza più fortemente la complessità rispetto ad AIC (penalità \(k\ln n\) invece di \(2k\)).
Errori Comuni e Fraintendimenti¶
-
Verosimiglianza ≠ Probabilità: \(L(\theta|x)\) non è \(P(\theta|x)\). La verosimiglianza non è una distribuzione per \(\theta\).
-
La MLE può essere distorta: Come nel caso di \(\hat{\sigma}^2\) per la normale. Consistenza ≠ non distorsione.
-
La MLE può non esistere o non essere unica: In alcuni modelli patologici, la verosimiglianza può non avere un massimo ben definito.
-
Massimi locali: In modelli complessi (es. mixture models), \(\ell(\theta)\) può avere multipli massimi locali. Servono metodi numerici (EM algorithm, gradiente).
-
Piccoli campioni: Le proprietà ottimali della MLE sono asintotiche. Per \(n\) piccolo, altri stimatori potrebbero comportarsi meglio.
Variabili e Simboli¶
| Simbolo | Nome | Descrizione |
|---|---|---|
| \(\theta\) | Parametro | Quantità ignota da stimare |
| \(X_i\) | Variabile aleatoria | Modello per l'\(i\)-esima osservazione |
| \(x_i\) | Osservazione | Valore realizzato di \(X_i\) |
| \(f(x\|\theta)\) | PDF/PMF | Funzione di densità/massa |
| \(L(\theta\|x)\) | Verosimiglianza | Plausibilità di \(\theta\) dati i dati |
| \(\ell(\theta)\) | Log-verosimiglianza | \(\ln L(\theta)\) |
| \(\hat{\theta}_{MLE}\) | Stimatore MLE | Valore che massimizza \(L\) o \(\ell\) |
| \(I(\theta)\) | Informazione di Fisher | Quantità di informazione su \(\theta\) |
| \(n\) | Dimensione campionaria | Numero di osservazioni |
Concetti Correlati¶
- Metodo dei Momenti — Metodo alternativo di stima
- Intervalli di Confidenza — Costruiti usando la normalità asintotica della MLE
- Distribuzioni Gaussiane — La distribuzione più comune per MLE
- Varianza — Stimata tramite MLE
- Test di Ipotesi — Basati sul rapporto di verosimiglianza
Riferimenti Storici e Moderni¶
- Fisher, R. A. (1922). "On the mathematical foundations of theoretical statistics." Philosophical Transactions of the Royal Society A, 222:309-368.
- Fisher, R. A. (1925). "Theory of Statistical Estimation." Proceedings of the Cambridge Philosophical Society, 22:700-725.
- Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury Press.
- Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation. Springer.