Teorema del Limite Centrale¶

La Storia Dietro la Matematica¶

Nel 1733, Abraham de Moivre (1667-1754), un matematico ugonotto francese residente a Londra, stava studiando un problema che avrebbe cambiato per sempre la statistica. Lavorando come consulente per giocatori d'azzardo e assicuratori, notò qualcosa di peculiare mentre calcolava le probabilità per i lanci di moneta.

De Moivre stava cercando di approssimare le probabilità binomiali quando il numero di prove diventava elevato. Calcolare \((1 + 1)^n\) per \(n\) grande era tedioso, e aveva bisogno di scorciatoie. Attraverso un'intuizione brillante, scoprì che la distribuzione binomiale, quando normalizzata, approcciava una curva liscia a forma di campana: la curva che oggi chiamiamo distribuzione normale.

Il mistero che ha perplesso tutti: Perché la somma di molte variabili casuali, indipendentemente dalle loro singole distribuzioni, dovrebbe sempre tendere verso questa particolare curva? De Moivre aveva trovato un caso specifico (binomiale), ma il principio generale rimaneva nascosto.

Fu solo nel 1812 con Pierre-Simon Laplace (1749-1827) che il teorema iniziò a prendere forma. Laplace, analizzando gli errori nelle osservazioni astronomiche, notò che gli errori di misurazione, indipendentemente dalla loro fonte, tendevano ad accumularsi in una distribuzione normale. Fornì una dimostrazione più generale, ma aveva ancora delle limitazioni.

La dimostrazione completa e rigorosa dovette aspettare Aleksandr Lyapunov (1857-1918) nel 1901. Utilizzando lo strumento rivoluzionario delle funzioni caratteristiche (trasformate di Fourier delle distribuzioni di probabilità), Lyapunov finalmente dimostrò perché il teorema vale in condizioni molto generali.

L'ironia moderna: La chiamiamo distribuzione "normale" come se fosse ordinaria, ma la sua emergenza da quasi qualsiasi processo casuale è uno dei fenomeni più notevoli della matematica. La curva a campana non è solo comune, è inevitabile quando si accumula sufficiente casualità.

Perché Importa¶

Il Teorema del Limite Centrale è il motivo per cui la distribuzione normale appare ovunque:

Fisica: Gli errori di misurazione in qualsiasi esperimento tendono a essere normali
Biologia: Altezze, pesi e misurazioni biologiche si concentrano attorno alle medie
Controllo qualità: Le variazioni di fabbricazione si aggregano in distribuzioni normali
Finanza: I movimenti dei prezzi nel tempo diventano approssimativamente normali
Sondaggi: Le medie campionarie convergono a distribuzioni normali
Machine Learning: Molti algoritmi assumono la normalità per trattabilità
Test statistici: La maggior parte dei test (t-test, ANOVA, regressione) si basa sul TLC

Senza comprendere perché e come funziona il TLC, non potremmo giustificare l'uso delle approssimazioni normali, costruire intervalli di confidenza o eseguire la maggior parte dell'inferenza statistica.

Prerequisiti¶

Sample-Mean-Estimator — Fondamento della distribuzione campionaria
Gaussian-Distribution — La distribuzione target
Expected Value e Variance — I momenti che convergono
Independence delle variabili casuali
Numeri complessi di base (per le funzioni caratteristiche)
Fourier-Transform o funzioni caratteristiche (per la dimostrazione rigorosa)

L'Intuizione Fondamentale¶

L'Enunciato¶

Siano \(X_1, X_2, \ldots, X_n\) variabili casuali indipendenti e identicamente distribuite (i.i.d.) con: - Media: \(\mu = E[X_i]\) - Varianza: \(\sigma^2 = \text{Var}(X_i) < \infty\)

Definiamo la media campionaria:

\[\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\]

Per \(n \to \infty\), la media campionaria standardizzata converge a una normale standard:

\[\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \overset{d}{\longrightarrow} \mathcal{N}(0, 1)\]

O equivalentemente, la media campionaria stessa:

\[\bar{X}_n \overset{d}{\longrightarrow} \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right)\]

Intuizione chiave: La distribuzione di \(X_i\) non importa (purché abbia varianza finita)! Uniforme, esponenziale, Bernoulli, qualsiasi cosa: tutte convergono alla normale quando mediate.

La Dimostrazione Completa¶

Passo 1: Funzioni Caratteristiche¶

La funzione caratteristica di una variabile casuale \(X\) è la trasformata di Fourier della sua PDF:

\[\varphi_X(t) = E[e^{itX}] = \int_{-\infty}^{\infty} e^{itx} f_X(x) \, dx\]

Perché le funzioni caratteristiche? Determinano univocamente le distribuzioni, e—crucialmente—la funzione caratteristica di una somma di variabili indipendenti è il prodotto delle loro funzioni caratteristiche.

Passo 2: Espansione della Funzione Caratteristica¶

Per \(t\) piccolo, possiamo espandere \(\varphi_X(t)\) usando la serie di Taylor attorno a \(t = 0\):

\[\varphi_X(t) = E\left[1 + itX + \frac{(itX)^2}{2!} + \cdots\right]\]

Utilizzando la linearità del valore atteso:

\[\varphi_X(t) = 1 + itE[X] - \frac{t^2}{2}E[X^2] + \cdots\]

Siano \(\mu = E[X]\) e \(\sigma^2 = \text{Var}(X) = E[X^2] - \mu^2\). Allora:

\[\varphi_X(t) = 1 + it\mu - \frac{t^2}{2}(\sigma^2 + \mu^2) + O(t^3)\]

Passo 3: Centratura e Scala¶

Consideriamo la somma standardizzata:

\[Z_n = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} = \frac{1}{\sigma\sqrt{n}}\sum_{i=1}^n (X_i - \mu)\]

Sia \(Y_i = X_i - \mu\). Allora \(E[Y_i] = 0\) e \(\text{Var}(Y_i) = \sigma^2\).

La funzione caratteristica di \(Y_i\):

\[\varphi_Y(t) = 1 - \frac{t^2\sigma^2}{2} + O(t^3)\]

(Nessun termine lineare perché \(E[Y] = 0\))

Passo 4: Funzione Caratteristica della Somma¶

Poiché \(Y_i\) sono indipendenti:

\[\varphi_{\sum Y_i}(t) = \prod_{i=1}^n \varphi_{Y_i}(t) = \left(\varphi_Y(t)\right)^n\]

Per la variabile standardizzata \(Z_n = \frac{\sum Y_i}{\sigma\sqrt{n}}\):

\[\varphi_{Z_n}(t) = \varphi_{\sum Y_i}\left(\frac{t}{\sigma\sqrt{n}}\right) = \left[\varphi_Y\left(\frac{t}{\sigma\sqrt{n}}\right)\right]^n\]

Passo 5: Il Limite¶

Sostituendo l'espansione:

\[\varphi_{Z_n}(t) = \left[1 - \frac{t^2}{2n} + O(n^{-3/2})\right]^n\]

Per \(n \to \infty\), questo converge a:

\[\varphi_{Z_n}(t) \longrightarrow e^{-t^2/2}\]

Perché? Usando il limite \((1 + x/n)^n \to e^x\) per \(n \to \infty\).

Passo 6: Riconoscimento del Target¶

La funzione caratteristica \(e^{-t^2/2}\) è esattamente la funzione caratteristica della distribuzione normale standard \(\mathcal{N}(0, 1)\)!

Poiché le funzioni caratteristiche determinano univocamente le distribuzioni:

\[Z_n = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \overset{d}{\longrightarrow} \mathcal{N}(0, 1)\]

Q.E.D. Il Teorema del Limite Centrale è dimostrato.

Comprensione della Struttura¶

Perché \(\sqrt{n}\)? - La somma cresce come \(n\) (linearmente) - Ma la deviazione standard cresce come \(\sqrt{n}\) (radice quadrata) - Quindi dobbiamo scalare per \(\sqrt{n}\) per ottenere una distribuzione stabile - Questa è la ragione matematica dietro la "legge della radice quadrata" della statistica

Perché la distribuzione specifica di \(X_i\) non importa? - Solo i primi due momenti (media e varianza) appaiono nel limite - I momenti superiori si annullano per \(n \to \infty\) - L'espansione della funzione caratteristica mostra che tutte le distribuzioni "sembrano simili" vicino a zero

Perché il risultato è sempre normale? - La distribuzione normale è il punto fisso dell'operazione di media - La media di due normali dà un'altra normale - Il TLC dice: tutte le distribuzioni convergono a questo punto fisso sotto media ripetuta

Dimostrazione Visiva¶

Convergenza in Azione¶

Distribuzione Originale	n = 5	n = 30	n = 100
Uniforme(0,1)	Campana approssimativa	Campana liscia	Molto normale
Esponenziale(λ)	Asimmetria destra	Simmetrica	Normale
Bernoulli(0.5)	Discreta	Approccio continuo	Normale
Bimodale mix	Quattro picchi	Fusi	Singolo picco

Osservazione chiave: Anche distribuzioni altamente non normali (esponenziale, bimodale) convergono alla curva a campana quando mediate.

Implicazioni Pratiche¶

Quando Si Può Usare l'Approssimazione Normale?¶

Regola empirica: \(n \geq 30\) spesso funziona bene, ma dipende da: - Quanto non normale è la distribuzione originale - Quanto lontano nelle code serve accuratezza - Se si osservano singole osservazioni o estremi

Linee guida migliori: - Distribuzioni simmetriche: \(n \geq 10-20\) - Asimmetria moderata: \(n \geq 30-50\) - Code pesanti: \(n \geq 100\) o più - Quantili estremi: Servono sempre \(n\) più grandi

Intervalli di Confidenza tramite TLC¶

Il TLC giustifica la formula standard dell'intervallo di confidenza:

\[\bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}\]

Anche quando la popolazione non è normale, per \(n\) grande la distribuzione campionaria di \(\bar{X}\) è approssimativamente normale.

Il TLC nella Statistica Moderna¶

Metodi bootstrap: Il ricampionamento sfrutta implicitamente il TLC
Machine Learning: Molti algoritmi assumono la normalità degli errori
Test di ipotesi: La maggior parte dei test assume la normalità tramite TLC
Inferenza bayesiana: Le distribuzioni posteriori spesso diventano normali (teorema di Bernstein-von Mises)

Errori Comuni¶

"I dati diventano normali": No! La media campionaria diventa normale. I singoli punti dati mantengono la loro distribuzione originale.
"Funziona per qualsiasi somma": La somma stessa diverge (cresce senza limiti). Si deve standardizzare (sottrarre la media, dividere per la deviazione standard) per ottenere convergenza.
"Tutte le medie sono distribuite normalmente": Solo approssimativamente, e solo per \(n\) grande. I campioni piccoli possono essere lontani dalla normalità.
"Il TLC si applica a qualsiasi statistica": No! Solo alle somme e medie (e statistiche asintoticamente equivalenti). Mediane, massimi e altre statistiche hanno diverse distribuzioni limite.
"Il TLC funziona per dati dipendenti": Non necessariamente! L'ipotesi i.i.d. è cruciale. I dati correlati richiedono versioni più sofisticate (es. condizioni di mixing).

Concetti Correlati¶

Sample-Mean-Estimator — La statistica che converge
Gaussian-Distribution — La distribuzione limite
Fourier-Transform — Strumento matematico usato nella dimostrazione
Law-of-Large-Numbers — Correlato ma diverso (convergenza del valore, non della distribuzione)
Delta-Method — Estende il TLC a funzioni di variabili casuali
Berry-Esseen-Theorem — Quantifica la velocità di convergenza

Riferimenti¶

de Moivre, A. (1733). "Approximatio ad Summam Terminorum Binomii \((a+b)^n\) in Seriem Expansi." Supplementum II to Miscellanea Analytica.
Laplace, P. S. (1812). Théorie Analytique des Probabilités. Paris: Courcier.
Lyapunov, A. M. (1901). "Nouvelle Forme du Théorème sur la Limite de Probabilité." Mémoires de l'Académie Impériale des Sciences de St. Pétersbourg.
Feller, W. (1968). An Introduction to Probability Theory and Its Applications, Vol. 1. Wiley.
Billingsley, P. (1995). Probability and Measure (3rd ed.). Wiley.