Vai al contenuto

Teorema del Limite Centrale

La Storia Dietro la Matematica

Nel 1733, Abraham de Moivre (1667-1754), un matematico ugonotto francese residente a Londra, stava studiando un problema che avrebbe cambiato per sempre la statistica. Lavorando come consulente per giocatori d'azzardo e assicuratori, notò qualcosa di peculiare mentre calcolava le probabilità per i lanci di moneta.

De Moivre stava cercando di approssimare le probabilità binomiali quando il numero di prove diventava elevato. Calcolare \((1 + 1)^n\) per \(n\) grande era tedioso, e aveva bisogno di scorciatoie. Attraverso un'intuizione brillante, scoprì che la distribuzione binomiale, quando normalizzata, approcciava una curva liscia a forma di campana: la curva che oggi chiamiamo distribuzione normale.

Il mistero che ha perplesso tutti: Perché la somma di molte variabili casuali, indipendentemente dalle loro singole distribuzioni, dovrebbe sempre tendere verso questa particolare curva? De Moivre aveva trovato un caso specifico (binomiale), ma il principio generale rimaneva nascosto.

Fu solo nel 1812 con Pierre-Simon Laplace (1749-1827) che il teorema iniziò a prendere forma. Laplace, analizzando gli errori nelle osservazioni astronomiche, notò che gli errori di misurazione, indipendentemente dalla loro fonte, tendevano ad accumularsi in una distribuzione normale. Fornì una dimostrazione più generale, ma aveva ancora delle limitazioni.

La dimostrazione completa e rigorosa dovette aspettare Aleksandr Lyapunov (1857-1918) nel 1901. Utilizzando lo strumento rivoluzionario delle funzioni caratteristiche (trasformate di Fourier delle distribuzioni di probabilità), Lyapunov finalmente dimostrò perché il teorema vale in condizioni molto generali.

L'ironia moderna: La chiamiamo distribuzione "normale" come se fosse ordinaria, ma la sua emergenza da quasi qualsiasi processo casuale è uno dei fenomeni più notevoli della matematica. La curva a campana non è solo comune, è inevitabile quando si accumula sufficiente casualità.

Perché Importa

Il Teorema del Limite Centrale è il motivo per cui la distribuzione normale appare ovunque:

  • Fisica: Gli errori di misurazione in qualsiasi esperimento tendono a essere normali
  • Biologia: Altezze, pesi e misurazioni biologiche si concentrano attorno alle medie
  • Controllo qualità: Le variazioni di fabbricazione si aggregano in distribuzioni normali
  • Finanza: I movimenti dei prezzi nel tempo diventano approssimativamente normali
  • Sondaggi: Le medie campionarie convergono a distribuzioni normali
  • Machine Learning: Molti algoritmi assumono la normalità per trattabilità
  • Test statistici: La maggior parte dei test (t-test, ANOVA, regressione) si basa sul TLC

Senza comprendere perché e come funziona il TLC, non potremmo giustificare l'uso delle approssimazioni normali, costruire intervalli di confidenza o eseguire la maggior parte dell'inferenza statistica.

Prerequisiti

L'Intuizione Fondamentale

L'Enunciato

Siano \(X_1, X_2, \ldots, X_n\) variabili casuali indipendenti e identicamente distribuite (i.i.d.) con: - Media: \(\mu = E[X_i]\) - Varianza: \(\sigma^2 = \text{Var}(X_i) < \infty\)

Definiamo la media campionaria:

\[\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\]

Per \(n \to \infty\), la media campionaria standardizzata converge a una normale standard:

\[\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \overset{d}{\longrightarrow} \mathcal{N}(0, 1)\]

O equivalentemente, la media campionaria stessa:

\[\bar{X}_n \overset{d}{\longrightarrow} \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right)\]

Intuizione chiave: La distribuzione di \(X_i\) non importa (purché abbia varianza finita)! Uniforme, esponenziale, Bernoulli, qualsiasi cosa: tutte convergono alla normale quando mediate.

La Dimostrazione Completa

Passo 1: Funzioni Caratteristiche

La funzione caratteristica di una variabile casuale \(X\) è la trasformata di Fourier della sua PDF:

\[\varphi_X(t) = E[e^{itX}] = \int_{-\infty}^{\infty} e^{itx} f_X(x) \, dx\]

Perché le funzioni caratteristiche? Determinano univocamente le distribuzioni, e—crucialmente—la funzione caratteristica di una somma di variabili indipendenti è il prodotto delle loro funzioni caratteristiche.

Passo 2: Espansione della Funzione Caratteristica

Per \(t\) piccolo, possiamo espandere \(\varphi_X(t)\) usando la serie di Taylor attorno a \(t = 0\):

\[\varphi_X(t) = E\left[1 + itX + \frac{(itX)^2}{2!} + \cdots\right]\]

Utilizzando la linearità del valore atteso:

\[\varphi_X(t) = 1 + itE[X] - \frac{t^2}{2}E[X^2] + \cdots\]

Siano \(\mu = E[X]\) e \(\sigma^2 = \text{Var}(X) = E[X^2] - \mu^2\). Allora:

\[\varphi_X(t) = 1 + it\mu - \frac{t^2}{2}(\sigma^2 + \mu^2) + O(t^3)\]

Passo 3: Centratura e Scala

Consideriamo la somma standardizzata:

\[Z_n = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} = \frac{1}{\sigma\sqrt{n}}\sum_{i=1}^n (X_i - \mu)\]

Sia \(Y_i = X_i - \mu\). Allora \(E[Y_i] = 0\) e \(\text{Var}(Y_i) = \sigma^2\).

La funzione caratteristica di \(Y_i\):

\[\varphi_Y(t) = 1 - \frac{t^2\sigma^2}{2} + O(t^3)\]

(Nessun termine lineare perché \(E[Y] = 0\))

Passo 4: Funzione Caratteristica della Somma

Poiché \(Y_i\) sono indipendenti:

\[\varphi_{\sum Y_i}(t) = \prod_{i=1}^n \varphi_{Y_i}(t) = \left(\varphi_Y(t)\right)^n\]

Per la variabile standardizzata \(Z_n = \frac{\sum Y_i}{\sigma\sqrt{n}}\):

\[\varphi_{Z_n}(t) = \varphi_{\sum Y_i}\left(\frac{t}{\sigma\sqrt{n}}\right) = \left[\varphi_Y\left(\frac{t}{\sigma\sqrt{n}}\right)\right]^n\]

Passo 5: Il Limite

Sostituendo l'espansione:

\[\varphi_{Z_n}(t) = \left[1 - \frac{t^2}{2n} + O(n^{-3/2})\right]^n\]

Per \(n \to \infty\), questo converge a:

\[\varphi_{Z_n}(t) \longrightarrow e^{-t^2/2}\]

Perché? Usando il limite \((1 + x/n)^n \to e^x\) per \(n \to \infty\).

Passo 6: Riconoscimento del Target

La funzione caratteristica \(e^{-t^2/2}\) è esattamente la funzione caratteristica della distribuzione normale standard \(\mathcal{N}(0, 1)\)!

Poiché le funzioni caratteristiche determinano univocamente le distribuzioni:

\[Z_n = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \overset{d}{\longrightarrow} \mathcal{N}(0, 1)\]

Q.E.D. Il Teorema del Limite Centrale è dimostrato.

Comprensione della Struttura

Perché \(\sqrt{n}\)? - La somma cresce come \(n\) (linearmente) - Ma la deviazione standard cresce come \(\sqrt{n}\) (radice quadrata) - Quindi dobbiamo scalare per \(\sqrt{n}\) per ottenere una distribuzione stabile - Questa è la ragione matematica dietro la "legge della radice quadrata" della statistica

Perché la distribuzione specifica di \(X_i\) non importa? - Solo i primi due momenti (media e varianza) appaiono nel limite - I momenti superiori si annullano per \(n \to \infty\) - L'espansione della funzione caratteristica mostra che tutte le distribuzioni "sembrano simili" vicino a zero

Perché il risultato è sempre normale? - La distribuzione normale è il punto fisso dell'operazione di media - La media di due normali dà un'altra normale - Il TLC dice: tutte le distribuzioni convergono a questo punto fisso sotto media ripetuta

Dimostrazione Visiva

Convergenza in Azione

Distribuzione Originale n = 5 n = 30 n = 100
Uniforme(0,1) Campana approssimativa Campana liscia Molto normale
Esponenziale(λ) Asimmetria destra Simmetrica Normale
Bernoulli(0.5) Discreta Approccio continuo Normale
Bimodale mix Quattro picchi Fusi Singolo picco

Osservazione chiave: Anche distribuzioni altamente non normali (esponenziale, bimodale) convergono alla curva a campana quando mediate.

Implicazioni Pratiche

Quando Si Può Usare l'Approssimazione Normale?

Regola empirica: \(n \geq 30\) spesso funziona bene, ma dipende da: - Quanto non normale è la distribuzione originale - Quanto lontano nelle code serve accuratezza - Se si osservano singole osservazioni o estremi

Linee guida migliori: - Distribuzioni simmetriche: \(n \geq 10-20\) - Asimmetria moderata: \(n \geq 30-50\) - Code pesanti: \(n \geq 100\) o più - Quantili estremi: Servono sempre \(n\) più grandi

Intervalli di Confidenza tramite TLC

Il TLC giustifica la formula standard dell'intervallo di confidenza:

\[\bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}\]

Anche quando la popolazione non è normale, per \(n\) grande la distribuzione campionaria di \(\bar{X}\) è approssimativamente normale.

Il TLC nella Statistica Moderna

  • Metodi bootstrap: Il ricampionamento sfrutta implicitamente il TLC
  • Machine Learning: Molti algoritmi assumono la normalità degli errori
  • Test di ipotesi: La maggior parte dei test assume la normalità tramite TLC
  • Inferenza bayesiana: Le distribuzioni posteriori spesso diventano normali (teorema di Bernstein-von Mises)

Errori Comuni

  1. "I dati diventano normali": No! La media campionaria diventa normale. I singoli punti dati mantengono la loro distribuzione originale.

  2. "Funziona per qualsiasi somma": La somma stessa diverge (cresce senza limiti). Si deve standardizzare (sottrarre la media, dividere per la deviazione standard) per ottenere convergenza.

  3. "Tutte le medie sono distribuite normalmente": Solo approssimativamente, e solo per \(n\) grande. I campioni piccoli possono essere lontani dalla normalità.

  4. "Il TLC si applica a qualsiasi statistica": No! Solo alle somme e medie (e statistiche asintoticamente equivalenti). Mediane, massimi e altre statistiche hanno diverse distribuzioni limite.

  5. "Il TLC funziona per dati dipendenti": Non necessariamente! L'ipotesi i.i.d. è cruciale. I dati correlati richiedono versioni più sofisticate (es. condizioni di mixing).

Concetti Correlati

Riferimenti

  • de Moivre, A. (1733). "Approximatio ad Summam Terminorum Binomii \((a+b)^n\) in Seriem Expansi." Supplementum II to Miscellanea Analytica.
  • Laplace, P. S. (1812). Théorie Analytique des Probabilités. Paris: Courcier.
  • Lyapunov, A. M. (1901). "Nouvelle Forme du Théorème sur la Limite de Probabilité." Mémoires de l'Académie Impériale des Sciences de St. Pétersbourg.
  • Feller, W. (1968). An Introduction to Probability Theory and Its Applications, Vol. 1. Wiley.
  • Billingsley, P. (1995). Probability and Measure (3rd ed.). Wiley.