Distribuzione Gaussiana (Distribuzione Normale) — PDF¶

La Formula¶

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} \]

Cosa Significa¶

Questa formula risponde a una domanda ingannevolmente semplice: se sai che i dati si raggruppano attorno a un valore centrale e si diradano da entrambi i lati, quanto è probabile un qualsiasi valore particolare?

Inserisci un valore di \(x\) e questa funzione ti dice quanto è "densa" la probabilità in quel punto. Disegna la famosa curva a campana — alta al centro in \(\mu\), che sfuma simmetricamente man mano che ti allontani, con la velocità di quella sfumatura controllata da \(\sigma\).

Altezze delle persone, errori di misura, voti agli esami, rumore termico nell'elettronica — un numero assurdo di cose in natura segue questa forma. Non per coincidenza, ma per una ragione matematica profonda a cui arriveremo.

Perché Funziona — La Storia Dietro la Formula¶

Come una Curva a Campana Nacque da un Lancio di Moneta¶

Siamo nel 1733. Abraham de Moivre, un matematico francese esiliato a Londra, sta lavorando su un problema legato al gioco d'azzardo. Vuole sapere: se lanci una moneta 100 volte, qual è la probabilità di ottenere esattamente 50 teste?

La formula binomiale dà la risposta esatta, ma coinvolge fattoriali così grandi da essere praticamente impossibili da calcolare a mano. De Moivre ha bisogno di un'approssimazione. Dopo mesi di lavoro, scopre che al crescere del numero di lanci, la distribuzione binomiale inizia ad assomigliare a una curva liscia e simmetrica — e scrive la formula di quella curva.

Aveva appena scoperto la distribuzione normale. Ma la vedeva come un trucco di calcolo, non come una legge della natura.

Gauss e la Teoria degli Errori¶

Saltiamo al 1809. Carl Friedrich Gauss — probabilmente il più grande matematico mai vissuto — sta lavorando su un problema completamente diverso: tracciare le orbite degli asteroidi. Ogni osservazione astronomica ha piccoli errori, e Gauss vuole trovare il valore "vero" da dati rumorosi.

Si chiede: quale distribuzione degli errori renderebbe la media aritmetica la migliore stima possibile? Lavorando a ritroso da questo requisito, ricava la curva a campana. La stessa formula che de Moivre aveva trovato dai lanci di moneta, Gauss la trova dalla logica degli errori di misura.

Ecco perché si chiama distribuzione "gaussiana" — anche se de Moivre probabilmente ci arrivò per primo. (La Legge dell'Eponimia di Stigler colpisce ancora: nessuna scoperta scientifica prende il nome dal suo vero scopritore.)

Il Teorema del Limite Centrale — Perché È Ovunque¶

Ma la vera ragione per cui questa distribuzione è così importante venne da Pierre-Simon Laplace, che dimostrò qualcosa di stupefacente:

Se sommi molti piccoli effetti casuali indipendenti, il risultato è approssimativamente distribuito normalmente — indipendentemente da come sono fatti i singoli effetti.

Questo è il Teorema del Limite Centrale, ed è la ragione per cui la curva a campana spunta ovunque:

La tua altezza è la somma di molti fattori genetici e ambientali
Un errore di misura è la somma di molte piccole imperfezioni strumentali
I voti agli esami riflettono l'accumulo di molte piccole lacune o successi
Il rumore termico in un filo è la somma di miliardi di movimenti casuali di elettroni

La distribuzione gaussiana non è una forma arbitraria che per caso si adatta ai dati. È la forma inevitabile che emerge ogni volta che molte piccole cose indipendenti si sommano. È l'impronta digitale matematica della casualità accumulata.

Sezionare la Formula — Pezzo per Pezzo¶

Ora capiamo perché la formula ha l'aspetto che ha.

L'Esponenziale: \(e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\)¶

Questo è il cuore della curva a campana. Spacchettamolo dall'interno verso l'esterno.

La parte \((x - \mu)\) misura quanto sei lontano dal centro. A \(x = \mu\), vale zero — sei al picco.

La parte \(\frac{x-\mu}{\sigma}\) normalizza quella distanza per la dispersione. Se \(\sigma\) è grande, essere 10 unità lontano da \(\mu\) non è un gran che. Se \(\sigma\) è piccolo, è tantissimo. Questo rapporto si chiama z-score — misura la distanza in unità di deviazioni standard.

L'elevamento al quadrato rende la funzione simmetrica: valori di \(x\) equidistanti sopra e sotto \(\mu\) ottengono la stessa probabilità. Inoltre garantisce che le code vadano a zero — più ti allontani, più velocemente scende.

Il \(-\frac{1}{2}\) è una convenzione che fa sì che la varianza risulti esattamente \(\sigma^2\). Gauss originariamente usava \(e^{-x^2}\) e il fattore emerse dalla sua analisi. Se usassimo \(e^{-\left(\frac{x-\mu}{\sigma}\right)^2}\) senza il \(\frac{1}{2}\), la matematica funzionerebbe comunque, ma la varianza sarebbe \(\frac{\sigma^2}{2}\) invece di \(\sigma^2\). Il mezzo c'è affinché \(\sigma\) significhi esattamente quello che vogliamo.

L'\(e^{(\cdots)}\) assicura che la funzione sia sempre positiva (le probabilità non possono essere negative) e ci dà quel decadimento liscio con code infinite. Perché proprio \(e\)? Perché \(e^{-x^2}\) è l'unica funzione che è la propria trasformata di Fourier (a meno di un fattore di scala) — ha legami profondi con la struttura stessa della matematica.

La Costante di Normalizzazione: \(\frac{1}{\sigma\sqrt{2\pi}}\)¶

Una funzione di densità di probabilità deve integrarsi a 1 su tutti i valori possibili (probabilità totale = 100%). L'esponenziale grezzo \(e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\) non lo fa da solo — il suo integrale su \((-\infty, \infty)\) vale \(\sigma\sqrt{2\pi}\).

Quindi dividiamo per \(\sigma\sqrt{2\pi}\) per aggiustarlo. Questo fattore fa solo questo — è la ricevuta per rendere l'area totale uguale a 1.

Ma perché \(\sqrt{2\pi}\)? Viene da uno dei risultati più belli della matematica: l'integrale gaussiano.

\[ \int_{-\infty}^{\infty} e^{-x^2} \, dx = \sqrt{\pi} \]

Fu calcolato per la prima volta da Eulero e poi reso rigoroso da Poisson con un trucco magnifico: elevi al quadrato l'integrale, converti in coordinate polari, e il problema crolla in un semplice integrale su un cerchio. Il \(\pi\) appare perché un cerchio si nasconde dentro la curva a campana. (Il fattore diventa \(\sqrt{2\pi}\) invece di \(\sqrt{\pi}\) a causa del nostro \(\frac{1}{2}\) nell'esponente.)

C'è qualcosa di quasi poetico: la distribuzione di probabilità più importante di tutta la statistica contiene segretamente un cerchio.

Derivazione Passo per Passo¶

L'Approccio di Gauss (Dalla Massima Verosimiglianza)¶

Gauss chiese: se ho \(n\) misure \(x_1, \ldots, x_n\) con errori che seguono una densità sconosciuta \(f\), e voglio che la media campionaria sia lo stimatore di massima verosimiglianza, come deve essere \(f\)?

Funzione di verosimiglianza: \(L = \prod_{i=1}^n f(x_i - \mu)\)
Log-verosimiglianza: \(\ell = \sum_{i=1}^n \ln f(x_i - \mu)\)
Ponendo la derivata uguale a zero in \(\hat{\mu} = \bar{x}\):

\[ \sum_{i=1}^n \frac{f'(x_i - \bar{x})}{f(x_i - \bar{x})} = 0 \]

Perché questo valga per qualsiasi dato, serve \(\frac{f'(t)}{f(t)} = ct\) per qualche costante \(c < 0\)
Questa equazione differenziale ha come soluzione \(f(t) = A \, e^{ct^2/2}\)
Ponendo \(c = -1/\sigma^2\) e normalizzando si ottiene:

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} \]

La gaussiana è l'unica distribuzione per cui la media campionaria è lo stimatore di massima verosimiglianza della media vera. Gauss l'ha essenzialmente derivata chiedendosi: "in che tipo di universo fare la media sarebbe la cosa giusta?"

Variabili Spiegate¶

Simbolo	Nome	Descrizione
\(f(x)\)	Densità di probabilità	Quanto è "concentrata" la probabilità al valore \(x\)
\(x\)	Variabile casuale	Il valore di cui stai chiedendo
\(\mu\)	Media (mu)	Il centro della distribuzione — dove sta il picco
\(\sigma\)	Deviazione standard (sigma)	Quanto è larga la curva — più grande significa più larga e piatta
\(\sigma^2\)	Varianza	Il quadrato della deviazione standard
\(e\)	Numero di Eulero	\(\approx 2{,}71828\), la base dei logaritmi naturali
\(\pi\)	Pi greco	\(\approx 3{,}14159\), appare qui perché un cerchio si nasconde nell'integrale gaussiano

Esempi Svolti¶

Esempio 1: Altezze Umane¶

L'altezza degli uomini adulti in un paese segue \(\mu = 175\) cm, \(\sigma = 7\) cm. Quanto è densa la probabilità esattamente a 182 cm?

\[ f(182) = \frac{1}{7\sqrt{2\pi}} \, e^{-\frac{1}{2}\left(\frac{182-175}{7}\right)^2} = \frac{1}{7\sqrt{2\pi}} \, e^{-\frac{1}{2}(1)^2} = \frac{1}{17{,}53} \cdot 0{,}6065 \approx 0{,}0346 \]

Una deviazione standard sopra la media. Circa il 3,46% di densità di probabilità per cm in quel punto. Confrontalo con il picco a \(\mu = 175\):

\[ f(175) = \frac{1}{7\sqrt{2\pi}} \, e^{0} = \frac{1}{17{,}53} \approx 0{,}0570 \]

Quindi 182 cm ha circa il 61% della densità del picco — la curva non è scesa poi tanto a un sigma.

Esempio 2: La Regola 68-95-99,7¶

Per qualsiasi distribuzione normale: - 68% dei valori cade entro \(\mu \pm 1\sigma\) - 95% cade entro \(\mu \pm 2\sigma\) - 99,7% cade entro \(\mu \pm 3\sigma\)

Per il nostro esempio delle altezze (\(\mu = 175\), \(\sigma = 7\)): - Il 68% degli uomini è tra 168–182 cm - Il 95% è tra 161–189 cm - Il 99,7% è tra 154–196 cm

Qualcuno alto 196 cm (circa 6'5") è un evento a tre sigma — solo lo 0,15% della popolazione. Qualcuno di 2 metri è oltre \(3{,}5\sigma\) — ci si aspetterebbe circa 1 persona su 4.300.

Esempio 3: Perché il Controllo Qualità Usa "Sei Sigma"¶

Nella produzione industriale, un processo "sei sigma" significa che i difetti sono a 6 deviazioni standard dalla media. La probabilità di un valore oltre \(6\sigma\):

\[ P(|x - \mu| > 6\sigma) \approx 0{,}0000002\% = 2 \text{ difetti per miliardo} \]

La curva a campana cala incredibilmente in fretta. A \(3\sigma\) ottieni 1 su 370. A \(4\sigma\), 1 su 31.574. A \(6\sigma\), 1 su 506 milioni. Quell'esponenziale \(e^{-x^2}\) è feroce nelle code.

Errori Comuni¶

Pensare che \(f(x)\) sia una probabilità: È una densità di probabilità. Per le distribuzioni continue, \(P(X = \text{esattamente } 182) = 0\). Devi integrare su un intervallo per ottenere probabilità reali: \(P(a < X < b) = \int_a^b f(x)\,dx\).
Supporre che tutto sia normale: Il TLC dice che le medie tendono ad essere normali. I singoli dati possono essere selvaggiamente non normali — i redditi sono asimmetrici, i terremoti seguono leggi di potenza, i rendimenti azionari hanno code grasse. Non appiccicate una gaussiana sui dati senza verificare.
Confondere \(\sigma\) e \(\sigma^2\): La formula usa \(\sigma\) (deviazione standard) al denominatore e \(\sigma^2\) (varianza) nel denominatore dell'esponente. Scambiarli cambia completamente la distribuzione.
Dimenticare la costante di normalizzazione: Quando confronti due gaussiane con \(\sigma\) diversi, il \(\frac{1}{\sigma\sqrt{2\pi}}\) conta. Una gaussiana stretta è più alta al picco di una larga — l'area totale deve essere 1, quindi più stretta significa più alta.

Formule Correlate¶

Errore Standard — costruito sulla gaussiana attraverso il Teorema del Limite Centrale
Teorema del Limite Centrale — perché le somme di variabili casuali convergono a questa distribuzione
z-Score — la distanza standardizzata \(\frac{x - \mu}{\sigma}\) al cuore dell'esponente
Intervallo di Confidenza — usa la distribuzione normale per quantificare l'incertezza
Distribuzione Chi-Quadrato — cosa succede quando elevi al quadrato variabili normalmente distribuite
Stima della Massima Verosimiglianza — il metodo usato da Gauss per ricavare questa distribuzione

Storia¶

La distribuzione gaussiana fu scoperta tre volte separate, da tre persone diverse, per tre ragioni diverse.

1733 — Abraham de Moivre, un rifugiato ugonotto che si guadagnava da vivere con la matematica del gioco d'azzardo nelle caffetterie londinesi, pubblica la curva a campana come approssimazione della distribuzione binomiale. Il suo lavoro appare in The Doctrine of Chances. Quasi nessuno se ne accorge.
1774 — Pierre-Simon Laplace riscopre indipendentemente la distribuzione lavorando sulla teoria degli errori. Più tardi dimostrerà il Teorema del Limite Centrale (1812), dando alla curva la sua fondazione teorica — e la sua pretesa di universalità.
1809 — Carl Friedrich Gauss la ricava dal principio che la media aritmetica dovrebbe essere il migliore stimatore. La pubblica in Theoria Motus, il suo capolavoro sulla meccanica celeste. Siccome Gauss è Gauss, la distribuzione prende il suo nome.
1810 — Laplace dimostra il TLC più rigorosamente, mostrando che qualsiasi somma di variabili casuali indipendenti converge a questa forma. La curva a campana passa da "approssimazione comoda" a "legge fondamentale della probabilità."
1835 — Adolphe Quetelet, un astronomo belga diventato scienziato sociale, applica la distribuzione normale alle caratteristiche umane — altezza, circonferenza toracica, persino tassi di criminalità. Chiama la sua persona media idealizzata l'homme moyen ("l'uomo medio"). È la nascita della statistica sociale, e anche la nascita di alcune idee profondamente problematiche sulle persone "normali."
1893 — Karl Pearson conia il nome "deviazione standard" e formalizza gran parte dell'apparato matematico intorno alla distribuzione normale.
Anni '20–'30 — Ronald Fisher costruisce il quadro moderno dell'inferenza statistica su fondamenta gaussiane — ANOVA, massima verosimiglianza, sufficienza — cementando il posto della distribuzione normale al centro della scienza del XX secolo.

Quello che era iniziato come un trucchetto per il gioco d'azzardo in una caffetteria londinese diventò la distribuzione di probabilità più importante della matematica. Niente male per una curva che un rifugiato scarabocchiò ai margini di un libro sui dadi.

Riferimenti¶

de Moivre, A. (1738). The Doctrine of Chances, 2a edizione.
Gauss, C. F. (1809). Theoria Motus Corporum Coelestium.
Stigler, S. M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900.
Stahl, S. (2006). "The evolution of the normal distribution." Mathematics Magazine.
Feynman, R. P. The Feynman Lectures on Physics, Vol. 1, Cap. 6.