Vai al contenuto

Distribuzione di Bernoulli

La Storia Dietro la Matematica

La distribuzione di Bernoulli prende il nome da Jacob Bernoulli (1655-1705), matematico svizzero della celebre famiglia Bernoulli. Jacob non lavorava in un contesto accademico tradizionale — era professore di matematica all'Università di Basilea in un'epoca in cui la teoria della probabilità era ancora agli albori.

Il suo lavoro fondamentale, "Ars Conjectandi" (L'Arte di Congetturare), fu pubblicato postumo nel 1713 — otto anni dopo la sua morte. In quest'opera, Bernoulli affrontava una domanda fondamentale: "Come possiamo quantificare l'incertezza di eventi che si ripetono?"

Jacob studiava problemi pratici del suo tempo: giochi d'azzardo, mortalità, e questioni giudiziarie dove bisognava pesare le prove. Si rese conto che molti fenomeni casuali potevano essere ridotti alla forma più semplice possibile: un esperimento con solo due possibili risultati.

Questa intuizione era rivoluzionaria. Bernoulli capì che decomponendo fenomeni complessi in una sequenza di esperimenti binari indipendenti, poteva applicare il ragionamento matematico rigoroso. Nel suo libro, dimostrò la prima versione della Legge dei Grandi Numeri — il fatto che ripetendo molte volte un esperimento, la frequenza relativa di successi converge alla vera probabilità.

Paradosso storico: Sebbene la distribuzione porti il suo nome, Jacob Bernoulli non la chiamò mai così. Il termine "distribuzione di Bernoulli" fu coniato molto più tardi, nel XIX secolo, quando i probabilisti cercarono di sistematizzare le distribuzioni discrete fondamentali.

Pierre-Simon Laplace (1749-1827) e Siméon Denis Poisson (1781-1840) estesero il lavoro di Bernoulli, applicandolo a problemi di fisica, astronomia e giurisprudenza. La semplicità della distribuzione di Bernoulli la rese il mattone fondamentale per costruire distribuzioni più complesse come la Binomiale, la Geometrica e la Binomiale Negativa.

Perché Importa

La distribuzione di Bernoulli è la distribuzione di probabilità più semplice e fondamentale. È utilizzata in:

  • Machine Learning: classificazione binaria, regressione logistica, reti neurali (neuroni con attivazione sigmoide)
  • Test A/B: confrontare tassi di conversione (click/no-click, acquisto/no-acquisto)
  • Controllo di qualità: verificare se un prodotto è difettoso o non difettoso
  • Medicina: esiti binari (guarigione/non-guarigione, positivo/negativo al test)
  • Genetica: presenza/assenza di un allele
  • Fisica: spin up/down, rilevamento di particelle
  • Finanza: default/non-default su un prestito

Ogni volta che modelliamo un evento con due possibili esiti, stiamo usando una Bernoulli. È il caso base da cui derivano tutte le distribuzioni discrete basate su prove ripetute.

Prerequisiti

  • Concetto di variabile aleatoria discreta
  • Expected Value (valore atteso)
  • Variance (varianza)
  • Concetto di probabilità

La Distribuzione

Una variabile aleatoria \(X\) segue una distribuzione di Bernoulli con parametro \(p \in [0, 1]\) se può assumere solo due valori: 0 (fallimento) e 1 (successo), con probabilità:

\[ X = \begin{cases} 1 & \text{con probabilità } p \\ 0 & \text{con probabilità } 1-p \end{cases} \]

Notazione: \(X \sim \text{Bernoulli}(p)\) o \(X \sim \text{Ber}(p)\)

Funzione di Massa di Probabilità (PMF)

La PMF può essere scritta in forma compatta come:

\[ P(X = x) = p^x (1-p)^{1-x} \quad \text{per } x \in \{0, 1\} \]

Verifichiamo questa formula: - Se \(x = 1\): \(P(X=1) = p^1 (1-p)^{1-1} = p \cdot 1 = p\) ✓ - Se \(x = 0\): \(P(X=0) = p^0 (1-p)^{1-0} = 1 \cdot (1-p) = 1-p\)

Perché questa forma? La rappresentazione \(p^x(1-p)^{1-x}\) è elegante perché: 1. Funziona per qualsiasi \(x \in \{0,1\}\) senza bisogno di casi separati 2. Si generalizza naturalmente alla distribuzione Binomiale 3. Semplifica i calcoli della verosimiglianza

Proprietà della PMF

Somma a 1 (assioma delle probabilità):

\[ \sum_{x=0}^1 P(X=x) = P(X=0) + P(X=1) = (1-p) + p = 1 \quad ✓ \]

Derivazione della Media (Valore Atteso)

Il valore atteso di una variabile discreta è:

\[ E[X] = \sum_{x} x \cdot P(X=x) \]

Per la Bernoulli:

\[ E[X] = \sum_{x=0}^1 x \cdot P(X=x) \]
\[ E[X] = 0 \cdot P(X=0) + 1 \cdot P(X=1) \]
\[ E[X] = 0 \cdot (1-p) + 1 \cdot p \]
\[ E[X] = p \]

Risultato: \(E[X] = p\)

Interpretazione: La media di una Bernoulli è semplicemente la probabilità di successo. Se ripetessimo l'esperimento infinite volte, la proporzione media di successi convergerebbe a \(p\).

Esempio: Se lanciamo una moneta equa (\(p=0.5\)), il valore medio è 0.5 — non otteniamo mai 0.5 in un singolo lancio, ma è il "centro" della distribuzione.

Derivazione della Varianza

La varianza è definita come:

\[ \text{Var}(X) = E[X^2] - (E[X])^2 \]

Passo 1: Calcoliamo \(E[X^2]\).

\[ E[X^2] = \sum_{x=0}^1 x^2 \cdot P(X=x) \]
\[ E[X^2] = 0^2 \cdot P(X=0) + 1^2 \cdot P(X=1) \]
\[ E[X^2] = 0 \cdot (1-p) + 1 \cdot p = p \]

Osservazione importante: Per la Bernoulli, \(E[X^2] = E[X] = p\) perché \(X\) vale solo 0 o 1, e \(1^2 = 1\).

Passo 2: Applichiamo la formula della varianza.

\[ \text{Var}(X) = E[X^2] - (E[X])^2 \]
\[ \text{Var}(X) = p - p^2 \]

Fattorizzando:

\[ \text{Var}(X) = p(1-p) \]

Risultato: \(\text{Var}(X) = p(1-p)\)

Interpretazione: - La varianza è massima quando \(p = 0.5\) (massima incertezza): \(\text{Var}(X) = 0.25\) - La varianza è minima (\(\text{Var}(X) = 0\)) quando \(p = 0\) o \(p = 1\) (nessuna incertezza)

Grafico mentale: La funzione \(p(1-p)\) è una parabola con vertice in \(p=0.5\). Quando il risultato è certo (\(p\) vicino a 0 o 1), non c'è variabilità. Quando è massimamente incerto (\(p=0.5\)), la varianza è massima.

Derivazione di Altri Momenti

Momento Terzo (Skewness)

\[ E[X^3] = \sum_{x=0}^1 x^3 \cdot P(X=x) = 0^3(1-p) + 1^3 p = p \]

L'indice di asimmetria (skewness) è:

\[ \gamma_1 = \frac{E[(X-\mu)^3]}{\sigma^3} = \frac{1-2p}{\sqrt{p(1-p)}} \]
  • Se \(p < 0.5\): \(\gamma_1 > 0\) (coda destra, più 0 che 1)
  • Se \(p = 0.5\): \(\gamma_1 = 0\) (simmetrica)
  • Se \(p > 0.5\): \(\gamma_1 < 0\) (coda sinistra, più 1 che 0)

Funzione Generatrice dei Momenti (MGF)

La MGF è definita come:

\[ M_X(t) = E[e^{tX}] \]

Per la Bernoulli:

\[ M_X(t) = \sum_{x=0}^1 e^{tx} \cdot P(X=x) \]
\[ M_X(t) = e^{t \cdot 0}(1-p) + e^{t \cdot 1}p \]
\[ M_X(t) = (1-p) + pe^t \]

Risultato: \(M_X(t) = 1 - p + pe^t\)

Verifica: Possiamo recuperare i momenti derivando la MGF in \(t=0\):

\[ M_X'(t) = pe^t \quad \Rightarrow \quad M_X'(0) = p = E[X] \quad ✓ \]
\[ M_X''(t) = pe^t \quad \Rightarrow \quad M_X''(0) = p = E[X^2] \quad ✓ \]

Stima del Parametro: Maximum Likelihood

Supponiamo di osservare \(n\) realizzazioni i.i.d. \(x_1, \ldots, x_n\) da una Bernoulli(\(p\)). Vogliamo stimare \(p\).

Funzione di Verosimiglianza

\[ L(p) = \prod_{i=1}^n P(X_i = x_i) = \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} \]

Semplificando:

\[ L(p) = p^{\sum_{i=1}^n x_i} (1-p)^{n - \sum_{i=1}^n x_i} \]

Poniamo \(S = \sum_{i=1}^n x_i\) (numero di successi):

\[ L(p) = p^S (1-p)^{n-S} \]

Log-Verosimiglianza

\[ \ell(p) = \ln L(p) = S \ln p + (n-S) \ln(1-p) \]

Massimizzazione

Deriviamo rispetto a \(p\) e poniamo uguale a zero:

\[ \frac{d\ell}{dp} = \frac{S}{p} - \frac{n-S}{1-p} = 0 \]

Moltiplichiamo per \(p(1-p)\):

\[ S(1-p) - (n-S)p = 0 \]
\[ S - Sp - np + Sp = 0 \]
\[ S = np \]
\[ \hat{p}_{MLE} = \frac{S}{n} = \frac{\sum_{i=1}^n x_i}{n} \]

Risultato: Lo stimatore MLE di \(p\) è la proporzione campionaria di successi.

Esempio: Se lanciamo una moneta 10 volte e otteniamo 7 teste, \(\hat{p} = 7/10 = 0.7\).

Proprietà dello Stimatore

Non distorsione:

\[ E[\hat{p}] = E\left[\frac{1}{n}\sum_{i=1}^n X_i\right] = \frac{1}{n} \sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot np = p \]

Varianza:

\[ \text{Var}(\hat{p}) = \text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} \cdot n p(1-p) = \frac{p(1-p)}{n} \]

Errore standard:

\[ \text{SE}(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} \]

Nella pratica, sostituiamo \(p\) con \(\hat{p}\):

\[ \widehat{\text{SE}}(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Relazione con Altre Distribuzioni

Binomiale

Se \(X_1, \ldots, X_n \sim \text{Bernoulli}(p)\) i.i.d., allora:

\[ Y = \sum_{i=1}^n X_i \sim \text{Binomial}(n, p) \]

La Binomiale conta il numero totale di successi in \(n\) prove di Bernoulli indipendenti.

In altre parole: Bernoulli è Binomiale con \(n=1\):

\[ \text{Bernoulli}(p) = \text{Binomial}(1, p) \]

Categorica (Multinomiale con k=2)

La Bernoulli è un caso speciale della distribuzione Categorica con solo 2 categorie.

Intervallo di Confidenza per p

Per costruire un intervallo di confidenza al 95% per \(p\), usiamo l'approssimazione normale (valida per \(n\) grande e \(np, n(1-p) \geq 5\)):

\[ \hat{p} \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Intervallo di Wilson (più accurato per piccoli campioni):

\[ \frac{\hat{p} + \frac{z^2}{2n} \pm z\sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1 + \frac{z^2}{n}} \]

dove \(z = 1.96\) per il 95% di confidenza.

Esempio Pratico Completo

Problema: Un test medico per una malattia rara dà esito positivo o negativo. Testiamo 200 pazienti e 15 risultano positivi. Stimiamo la probabilità \(p\) di test positivo.

Dati: \(n = 200\), \(S = 15\)

Passo 1: Stima MLE

\[ \hat{p} = \frac{S}{n} = \frac{15}{200} = 0.075 \]

Passo 2: Errore standard

\[ \widehat{\text{SE}} = \sqrt{\frac{0.075 \cdot 0.925}{200}} = \sqrt{\frac{0.0694}{200}} \approx 0.0186 \]

Passo 3: Intervallo di confidenza 95%

\[ IC_{95\%} = 0.075 \pm 1.96 \times 0.0186 = 0.075 \pm 0.0365 = [0.0385, 0.1115] \]

Interpretazione: Siamo confidenti al 95% che il vero tasso di positività sia tra 3.85% e 11.15%.

Test di Ipotesi su p

Test: \(H_0: p = p_0\) contro \(H_1: p \neq p_0\)

Statistica test:

\[ Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} \sim \mathcal{N}(0,1) \quad \text{sotto } H_0 \]

Regola decisionale: Rifiutiamo \(H_0\) se \(|Z| > 1.96\) (livello 5%).

Esempio: Vogliamo testare se una moneta è equa (\(p_0 = 0.5\)). In 100 lanci otteniamo 60 teste.

\[ Z = \frac{0.6 - 0.5}{\sqrt{\frac{0.5 \cdot 0.5}{100}}} = \frac{0.1}{0.05} = 2 \]

Poiché \(|2| > 1.96\), rifiutiamo \(H_0\) al livello 5%. La moneta sembra truccata.

Entropia

L'entropia di Shannon misura l'incertezza della distribuzione:

\[ H(X) = -\sum_{x} P(X=x) \log_2 P(X=x) \]

Per la Bernoulli:

\[ H(X) = -p\log_2 p - (1-p)\log_2(1-p) \]
  • Massima quando \(p=0.5\): \(H(X) = 1\) bit (massima incertezza)
  • Minima quando \(p=0\) o \(p=1\): \(H(X) = 0\) bit (nessuna incertezza)

Applicazioni in Machine Learning

Regressione Logistica

La regressione logistica modella \(P(Y=1|X=x)\) usando:

\[ P(Y=1|X=x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x)}} \]

Dato \(X=x\), \(Y \sim \text{Bernoulli}(p(x))\).

Loss Function (Binary Cross-Entropy)

Per addestrare modelli di classificazione binaria, si minimizza:

\[ \mathcal{L} = -\frac{1}{n}\sum_{i=1}^n [y_i \log \hat{p}_i + (1-y_i)\log(1-\hat{p}_i)] \]

Questa è la negative log-likelihood della Bernoulli.

Variabili e Simboli

Simbolo Nome Descrizione
\(X\) Variabile Bernoulli Vale 0 (fallimento) o 1 (successo)
\(p\) Probabilità di successo Parametro \(\in [0,1]\)
\(E[X]\) Valore atteso \(p\)
\(\text{Var}(X)\) Varianza \(p(1-p)\)
\(\hat{p}\) Stima MLE \(\sum x_i / n\)
\(n\) Numero di prove Dimensione campionaria
\(S\) Numero di successi \(\sum_{i=1}^n x_i\)

Errori Comuni

  1. Confondere Bernoulli e Binomiale: Bernoulli è una singola prova, Binomiale conta successi in \(n\) prove.

  2. Usare intervalli simmetrici per \(p\) vicino a 0 o 1: L'intervallo normale può dare valori fuori \([0,1]\). Usare l'intervallo di Wilson.

  3. Dimenticare che \(X^2 = X\): Per Bernoulli, \(X\) è 0 o 1, quindi \(X^2 = X\). Questo semplifica molti calcoli.

  4. Interpretare \(p=0.5\) come "meno informativo": È il più informativo in termini di entropia — la massima incertezza.

Concetti Correlati

Riferimenti

  • Bernoulli, J. (1713). Ars Conjectandi. Basel: Thurneysen Brothers.
  • Feller, W. (1968). An Introduction to Probability Theory and Its Applications, Vol. 1. Wiley.
  • Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury Press.