Vai al contenuto

Indipendenza e Identica Distribuzione (i.i.d.)

La Storia Dietro l'Assunzione

L'acronimo i.i.d. (indipendenti e identicamente distribuite) è una pietra angolare della statistica moderna, ma le sue radici affondano nello studio dei giochi d'azzardo del XVII secolo.

Matematici come Gerolamo Cardano (1501-1576) e Blaise Pascal (1623-1662) inturono che per calcolare le probabilità nei dadi o nelle carte, ogni "mano" o lancio doveva essere trattato come un evento isolato, non influenzato dai precedenti, e governato dalle stesse regole fisiche. Tuttavia, la formalizzazione rigorosa arrivò molto più tardi.

Jacob Bernoulli (1654-1705), nella sua opera postuma Ars Conjectandi (1713), fu il primo a utilizzare esplicitamente queste assunzioni per dimostrare la Legge dei Grandi Numeri. Egli ragionò su processi ripetuti (come estrazioni da un'urna con reimmissione) dove ogni prova era una copia esatta e separata delle altre.

Solo nel XX secolo, con l'assiomatizzazione della probabilità da parte di Andrey Kolmogorov (1933), il concetto di indipendenza stocastica ricevette la definizione matematica precisa basata sulla teoria della misura che usiamo oggi (\(P(A \cap B) = P(A)P(B)\)).

Oggi, l'assunzione i.i.d. è il "modello zero" di quasi ogni algoritmo di Machine Learning e inferenza statistica: assumiamo che i dati che osserviamo siano pescti a caso dallo stesso "sacco" (distribuzione) e che pescarne uno non cambi cosa troveremo dopo.

Perché Importa

L'assunzione i.i.d. è ciò che rende la statistica trattabile. Senza di essa: 1. Complessità: Se ogni dato influenzasse gli altri (dipendenza), dovremmo modellare interazioni complesse (\(N\) dati richiederebbero di stimare \(N^2\) relazioni). 2. Generalizzazione: Se ogni dato seguisse una regola diversa (non identica distribuzione), non potremmo imparare nulla dal passato per predire il futuro.

È fondamentale per: - Test di Ipotesi: Il t-test o l'ANOVA assumono che i gruppi siano campioni i.i.d. - Machine Learning: Il set di training e di test devono provenire dalla stessa distribuzione (identica) ed essere indipendenti, altrimenti il modello non generalizza (overfitting o data leakage). - Teorema del Limite Centrale: Funziona (nella sua forma base) solo per variabili i.i.d.

Prerequisiti

  • Probability-Axioms (Concetti base di probabilità)
  • Variabili Aleatorie e Distribuzioni di Probabilità
  • Varianza (Misura della dispersione)
  • Covariance (Misura della dipendenza lineare)

Il Concetto

Una sequenza di variabili aleatorie \(X_1, X_2, \ldots, X_n\) si dice i.i.d. se soddisfa due condizioni separate ma simultanee:

  1. Indipendenza: Il valore assunto da una variabile non fornisce alcuna informazione sul valore delle altre.
  2. Identica Distribuzione: Ogni variabile proviene dalla stessa distribuzione di probabilità, con gli stessi parametri (es. stessa media \(\mu\) e varianza \(\sigma^2\)).

1. Indipendenza (Formalmente)

Due variabili \(X\) e \(Y\) sono indipendenti se la probabilità congiunta è il prodotto delle probabilità marginali.

Per eventi discreti:

\[ P(X=x \text{ e } Y=y) = P(X=x) \cdot P(Y=y) \]

In termini di densità di probabilità (PDF) per variabili continue:

\[ f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y) \]

Intuitivamente: Sapere che \(X\) è alto non cambia la mia scommessa su \(Y\). La covarianza tra loro è zero: \(\text{Cov}(X, Y) = 0\) (nota: l'inverso non è sempre vero, covarianza zero non implica indipendenza totale, ma l'indipendenza implica covarianza zero).

2. Identica Distribuzione (Formalmente)

Le variabili \(X_1\) e \(X_2\) sono identicamente distribuite se hanno la stessa Funzione di Ripartizione (CDF):

\[ P(X_1 \le x) = P(X_2 \le x) \quad \text{per ogni } x \]

Intuitivamente: Il meccanismo che genera i dati non cambia nel tempo. Non stiamo cambiando il dado, non stiamo cambiando la moneta, e il processo fisico rimane stabile.

Esempi e Controesempi: Capire le Sfumature

Per capire veramente i.i.d., analizziamo i 4 casi possibili incrociando le due proprietà.

Caso 1: i.i.d. (L'Ideale)

Scenario: Lanciamo lo stesso dado onesto 10 volte. - Indipendenti? Sì. Il risultato del primo lancio non influenza fisicamente il secondo. Il dado non ha "memoria". - Identiche? Sì. Il dado è sempre lo stesso (ha sempre 6 facce, probabilità 1/6 per ognuna). - Risultato: Possiamo usare la Legge dei Grandi Numeri per dire che la media dei lanci tenderà a 3.5.

Caso 2: Indipendenti ma NON Identiche

Scenario: Lanciamo prima un dado a 6 facce, poi un dado a 20 facce. - Indipendenti? Sì. Il lancio del primo dado non tocca il secondo. - Identiche? No. Il primo ha valori in \([1,6]\), il secondo in \([1,20]\). Hanno medie e varianze diverse. - Conseguenza: Non ha senso calcolare una "media campionaria" semplice per stimare un singolo parametro, perché i dati provengono da "popolazioni" diverse.

Caso 3: Identiche ma NON Indipendenti

Scenario: Estrazione di carte da un mazzo senza reimmissione (o le previsioni meteo). - Identiche? Sì (in senso marginale). Se mescolo il mazzo e prendo la prima carta, la probabilità che sia un Asso è 4/52. Se non so nulla della prima e guardo solo la seconda, la probabilità a priori è ancora 4/52. Marginalmente, ogni estrazione ha la stessa distribuzione. - Indipendenti? No. Se la prima carta è un Asso di Cuori, la seconda non può essere l'Asso di Cuori. La probabilità condizionata cambia drasticamente. Se oggi piove, è più probabile che piova anche domani rispetto a un giorno a caso. - Conseguenza: La varianza della somma non è la somma delle varianze. L'informazione "doppia" conta meno di due informazioni nuove.

Caso 4: Né Indipendenti né Identiche

Scenario: Il prezzo di un'azione in borsa durante una crisi. - Identiche? No. La volatilità (varianza) cambia nel tempo; oggi il mercato è calmo, domani impazzisce. La distribuzione cambia regime. - Indipendenti? No. Il prezzo di oggi dipende fortemente dal prezzo di ieri (autocorrelazione). - Conseguenza: Servono modelli complessi (come i processi stocastici, GARCH, o serie temporali) per analizzare questi dati. Le formule statistiche base falliscono.

Implicazioni Matematiche (Semplificazioni)

L'assunzione i.i.d. semplifica drasticamente i calcoli.

1. Valore Atteso del Prodotto

Se \(X, Y\) sono indipendenti:

\[ E[XY] = E[X]E[Y] \]

(Senza indipendenza, dovremmo conoscere la correlazione).

2. Varianza della Somma

Se \(X, Y\) sono indipendenti:

\[ \text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) \]

Se non lo fossero:

\[ \text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y) \]

Questo spiega perché la varianza della media campionaria \(\bar{X}\) scende come \(1/n\): i termini di covarianza sono tutti zero.

3. Funzione di Verosimiglianza (Likelihood)

Per stimare parametri (es. Maximum Likelihood Estimation), dobbiamo calcolare la probabilità di osservare tutto il campione \(x_1, \ldots, x_n\). Grazie all'indipendenza, questa è semplicemente il prodotto delle singole probabilità:

\[ L(\theta) = P(x_1, \ldots, x_n | \theta) = \prod_{i=1}^n P(x_i | \theta) \]

Trasformando in logaritmi (\(\log L\)), il prodotto diventa una somma, che è molto facile da massimizzare (derivare).

Errori Comuni

  1. Gambler's Fallacy (Fallacia dello Scommettitore): Credere che se un evento i.i.d. (es. "Rosso" alla roulette) non esce da molto, sia "dovuto" o più probabile al prossimo giro. Realtà: Se è i.i.d., la moneta non ha memoria. La probabilità è sempre 50%.

  2. Ignorare l'Autocorrelazione: Trattare dati temporali (es. vendite giornaliere) come i.i.d. quando in realtà le vendite di oggi dipendono da quelle di ieri. Conseguenza: Si sottostima l'incertezza (Standard Error troppo piccolo) e si vedono pattern dove non ce ne sono.

  3. Bias di Selezione: Raccogliere dati solo da un sottogruppo (es. sondaggio solo su chi ha un telefono fisso) viola l'assunzione che i dati siano identicamente distribuiti rispetto alla popolazione target.

Variabili e Simboli

Simbolo Nome Descrizione
\(X_i \sim D\) Variabile Aleatoria L'\(i\)-esima osservazione distribuita secondo la distribuzione \(D\)
\(\perp\) o \(\perp \! \! \perp\) Simbolo di Indipendenza \(X \perp Y\) significa che X e Y sono indipendenti
\(F_X(x)\) CDF (Ripartizione) Probabilità \(P(X \le x)\). Definisce la distribuzione
\(f_X(x)\) PDF/PMF (Densità/Massa) Probabilità puntuale o densità in \(x\)
\(\text{Cov}(X,Y)\) Covarianza Misura della dipendenza lineare. Se i.i.d., è 0
\(\mathcal{L}(\theta)\) Likelihood Funzione di verosimiglianza, prodotto delle densità marginali sotto i.i.d.

Concetti Correlati

Riferimenti

  • Bernoulli, J. (1713). Ars Conjectandi. Basilea. (Prima applicazione formale su prove ripetute).
  • Kolmogorov, A. N. (1933). Foundations of the Theory of Probability. (Definizione assiomatica di indipendenza).
  • Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury Press. (Testo standard per le definizioni formali).