Stimatore della Media Campionaria¶

La Storia Dietro la Matematica¶

La media aritmetica è probabilmente il concetto statistico più antico e intuitivo nella storia dell'umanità. Già gli antichi Babilonesi (circa 2000 a.C.) calcolavano medie per distribuire equamente risorse e terre. Tuttavia, l'uso della media come stimatore statistico — un modo sistematico per inferire il valore "vero" di una popolazione da un campione — è un'idea molto più recente.

Carl Friedrich Gauss (1777-1855) fu tra i primi a formalizzare matematicamente la media campionaria. Nel 1809, mentre lavorava su problemi di astronomia e geodesia, Gauss si chiedeva: "Se faccio \(n\) misurazioni di una stessa quantità (come la posizione di un pianeta), e ogni misurazione ha un errore casuale, quale valore finale dovrei riportare?"

Gauss dimostrò che se gli errori seguono una distribuzione normale (che lui stesso aveva caratterizzato), la media aritmetica è lo stimatore ottimale — quello che minimizza l'errore quadratico medio. Questa scoperta fu rivoluzionaria: trasformò la media da semplice "centro dei dati" a strumento di inferenza con proprietà matematiche dimostrabili.

Pierre-Simon Laplace (1749-1827) aveva già usato la media nei suoi lavori sulla teoria delle probabilità, ma fu Gauss a stabilirne il primato teorico. Nella sua monumentale "Theoria Motus Corporum Coelestium" (1809), Gauss scrisse:

"La media aritmetica di molte osservazioni è sempre più affidabile di una singola osservazione."

Questo principio, oggi ovvio, all'epoca non lo era affatto. La formalizzazione matematica di Gauss fornì le basi per tutta la statistica moderna.

Nel XX secolo, Ronald Fisher dimostrò che la media campionaria non è solo "buona", ma ottimale in un senso preciso: tra tutti gli stimatori non distorti della media di una popolazione normale, la media campionaria ha la varianza minima (è lo stimatore UMVUE - Uniformly Minimum Variance Unbiased Estimator). Questa proprietà, nota come efficienza, completa la giustificazione teorica del perché la media campionaria è così universalmente utilizzata.

Perché Importa¶

Lo stimatore della media campionaria è il fondamento di quasi tutte le analisi statistiche. Viene utilizzato in:

Sondaggi: stimare l'opinione media di una popolazione da un campione
Esperimenti scientifici: combinare misurazioni ripetute per ridurre l'errore
Controllo di qualità: monitorare il valore medio di un processo produttivo
Machine Learning: calcolare statistiche dei dati per normalizzazione e preprocessing
Economia: stimare il reddito medio, la crescita media del PIL, ecc.
Medicina: confrontare l'efficacia media di trattamenti in trial clinici

Senza una comprensione rigorosa della media campionaria e delle sue proprietà, non potremmo quantificare l'incertezza delle nostre stime né costruire intervalli di confidenza o test di ipotesi.

Prerequisiti¶

Concetto di variabile aleatoria e distribuzione
Valore Atteso (media di una distribuzione)
Varianza e proprietà della varianza
Indipendenza di variabili aleatorie

Lo Stimatore¶

Supponiamo di avere un campione casuale di \(n\) osservazioni \(X_1, X_2, \ldots, X_n\) da una popolazione con media (ignota) \(\mu\) e varianza \(\sigma^2\). Le osservazioni sono indipendenti e identicamente distribuite (i.i.d.).

Lo stimatore della media campionaria è:

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \]

Distinzione cruciale: - \(\mu\) è un parametro fisso (ma ignoto) della popolazione - \(\bar{X}\) è uno stimatore — una variabile aleatoria che dipende dal campione - \(\bar{x}\) è la stima — il valore numerico calcolato da un campione specifico \(x_1, \ldots, x_n\)

Derivazione delle Proprietà¶

Proprietà 1: Non Distorsione (Unbiasedness)¶

Uno stimatore è non distorto se il suo valore atteso è uguale al parametro vero. Dimostriamo che \(E[\bar{X}] = \mu\).

Dimostrazione:

Per definizione:

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \]

Prendiamo il valore atteso di entrambi i lati:

\[ E[\bar{X}] = E\left[\frac{1}{n}\sum_{i=1}^n X_i\right] \]

Proprietà chiave: Il valore atteso è un operatore lineare, quindi possiamo portarlo dentro la somma e estrarre le costanti:

\[ E[\bar{X}] = \frac{1}{n} E\left[\sum_{i=1}^n X_i\right] \]

Per la linearità del valore atteso, la somma di valori attesi è il valore atteso della somma:

\[ E[\bar{X}] = \frac{1}{n} \sum_{i=1}^n E[X_i] \]

Assunzione i.i.d.: Poiché tutte le \(X_i\) provengono dalla stessa popolazione, \(E[X_i] = \mu\) per ogni \(i\):

\[ E[\bar{X}] = \frac{1}{n} \sum_{i=1}^n \mu = \frac{1}{n} \cdot n\mu = \mu \]

Conclusione: \(E[\bar{X}] = \mu\). La media campionaria è uno stimatore non distorto della media della popolazione.

Interpretazione: Se ripetessimo infinite volte il campionamento e calcolassimo \(\bar{X}\) ogni volta, il valore medio di tutte queste stime convergerebbe esattamente a \(\mu\). Non c'è bias sistematico.

Proprietà 2: Varianza della Media Campionaria¶

La varianza di \(\bar{X}\) misura quanto le stime fluttuano attorno a \(\mu\) tra campioni diversi. Dimostriamo che:

\[ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} \]

Dimostrazione:

Per definizione:

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \]

Prendiamo la varianza:

\[ \text{Var}(\bar{X}) = \text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) \]

Proprietà chiave: Per una costante \(c\), \(\text{Var}(cY) = c^2 \text{Var}(Y)\). Quindi possiamo estrarre \(\frac{1}{n}\) come \(\frac{1}{n^2}\):

\[ \text{Var}(\bar{X}) = \frac{1}{n^2} \text{Var}\left(\sum_{i=1}^n X_i\right) \]

Assunzione di indipendenza: Se \(X_1, \ldots, X_n\) sono indipendenti, la varianza della somma è la somma delle varianze:

\[ \text{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \text{Var}(X_i) \]

Perché? Per variabili indipendenti, non c'è covarianza:

\[ \text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X,Y) \]

Se \(X \perp Y\), allora \(\text{Cov}(X,Y) = 0\).

Assunzione identica distribuzione: Ogni \(X_i\) ha la stessa varianza \(\sigma^2\):

\[ \sum_{i=1}^n \text{Var}(X_i) = \sum_{i=1}^n \sigma^2 = n\sigma^2 \]

Sostituendo:

\[ \text{Var}(\bar{X}) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n} \]

Conclusione: La varianza della media campionaria è \(\frac{\sigma^2}{n}\).

Interpretazione cruciale: - La varianza diminuisce con \(n\) (più dati → stime più precise) - Diminuisce con \(\frac{1}{n}\), non \(\frac{1}{n^2}\) - Per dimezzare la deviazione standard di \(\bar{X}\), serve 4 volte i dati (perché \(\text{SD}(\bar{X}) = \frac{\sigma}{\sqrt{n}}\))

Proprietà 3: Standard Error (Errore Standard della Media)¶

La deviazione standard di \(\bar{X}\) è chiamata errore standard della media (SEM):

\[ \text{SE}(\bar{X}) = \sqrt{\text{Var}(\bar{X})} = \frac{\sigma}{\sqrt{n}} \]

Problema pratico: Nella realtà, \(\sigma\) è ignoto. Come stimiamo SE?

Usiamo la deviazione standard campionaria \(s\) come stima di \(\sigma\):

\[ s = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2} \]

Perché \(n-1\) e non \(n\)? Usiamo \(n-1\) per ottenere uno stimatore non distorto di \(\sigma^2\) (correzione di Bessel). Quando calcoliamo \((x_i - \bar{x})^2\), usiamo \(\bar{x}\) invece del vero \(\mu\). Questo introduce una dipendenza che "consuma" un grado di libertà.

Lo stimatore dell'errore standard è:

\[ \widehat{\text{SE}}(\bar{X}) = \frac{s}{\sqrt{n}} \]

Interpretazione: Lo standard error misura la precisione della nostra stima. Un SE piccolo significa che ripetendo l'esperimento, otterremmo stime di \(\bar{X}\) simili. Un SE grande significa alta variabilità.

Esempio numerico: Se misuriamo altezze di studenti con \(s = 10\) cm e \(n = 100\):

\[ \widehat{\text{SE}} = \frac{10}{\sqrt{100}} = \frac{10}{10} = 1 \text{ cm} \]

Questo significa che se ripetessimo il campionamento, la media campionaria fluttuerebbe tipicamente di circa 1 cm attorno al valore vero \(\mu\).

Proprietà 4: Distribuzione Campionaria (Caso Normale)¶

Se i dati provengono da una distribuzione normale \(X_i \sim \mathcal{N}(\mu, \sigma^2)\), allora la media campionaria ha distribuzione:

\[ \bar{X} \sim \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right) \]

Dimostrazione intuitiva:

La somma di variabili normali indipendenti è ancora normale. Se \(X_i \sim \mathcal{N}(\mu, \sigma^2)\) e sono indipendenti:

\[ \sum_{i=1}^n X_i \sim \mathcal{N}(n\mu, n\sigma^2) \]

Dividendo per \(n\) (trasformazione lineare):

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \sim \mathcal{N}\left(\frac{n\mu}{n}, \frac{n\sigma^2}{n^2}\right) = \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right) \]

Standardizzazione: Possiamo standardizzare \(\bar{X}\):

\[ Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim \mathcal{N}(0, 1) \]

Questa è la base per costruire intervalli di confidenza e test di ipotesi.

Caso con \(\sigma\) ignoto: Se sostituiamo \(\sigma\) con la sua stima \(s\), la statistica diventa:

\[ T = \frac{\bar{X} - \mu}{s/\sqrt{n}} \sim t_{n-1} \]

che segue una distribuzione t di Student con \(n-1\) gradi di libertà.

Proprietà 5: Teorema del Limite Centrale (CLT)¶

Risultato straordinario: Anche se \(X_i\) non proviene da una distribuzione normale, per \(n\) sufficientemente grande, la distribuzione di \(\bar{X}\) è approssimativamente normale:

\[ \bar{X} \overset{\text{approx}}{\sim} \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{per } n \text{ grande} \]

Più precisamente:

\[ \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \overset{d}{\to} \mathcal{N}(0, 1) \quad \text{quando } n \to \infty \]

Implicazioni: - Non serve assumere normalità dei dati per fare inferenza sulla media (se \(n\) è grande) - "Grande" dipende dalla forma della distribuzione originale. Spesso \(n \geq 30\) è sufficiente - Questo spiega perché la distribuzione normale è così onnipresente in statistica

Proprietà 6: Consistenza¶

Uno stimatore è consistente se converge al valore vero quando \(n \to \infty\):

\[ \bar{X} \overset{P}{\to} \mu \quad \text{quando } n \to \infty \]

Dimostrazione via Disuguaglianza di Chebyshev:

Per ogni \(\epsilon > 0\):

\[ P(|\bar{X} - \mu| > \epsilon) \leq \frac{\text{Var}(\bar{X})}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2} \to 0 \quad \text{quando } n \to \infty \]

Interpretazione: Con abbastanza dati, la probabilità che \(\bar{X}\) si discosti da \(\mu\) di più di qualsiasi quantità fissata \(\epsilon\) diventa arbitrariamente piccola.

Proprietà 7: Efficienza (Caso Normale)¶

Per dati normali, la media campionaria è lo stimatore UMVUE (Uniformly Minimum Variance Unbiased Estimator) di \(\mu\).

Significato: Tra tutti gli stimatori non distorti di \(\mu\), la media campionaria ha la varianza più piccola. Non esiste stimatore migliore (nel senso della varianza).

Inoltre, \(\bar{X}\) è lo stimatore MLE (Maximum Likelihood Estimator) di \(\mu\) per dati normali, come abbiamo derivato nella pagina Likelihood-Based-Statistics.

Caso Speciale: Distribuzione Bernoulliana¶

Quando la popolazione segue una distribuzione Bernoulliana \(X_i \sim \text{Bernoulli}(p)\), lo stimatore della media campionaria ha interpretazioni e proprietà speciali.

L'Impostazione¶

Per dati Bernoulliani: - Ogni \(X_i\) assume valori: \(X_i = 1\) (successo) con probabilità \(p\), \(X_i = 0\) (insuccesso) con probabilità \(1-p\) - La media della popolazione: \(\mu = E[X_i] = p\) - La varianza della popolazione: \(\sigma^2 = \text{Var}(X_i) = p(1-p)\)

Media Campionaria come Proporzione Campionaria¶

Per dati Bernoulliani, la media campionaria diventa la proporzione campionaria:

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i = \frac{\text{Numero di successi}}{n} = \hat{p} \]

Interpretazione: \(\bar{X}\) stima la vera probabilità di successo \(p\) contando la proporzione di successi nel campione.

Proprietà Specializzate per Bernoulli¶

Non distorsione:

\[ E[\bar{X}] = E[\hat{p}] = p \]

Varianza:

\[ \text{Var}(\bar{X}) = \text{Var}(\hat{p}) = \frac{\sigma^2}{n} = \frac{p(1-p)}{n} \]

Errore standard:

\[ \text{SE}(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} \]

Intuizione chiave: La varianza di \(\hat{p}\) dipende da \(p\) stesso! Questo crea una situazione unica in cui la precisione del nostro stimatore dipende dal parametro che stiamo stimando.

Varianza Massima a \(p = 0.5\)¶

La funzione \(p(1-p)\) (e quindi la varianza) è massimizzata quando \(p = 0.5\):

Varianza massima: \(\text{Var}(\hat{p})_{\max} = \frac{0.5 \times 0.5}{n} = \frac{0.25}{n}\)
Varianza minima: \(\text{Var}(\hat{p})_{\min} = 0\) quando \(p = 0\) o \(p = 1\)

Implicazione pratica: È più difficile stimare probabilità vicine a 0.5 (massima incertezza) e più facile stimare probabilità vicine a 0 o 1 (esiti quasi certi).

Errore Standard Stimato¶

Nella pratica, sostituiamo \(p\) con \(\hat{p}\):

\[ \widehat{\text{SE}}(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Esempio: In 100 prove con 35 successi:

\[ \hat{p} = 0.35, \quad \widehat{\text{SE}} = \sqrt{\frac{0.35 \times 0.65}{100}} = \sqrt{0.002275} \approx 0.0477 \]

Distribuzione Campionaria¶

Per \(n\) grande, per il Teorema del Limite Centrale:

\[ \hat{p} \overset{\text{approx}}{\sim} \mathcal{N}\left(p, \frac{p(1-p)}{n}\right) \]

L'approssimazione normale funziona bene quando \(np \geq 5\) e \(n(1-p) \geq 5\).

Connessione con Dati di Conteggio¶

La somma \(S = \sum_{i=1}^n X_i\) segue una distribuzione Binomiale:

\[ S \sim \text{Binomial}(n, p) \]

Pertanto:

\[ \hat{p} = \frac{S}{n} \]

Questa connessione spiega perché i problemi di proporzione sono fondamentalmente problemi di conteggio mascherati.

Regola Pratica per la Dimensione Campionaria¶

Per un margine di errore desiderato \(E\) al 95% di confidenza:

\[ n \approx \frac{4 \cdot p(1-p)}{E^2} \]

Dato che non conosciamo \(p\), usiamo il caso peggiore \(p = 0.5\):

\[ n \approx \frac{4 \cdot 0.25}{E^2} = \frac{1}{E^2} \]

Esempio: Per margine di errore ±3% (\(E = 0.03\)):

\[ n \approx \frac{1}{0.03^2} = \frac{1}{0.0009} \approx 1.111 \]

Questo spiega perché i sondaggi politici tipicamente richiedono circa 1.000 intervistati!

Intervallo di Confidenza per la Media¶

Un intervallo di confidenza al 95% per \(\mu\) è:

\[ \bar{x} \pm t_{n-1, 0.025} \cdot \frac{s}{\sqrt{n}} \]

dove \(t_{n-1, 0.025}\) è il quantile 97.5% della distribuzione t di Student con \(n-1\) gradi di libertà.

Interpretazione: Se ripetessimo il campionamento infinite volte e calcolassimo questo intervallo ogni volta, il 95% degli intervalli conterrebbe il vero valore \(\mu\).

Per \(n\) grande (solitamente \(n \geq 30\)), possiamo usare l'approssimazione normale:

\[ \bar{x} \pm 1.96 \cdot \frac{s}{\sqrt{n}} \]

Esempio Pratico Completo¶

Problema: Misuriamo il tempo di risposta (in ms) di un server in 25 richieste:

\[ \text{Dati: } 120, 135, 118, 142, 130, 125, 138, 122, 145, 128, 133, 127, 140, 124, 136, 129, 131, 126, 139, 123, 141, 132, 137, 121, 134 \]

Passo 1: Calcolare la media campionaria:

\[ \bar{x} = \frac{1}{25}\sum_{i=1}^{25} x_i = \frac{3260}{25} = 130.4 \text{ ms} \]

Passo 2: Calcolare la deviazione standard campionaria:

\[ s = \sqrt{\frac{1}{24}\sum_{i=1}^{25}(x_i - 130.4)^2} \approx 7.85 \text{ ms} \]

Passo 3: Calcolare lo standard error:

\[ \widehat{\text{SE}} = \frac{s}{\sqrt{n}} = \frac{7.85}{\sqrt{25}} = \frac{7.85}{5} = 1.57 \text{ ms} \]

Interpretazione: La nostra stima della media è 130.4 ms, con un errore standard di 1.57 ms.

Passo 4: Intervallo di confidenza al 95%:

Per \(n-1 = 24\) gradi di libertà, \(t_{24, 0.025} \approx 2.064\).

\[ IC_{95\%} = 130.4 \pm 2.064 \times 1.57 = 130.4 \pm 3.24 = [127.16, 133.64] \]

Interpretazione: Siamo confidenti al 95% che il vero tempo medio di risposta sia tra 127.16 ms e 133.64 ms.

Confronto con Altri Stimatori della Posizione Centrale¶

Stimatore	Formula	Vantaggi	Svantaggi
Media	\(\bar{x} = \frac{1}{n}\sum x_i\)	Non distorto, efficiente (normale), usa tutti i dati	Sensibile a outlier
Mediana	Valore centrale ordinato	Robusta a outlier	Meno efficiente (normale), perde informazione
Media Troncata	Media dopo rimozione top/bottom %	Compromesso robustezza/efficienza	Arbitrarietà nella scelta della %

Quando usare la media: - Dati approssimativamente simmetrici - Pochi o nessun outlier - Distribuzione normale o \(n\) grande (CLT)

Quando NON usare la media: - Dati fortemente asimmetrici (es. redditi) - Presenza di outlier estremi - Distribuzioni heavy-tailed

Errori Comuni¶

Confondere \(\sigma\) con \(s\): \(\sigma\) è il parametro della popolazione (fisso, ignoto), \(s\) è lo stimatore campionario (variabile aleatoria).
Confondere SE con SD:
SD (deviazione standard) misura la dispersione dei dati
SE (errore standard) misura la precisione dello stimatore
Dimenticare \(\sqrt{n}\): La precisione migliora come \(1/\sqrt{n}\), non \(1/n\). Per dimezzare l'errore serve 4 volte i dati.
Usare \(n\) invece di \(n-1\): Per stimare \(\sigma^2\), usare \(n-1\) (correzione di Bessel).
Ignorare il CLT: Anche con dati non normali, per \(n\) grande possiamo usare approssimazioni normali.

Variabili e Simboli¶

Simbolo	Nome	Descrizione
\(\mu\)	Media della popolazione	Parametro vero (fisso, ignoto)
\(\sigma^2\)	Varianza della popolazione	Parametro vero (fisso, ignoto)
\(X_i\)	Variabile aleatoria	Modello per l'\(i\)-esima osservazione
\(x_i\)	Osservazione	Valore realizzato di \(X_i\)
\(\bar{X}\)	Media campionaria (stimatore)	Variabile aleatoria \(\frac{1}{n}\sum X_i\)
\(\bar{x}\)	Stima puntuale	Valore numerico calcolato dal campione
\(s^2\)	Varianza campionaria	Stimatore di \(\sigma^2\) con denominatore \(n-1\)
\(s\)	Deviazione standard campionaria	\(\sqrt{s^2}\)
\(\text{SE}(\bar{X})\)	Errore standard	\(\sigma/\sqrt{n}\) (teorico)
\(\widehat{\text{SE}}\)	Errore standard stimato	\(s/\sqrt{n}\) (pratico)
\(n\)	Dimensione campionaria	Numero di osservazioni

Concetti Correlati¶

Standard Error — Approfondimento sull'errore standard
Confidence Interval — Costruzione di intervalli di confidenza
Student t-Distribution — Distribuzione quando \(\sigma\) è ignoto
Central Limit Theorem — Perché la media è normale per \(n\) grande
Variance — Misura di dispersione
Likelihood-Based Statistics — La media come stimatore MLE
Bernoulli Distribution — Caso speciale dove la media uguaglia la probabilità \(p\)

Riferimenti¶

Gauss, C. F. (1809). Theoria Motus Corporum Coelestium. Perthes et Besser, Hamburg.
Laplace, P. S. (1812). Théorie Analytique des Probabilités. Courcier, Paris.
Fisher, R. A. (1925). "Theory of Statistical Estimation." Proceedings of the Cambridge Philosophical Society, 22:700-725.
Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury Press.