R-Quadrato¶

La Formula¶

\[ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} \]

Dove: * \(SS_{\text{res}} = \sum (y_i - \hat{y}_i)^2\) (Somma dei Quadrati dei Residui) * \(SS_{\text{tot}} = \sum (y_i - \bar{y})^2\) (Somma Totale dei Quadrati)

Nella Regressione Lineare Semplice, è anche semplicemente il quadrato del coefficiente di correlazione:

\[ R^2 = r^2 \]

Cosa Significa¶

\(R^2\) (coefficiente di determinazione) rappresenta la proporzione della varianza di una variabile dipendente che viene spiegata da una variabile indipendente (o variabili) in un modello di regressione.

Varia da 0 a 1 (di solito): * \(R^2 = 0\): Il modello non spiega nulla della variabilità dei dati attorno alla media. * \(R^2 = 1\): Il modello spiega tutta la variabilità. Le previsioni sono perfette.

Pensalo come un voto per il tuo modello: "Il mio modello spiega l'85% del motivo per cui i dati appaiono in questo modo."

Perché Funziona — L'Intuizione¶

Immagina di voler indovinare un valore \(y\) senza sapere nient'altro. La tua ipotesi migliore è la media (\(\bar{y}\)). L'errore totale di questo "modello medio" ingenuo è la Somma Totale dei Quadrati (\(SS_{\text{tot}}\)).

Ora, costruisci un modello di regressione. Questo fa previsioni \(\hat{y}\). L'errore di questo modello è la Somma dei Quadrati dei Residui (\(SS_{\text{res}}\)).

Se il modello è perfetto, \(SS_{\text{res}} = 0\), quindi \(R^2 = 1 - 0 = 1\).
Se il modello non è migliore della semplice media, \(SS_{\text{res}} \approx SS_{\text{tot}}\), quindi \(R^2 = 1 - 1 = 0\).

\(R^2\) misura letteralmente quanto errore in meno hai rispetto al modello medio di base.

Derivazione¶

La derivazione si basa sulla scomposizione della varianza. La variazione totale in \(y\) può essere divisa in due parti: 1. Variazione spiegata dal modello (\(SS_{\text{reg}}\)) 2. Variazione non spiegata dal modello (\(SS_{\text{res}}\))

\[ SS_{\text{tot}} = SS_{\text{reg}} + SS_{\text{res}} \]

(Nota: questa uguaglianza vale esattamente solo per la regressione OLS con intercetta.)

Definiamo \(R^2\) come la frazione di variazione spiegata:

\[ R^2 = \frac{SS_{\text{reg}}}{SS_{\text{tot}}} \]

Usando l'identità sopra (\(SS_{\text{reg}} = SS_{\text{tot}} - SS_{\text{res}}\)):

\[ R^2 = \frac{SS_{\text{tot}} - SS_{\text{res}}}{SS_{\text{tot}}} = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} \]

Variabili Spiegate¶

Simbolo	Nome	Descrizione
\(R^2\)	Coefficiente di Determinazione	Proporzione di varianza spiegata
\(SS_{\text{tot}}\)	Somma Totale Quadrati	Varianza dei dati dalla media (La "Base")
\(SS_{\text{res}}\)	Somma Quadrati Residui	Varianza dei dati dal modello (Il "Rimasto")
\(y_i\)	Valore Reale	Punto dati osservato
\(\hat{y}_i\)	Valore Predetto	Valore predetto dalla retta di regressione
\(\bar{y}\)	Media	Media dei valori \(y\) osservati

Esempio Pratico¶

Dati: \(y = [10, 20, 30]\). Media \(\bar{y} = 20\). Previsioni Modello: \(\hat{y} = [12, 18, 30]\).

Calcola \(SS_{\text{tot}}\) (Errore Base):
- \((10-20)^2 + (20-20)^2 + (30-20)^2 = 200\)
Calcola \(SS_{\text{res}}\) (Errore Modello):
- \((10-12)^2 + (20-18)^2 + (30-30)^2\)
- \(4 + 4 + 0 = 8\)
Calcola \(R^2\):
- \(R^2 = 1 - \frac{8}{200} = 0.96\)

Il modello spiega il 96% della varianza.

Errori Comuni¶

"Più alto è sempre meglio": Falso. Puoi aumentare \(R^2\) solo aggiungendo variabili spazzatura (overfitting). Usa \(R^2\) Corretto per penalizzare la complessità.
\(R^2\) basso significa modello cattivo: Non sempre. Nelle scienze sociali, un \(R^2\) di 0.3 può essere significativo.