Vai al contenuto

R-Quadrato

La Formula

\[ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} \]

Dove: * \(SS_{\text{res}} = \sum (y_i - \hat{y}_i)^2\) (Somma dei Quadrati dei Residui) * \(SS_{\text{tot}} = \sum (y_i - \bar{y})^2\) (Somma Totale dei Quadrati)

Nella Regressione Lineare Semplice, è anche semplicemente il quadrato del coefficiente di correlazione:

\[ R^2 = r^2 \]

Cosa Significa

\(R^2\) (coefficiente di determinazione) rappresenta la proporzione della varianza di una variabile dipendente che viene spiegata da una variabile indipendente (o variabili) in un modello di regressione.

Varia da 0 a 1 (di solito): * \(R^2 = 0\): Il modello non spiega nulla della variabilità dei dati attorno alla media. * \(R^2 = 1\): Il modello spiega tutta la variabilità. Le previsioni sono perfette.

Pensalo come un voto per il tuo modello: "Il mio modello spiega l'85% del motivo per cui i dati appaiono in questo modo."

Perché Funziona — L'Intuizione

Immagina di voler indovinare un valore \(y\) senza sapere nient'altro. La tua ipotesi migliore è la media (\(\bar{y}\)). L'errore totale di questo "modello medio" ingenuo è la Somma Totale dei Quadrati (\(SS_{\text{tot}}\)).

Ora, costruisci un modello di regressione. Questo fa previsioni \(\hat{y}\). L'errore di questo modello è la Somma dei Quadrati dei Residui (\(SS_{\text{res}}\)).

  • Se il modello è perfetto, \(SS_{\text{res}} = 0\), quindi \(R^2 = 1 - 0 = 1\).
  • Se il modello non è migliore della semplice media, \(SS_{\text{res}} \approx SS_{\text{tot}}\), quindi \(R^2 = 1 - 1 = 0\).

\(R^2\) misura letteralmente quanto errore in meno hai rispetto al modello medio di base.

Derivazione

La derivazione si basa sulla scomposizione della varianza. La variazione totale in \(y\) può essere divisa in due parti: 1. Variazione spiegata dal modello (\(SS_{\text{reg}}\)) 2. Variazione non spiegata dal modello (\(SS_{\text{res}}\))

\[ SS_{\text{tot}} = SS_{\text{reg}} + SS_{\text{res}} \]

(Nota: questa uguaglianza vale esattamente solo per la regressione OLS con intercetta.)

Definiamo \(R^2\) come la frazione di variazione spiegata:

\[ R^2 = \frac{SS_{\text{reg}}}{SS_{\text{tot}}} \]

Usando l'identità sopra (\(SS_{\text{reg}} = SS_{\text{tot}} - SS_{\text{res}}\)):

\[ R^2 = \frac{SS_{\text{tot}} - SS_{\text{res}}}{SS_{\text{tot}}} = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} \]

Variabili Spiegate

Simbolo Nome Descrizione
\(R^2\) Coefficiente di Determinazione Proporzione di varianza spiegata
\(SS_{\text{tot}}\) Somma Totale Quadrati Varianza dei dati dalla media (La "Base")
\(SS_{\text{res}}\) Somma Quadrati Residui Varianza dei dati dal modello (Il "Rimasto")
\(y_i\) Valore Reale Punto dati osservato
\(\hat{y}_i\) Valore Predetto Valore predetto dalla retta di regressione
\(\bar{y}\) Media Media dei valori \(y\) osservati

Esempio Pratico

Dati: \(y = [10, 20, 30]\). Media \(\bar{y} = 20\). Previsioni Modello: \(\hat{y} = [12, 18, 30]\).

  1. Calcola \(SS_{\text{tot}}\) (Errore Base):

    • \((10-20)^2 + (20-20)^2 + (30-20)^2 = 200\)
  2. Calcola \(SS_{\text{res}}\) (Errore Modello):

    • \((10-12)^2 + (20-18)^2 + (30-30)^2\)
    • \(4 + 4 + 0 = 8\)
  3. Calcola \(R^2\):

    • \(R^2 = 1 - \frac{8}{200} = 0.96\)

Il modello spiega il 96% della varianza.

Errori Comuni

  • "Più alto è sempre meglio": Falso. Puoi aumentare \(R^2\) solo aggiungendo variabili spazzatura (overfitting). Usa \(R^2\) Corretto per penalizzare la complessità.
  • \(R^2\) basso significa modello cattivo: Non sempre. Nelle scienze sociali, un \(R^2\) di 0.3 può essere significativo.

Formule Correlate