R² ajustado

Eval

R² ajustado

まとめ
  • El R² ajustado corrige el R² clásico según el número de variables, reduciendo el optimismo cuando el modelo se complica.
  • Calcula R² y R² ajustado en Python para ver cómo divergen al añadir predictores.
  • Entiende sus limitaciones con pocas muestras y cómo combinarlo con otros criterios.

1. Definición #

$$ \mathrm{R}^2_{\mathrm{aj}} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1} $$

  • \(n\): número de muestras, \(p\): número de predictores.
  • Si \(p\) aumenta y el ajuste no mejora, el término hace descender el R² ajustado.

2. Ejemplo en Python #

import numpy as np
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X, y = make_regression(
    n_samples=1_000,
    n_features=10,
    n_informative=6,
    noise=5.0,
    random_state=0,
)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=0
)

model = LinearRegression()
model.fit(X_train, y_train)

r2 = model.score(X_test, y_test)
n, p = X_test.shape
adj_r2 = 1 - (1 - r2) * (n - 1) / (n - p - 1)

print(f"R2 = {r2:.3f}")
print(f"R2 ajustado = {adj_r2:.3f}")

Asegúrate de que \(n - p - 1 > 0\); si no, reduce variables o amplía el conjunto de validación.


3. Cuándo utilizarlo #

  • Selección de variables: desalienta añadir predictores irrelevantes; si el R² ajustado baja, la nueva variable aporta ruido.
  • Muestras pequeñas: las fluctuaciones aumentan; valida con cross-validation para confirmar mejoras.
  • Comparar modelos: dentro del mismo dataset, recompensa soluciones más parsimoniosas.

4. Relación con otras métricas #

MétricaVentajaPrecaución
Explicación de varianza intuitivaSiempre crece al añadir variables
R² ajustadoPenaliza el número de predictoresInestable con muestras muy pequeñas
AIC / BICLikelihood + penalizaciónRequiere supuestos de verosimilitud correctos

Resumen #

  • El R² ajustado modera el R² penalizando la complejidad, y revela si realmente compensa añadir variables.
  • Úsalo junto a R², AIC/BIC o validación cruzada para juzgar la calidad del modelo.
  • Vigila la relación muestra/variables; la métrica solo se comporta bien si el denominador permanece positivo.