まとめ
- El R² ajustado corrige el R² clásico según el número de variables, reduciendo el optimismo cuando el modelo se complica.
- Calcula R² y R² ajustado en Python para ver cómo divergen al añadir predictores.
- Entiende sus limitaciones con pocas muestras y cómo combinarlo con otros criterios.
1. Definición #
$$ \mathrm{R}^2_{\mathrm{aj}} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1} $$
- \(n\): número de muestras, \(p\): número de predictores.
- Si \(p\) aumenta y el ajuste no mejora, el término hace descender el R² ajustado.
2. Ejemplo en Python #
import numpy as np
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
X, y = make_regression(
n_samples=1_000,
n_features=10,
n_informative=6,
noise=5.0,
random_state=0,
)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=0
)
model = LinearRegression()
model.fit(X_train, y_train)
r2 = model.score(X_test, y_test)
n, p = X_test.shape
adj_r2 = 1 - (1 - r2) * (n - 1) / (n - p - 1)
print(f"R2 = {r2:.3f}")
print(f"R2 ajustado = {adj_r2:.3f}")
Asegúrate de que \(n - p - 1 > 0\); si no, reduce variables o amplía el conjunto de validación.
3. Cuándo utilizarlo #
- Selección de variables: desalienta añadir predictores irrelevantes; si el R² ajustado baja, la nueva variable aporta ruido.
- Muestras pequeñas: las fluctuaciones aumentan; valida con cross-validation para confirmar mejoras.
- Comparar modelos: dentro del mismo dataset, recompensa soluciones más parsimoniosas.
4. Relación con otras métricas #
| Métrica | Ventaja | Precaución |
|---|---|---|
| R² | Explicación de varianza intuitiva | Siempre crece al añadir variables |
| R² ajustado | Penaliza el número de predictores | Inestable con muestras muy pequeñas |
| AIC / BIC | Likelihood + penalización | Requiere supuestos de verosimilitud correctos |
Resumen #
- El R² ajustado modera el R² penalizando la complejidad, y revela si realmente compensa añadir variables.
- Úsalo junto a R², AIC/BIC o validación cruzada para juzgar la calidad del modelo.
- Vigila la relación muestra/variables; la métrica solo se comporta bien si el denominador permanece positivo.