R² ajustado

Creado: 2019-05-01 Última actualización: 2020-04-08 Tiempo de lectura: 2 min

まとめ

El R² ajustado corrige el R² clásico según el número de variables, reduciendo el optimismo cuando el modelo se complica.
Calcula R² y R² ajustado en Python para ver cómo divergen al añadir predictores.
Entiende sus limitaciones con pocas muestras y cómo combinarlo con otros criterios.

1. Definición #

$$ \mathrm{R}^2_{\mathrm{aj}} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1} $$

$n$: número de muestras, $p$: número de predictores.
Si $p$ aumenta y el ajuste no mejora, el término hace descender el R² ajustado.

2. Ejemplo en Python #

import numpy as np
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X, y = make_regression(
    n_samples=1_000,
    n_features=10,
    n_informative=6,
    noise=5.0,
    random_state=0,
)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=0
)

model = LinearRegression()
model.fit(X_train, y_train)

r2 = model.score(X_test, y_test)
n, p = X_test.shape
adj_r2 = 1 - (1 - r2) * (n - 1) / (n - p - 1)

print(f"R2 = {r2:.3f}")
print(f"R2 ajustado = {adj_r2:.3f}")

Asegúrate de que $n - p - 1 > 0$; si no, reduce variables o amplía el conjunto de validación.

3. Cuándo utilizarlo #

Selección de variables: desalienta añadir predictores irrelevantes; si el R² ajustado baja, la nueva variable aporta ruido.
Muestras pequeñas: las fluctuaciones aumentan; valida con cross-validation para confirmar mejoras.
Comparar modelos: dentro del mismo dataset, recompensa soluciones más parsimoniosas.

4. Relación con otras métricas #

Métrica	Ventaja	Precaución
R²	Explicación de varianza intuitiva	Siempre crece al añadir variables
R² ajustado	Penaliza el número de predictores	Inestable con muestras muy pequeñas
AIC / BIC	Likelihood + penalización	Requiere supuestos de verosimilitud correctos

Resumen #

El R² ajustado modera el R² penalizando la complejidad, y revela si realmente compensa añadir variables.
Úsalo junto a R², AIC/BIC o validación cruzada para juzgar la calidad del modelo.
Vigila la relación muestra/variables; la métrica solo se comporta bien si el denominador permanece positivo.