まとめ

Ofrecer una visión completa de las métricas de regresión y cómo elegirlas.
Comparar métricas de error, de coeficiente de determinación y de intervalos/probabilidades con ejemplos en código.
Resumir cómo crear un conjunto de métricas alineado con los objetivos del negocio y las características de los datos.

Capítulo 2 #

Panorama de métricas de regresión #

En regresión hay múltiples maneras de cuantificar cuán cerca están las predicciones del valor real. Cada métrica enfatiza una perspectiva distinta—error absoluto, error cuadrático, error relativo, garantías probabilísticas—por lo que la elección depende del caso de uso. Este capítulo sitúa las métricas representativas y explica cuándo utilizar cada una.

Categorías de métricas #

Métricas basadas en el error #

Error absoluto medio (MAE): robusto frente a outliers y expresado en la misma unidad que la variable objetivo.
Raíz del error cuadrático medio (RMSE): penaliza fuertemente los errores grandes; útil cuando hay que evitar desvíos extremos.
Error absoluto porcentual medio (MAPE) / Error absoluto porcentual ponderado (WAPE): apropiados cuando los usuarios piensan en porcentajes (p. ej., forecasting de demanda).
Error absoluto medio escalado (MASE): compara contra una referencia naïve estacional.
Raíz del error cuadrático medio logarítmico (RMSLE): adecuado cuando los valores se acercan a cero o importan los ritmos de crecimiento.

Determinación y explicación de varianza #

Coeficiente de determinación (R²): medida básica de varianza explicada; puede ser negativa.
R² ajustado: corrige el sobreajuste al añadir variables.
Varianza explicada: se centra en la varianza de los residuos.

Métricas de intervalo y probabilidad #

Pérdida pinball: evalúa regresión de cuantiles o intervalos de predicción.
PICP (Prediction Interval Coverage Probability): mide con qué frecuencia los intervalos cubren el valor real.
PINAW (Prediction Interval Normalised Average Width): cuantifica lo estrechos que son los intervalos.

Flujo para escoger métricas #

Define los objetivos del negocio
Determina si importa más el error absoluto, el porcentual o penalizaciones asimétricas.
Analiza las características de los datos
Comprueba si existen valores que cruzan cero, colas pesadas/outliers o estacionalidad fuerte.
Establece baselines
Compara con pronósticos naïve, regresiones simples o la media para contextualizar mejoras.
Evalúa con métricas complementarias
Combina MAE con RMSE, o R² con R² ajustado, para abarcar perspectivas distintas.

Ejemplo: comparar métricas en paralelo #

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(42)
n = 200
y_true = rng.normal(loc=100, scale=15, size=n)
noise = rng.normal(scale=10, size=n)

baseline = y_true.mean() + rng.normal(scale=12, size=n)
model = y_true + noise
robust_model = y_true + np.clip(noise, -8, 8)

def mae(y, y_hat):
    return np.mean(np.abs(y - y_hat))

def rmse(y, y_hat):
    return np.sqrt(np.mean((y - y_hat) ** 2))

def mape(y, y_hat):
    return np.mean(np.abs((y - y_hat) / y)) * 100

scores = {
    "MAE": [mae(y_true, baseline), mae(y_true, model), mae(y_true, robust_model)],
    "RMSE": [rmse(y_true, baseline), rmse(y_true, model), rmse(y_true, robust_model)],
    "MAPE (%)": [mape(y_true, baseline), mape(y_true, model), mape(y_true, robust_model)],
}

labels = ["Baseline", "Model", "Robust"]
x = np.arange(len(labels))
width = 0.25

fig, ax = plt.subplots(figsize=(7, 4.5))
for idx, (metric, values) in enumerate(scores.items()):
    ax.bar(x + idx * width, values, width=width, label=metric)

ax.set_xticks(x + width)
ax.set_xticklabels(labels)
ax.set_ylabel("Puntuación")
ax.set_title("Comparación de métricas de regresión entre modelos")
ax.legend()
ax.grid(axis="y", alpha=0.3)
plt.tight_layout()

Comparar métricas de regresión — Cada métrica favorece un modelo distinto. MAE resalta al modelo robusto, mientras que RMSE castiga al baseline afectado por outliers. Usa métricas complementarias para confirmar que el modelo elegido se comporta como deseas.

Tabla rápida de métricas #

Categoría	Métrica	Uso principal	Precauciones
Error	MAE	Resistente a outliers, interpretación directa	No útil si el error relativo es crítico
Error	RMSE	Prioriza errores grandes	Muy sensible a outliers
Error	RMSLE	Maneja amplitudes amplias / tasas de crecimiento	No definido para valores ≤ 0
Error	MAPE / WAPE	Reporte en porcentajes	Falla con objetivos que valen 0; sobrepenaliza la subestimación
Error	MASE	Comparar frente a un pronóstico naïve estacional	Requiere estacionalidad configurada correctamente
Error	Pérdida pinball	Evaluar cuantiles / intervalos	Necesita optimización por cuantiles
Determinación	R²	Explicación de varianza	Puede ser negativo
Determinación	R² ajustado	Comparar modelos con distinta cantidad de variables	Inestable con muestras muy pequeñas
Determinación	Varianza explicada	Analizar la varianza de los residuos	Dependiente de la escala; ignora sesgo
Intervalo	PICP	Cobertura de intervalos de predicción	Revisa también el ancho del intervalo
Intervalo	PINAW	Estrechez de los intervalos	Interprétalo junto con la cobertura

Lista de verificación operativa #

Previo al despliegue: verifica las métricas sobre todo el histórico y revisa gráficos de residuos para detectar anomalías.
Monitoreo: controla el drift en métricas (MAE, RMSE, etc.) y define umbrales de alerta.
Diagnóstico visual: combina gráficos predicción vs. real, histogramas de residuos y gráficos de cuantiles.
Comunicación con negocio: traduce las métricas a términos comprensibles (p. ej., “error medio ±X unidades”) para facilitar decisiones.

Regresión