まとめ
- Ofrecer una visión completa de las métricas de regresión y cómo elegirlas.
- Comparar métricas de error, de coeficiente de determinación y de intervalos/probabilidades con ejemplos en código.
- Resumir cómo crear un conjunto de métricas alineado con los objetivos del negocio y las características de los datos.
Capítulo 2 #
Panorama de métricas de regresión #
En regresión hay múltiples maneras de cuantificar cuán cerca están las predicciones del valor real. Cada métrica enfatiza una perspectiva distinta—error absoluto, error cuadrático, error relativo, garantías probabilísticas—por lo que la elección depende del caso de uso. Este capítulo sitúa las métricas representativas y explica cuándo utilizar cada una.
Categorías de métricas #
Métricas basadas en el error #
- Error absoluto medio (MAE): robusto frente a outliers y expresado en la misma unidad que la variable objetivo.
- Raíz del error cuadrático medio (RMSE): penaliza fuertemente los errores grandes; útil cuando hay que evitar desvíos extremos.
- Error absoluto porcentual medio (MAPE) / Error absoluto porcentual ponderado (WAPE): apropiados cuando los usuarios piensan en porcentajes (p. ej., forecasting de demanda).
- Error absoluto medio escalado (MASE): compara contra una referencia naïve estacional.
- Raíz del error cuadrático medio logarítmico (RMSLE): adecuado cuando los valores se acercan a cero o importan los ritmos de crecimiento.
Determinación y explicación de varianza #
- Coeficiente de determinación (R²): medida básica de varianza explicada; puede ser negativa.
- R² ajustado: corrige el sobreajuste al añadir variables.
- Varianza explicada: se centra en la varianza de los residuos.
Métricas de intervalo y probabilidad #
- Pérdida pinball: evalúa regresión de cuantiles o intervalos de predicción.
- PICP (Prediction Interval Coverage Probability): mide con qué frecuencia los intervalos cubren el valor real.
- PINAW (Prediction Interval Normalised Average Width): cuantifica lo estrechos que son los intervalos.
Flujo para escoger métricas #
- Define los objetivos del negocio
Determina si importa más el error absoluto, el porcentual o penalizaciones asimétricas. - Analiza las características de los datos
Comprueba si existen valores que cruzan cero, colas pesadas/outliers o estacionalidad fuerte. - Establece baselines
Compara con pronósticos naïve, regresiones simples o la media para contextualizar mejoras. - Evalúa con métricas complementarias
Combina MAE con RMSE, o R² con R² ajustado, para abarcar perspectivas distintas.
Ejemplo: comparar métricas en paralelo #
import numpy as np
import matplotlib.pyplot as plt
rng = np.random.default_rng(42)
n = 200
y_true = rng.normal(loc=100, scale=15, size=n)
noise = rng.normal(scale=10, size=n)
baseline = y_true.mean() + rng.normal(scale=12, size=n)
model = y_true + noise
robust_model = y_true + np.clip(noise, -8, 8)
def mae(y, y_hat):
return np.mean(np.abs(y - y_hat))
def rmse(y, y_hat):
return np.sqrt(np.mean((y - y_hat) ** 2))
def mape(y, y_hat):
return np.mean(np.abs((y - y_hat) / y)) * 100
scores = {
"MAE": [mae(y_true, baseline), mae(y_true, model), mae(y_true, robust_model)],
"RMSE": [rmse(y_true, baseline), rmse(y_true, model), rmse(y_true, robust_model)],
"MAPE (%)": [mape(y_true, baseline), mape(y_true, model), mape(y_true, robust_model)],
}
labels = ["Baseline", "Model", "Robust"]
x = np.arange(len(labels))
width = 0.25
fig, ax = plt.subplots(figsize=(7, 4.5))
for idx, (metric, values) in enumerate(scores.items()):
ax.bar(x + idx * width, values, width=width, label=metric)
ax.set_xticks(x + width)
ax.set_xticklabels(labels)
ax.set_ylabel("Puntuación")
ax.set_title("Comparación de métricas de regresión entre modelos")
ax.legend()
ax.grid(axis="y", alpha=0.3)
plt.tight_layout()

Cada métrica favorece un modelo distinto. MAE resalta al modelo robusto, mientras que RMSE castiga al baseline afectado por outliers. Usa métricas complementarias para confirmar que el modelo elegido se comporta como deseas.
Tabla rápida de métricas #
| Categoría | Métrica | Uso principal | Precauciones |
|---|---|---|---|
| Error | MAE | Resistente a outliers, interpretación directa | No útil si el error relativo es crítico |
| Error | RMSE | Prioriza errores grandes | Muy sensible a outliers |
| Error | RMSLE | Maneja amplitudes amplias / tasas de crecimiento | No definido para valores ≤ 0 |
| Error | MAPE / WAPE | Reporte en porcentajes | Falla con objetivos que valen 0; sobrepenaliza la subestimación |
| Error | MASE | Comparar frente a un pronóstico naïve estacional | Requiere estacionalidad configurada correctamente |
| Error | Pérdida pinball | Evaluar cuantiles / intervalos | Necesita optimización por cuantiles |
| Determinación | R² | Explicación de varianza | Puede ser negativo |
| Determinación | R² ajustado | Comparar modelos con distinta cantidad de variables | Inestable con muestras muy pequeñas |
| Determinación | Varianza explicada | Analizar la varianza de los residuos | Dependiente de la escala; ignora sesgo |
| Intervalo | PICP | Cobertura de intervalos de predicción | Revisa también el ancho del intervalo |
| Intervalo | PINAW | Estrechez de los intervalos | Interprétalo junto con la cobertura |
Lista de verificación operativa #
- Previo al despliegue: verifica las métricas sobre todo el histórico y revisa gráficos de residuos para detectar anomalías.
- Monitoreo: controla el drift en métricas (MAE, RMSE, etc.) y define umbrales de alerta.
- Diagnóstico visual: combina gráficos predicción vs. real, histogramas de residuos y gráficos de cuantiles.
- Comunicación con negocio: traduce las métricas a términos comprensibles (p. ej., “error medio ±X unidades”) para facilitar decisiones.