Regresión

Eval

Regresión

まとめ
  • Ofrecer una visión completa de las métricas de regresión y cómo elegirlas.
  • Comparar métricas de error, de coeficiente de determinación y de intervalos/probabilidades con ejemplos en código.
  • Resumir cómo crear un conjunto de métricas alineado con los objetivos del negocio y las características de los datos.

Capítulo 2 #

Panorama de métricas de regresión #

En regresión hay múltiples maneras de cuantificar cuán cerca están las predicciones del valor real. Cada métrica enfatiza una perspectiva distinta—error absoluto, error cuadrático, error relativo, garantías probabilísticas—por lo que la elección depende del caso de uso. Este capítulo sitúa las métricas representativas y explica cuándo utilizar cada una.


Categorías de métricas #

Métricas basadas en el error #

  • Error absoluto medio (MAE): robusto frente a outliers y expresado en la misma unidad que la variable objetivo.
  • Raíz del error cuadrático medio (RMSE): penaliza fuertemente los errores grandes; útil cuando hay que evitar desvíos extremos.
  • Error absoluto porcentual medio (MAPE) / Error absoluto porcentual ponderado (WAPE): apropiados cuando los usuarios piensan en porcentajes (p. ej., forecasting de demanda).
  • Error absoluto medio escalado (MASE): compara contra una referencia naïve estacional.
  • Raíz del error cuadrático medio logarítmico (RMSLE): adecuado cuando los valores se acercan a cero o importan los ritmos de crecimiento.

Determinación y explicación de varianza #

  • Coeficiente de determinación (R²): medida básica de varianza explicada; puede ser negativa.
  • R² ajustado: corrige el sobreajuste al añadir variables.
  • Varianza explicada: se centra en la varianza de los residuos.

Métricas de intervalo y probabilidad #

  • Pérdida pinball: evalúa regresión de cuantiles o intervalos de predicción.
  • PICP (Prediction Interval Coverage Probability): mide con qué frecuencia los intervalos cubren el valor real.
  • PINAW (Prediction Interval Normalised Average Width): cuantifica lo estrechos que son los intervalos.

Flujo para escoger métricas #

  1. Define los objetivos del negocio
    Determina si importa más el error absoluto, el porcentual o penalizaciones asimétricas.
  2. Analiza las características de los datos
    Comprueba si existen valores que cruzan cero, colas pesadas/outliers o estacionalidad fuerte.
  3. Establece baselines
    Compara con pronósticos naïve, regresiones simples o la media para contextualizar mejoras.
  4. Evalúa con métricas complementarias
    Combina MAE con RMSE, o R² con R² ajustado, para abarcar perspectivas distintas.

Ejemplo: comparar métricas en paralelo #

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(42)
n = 200
y_true = rng.normal(loc=100, scale=15, size=n)
noise = rng.normal(scale=10, size=n)

baseline = y_true.mean() + rng.normal(scale=12, size=n)
model = y_true + noise
robust_model = y_true + np.clip(noise, -8, 8)

def mae(y, y_hat):
    return np.mean(np.abs(y - y_hat))

def rmse(y, y_hat):
    return np.sqrt(np.mean((y - y_hat) ** 2))

def mape(y, y_hat):
    return np.mean(np.abs((y - y_hat) / y)) * 100

scores = {
    "MAE": [mae(y_true, baseline), mae(y_true, model), mae(y_true, robust_model)],
    "RMSE": [rmse(y_true, baseline), rmse(y_true, model), rmse(y_true, robust_model)],
    "MAPE (%)": [mape(y_true, baseline), mape(y_true, model), mape(y_true, robust_model)],
}

labels = ["Baseline", "Model", "Robust"]
x = np.arange(len(labels))
width = 0.25

fig, ax = plt.subplots(figsize=(7, 4.5))
for idx, (metric, values) in enumerate(scores.items()):
    ax.bar(x + idx * width, values, width=width, label=metric)

ax.set_xticks(x + width)
ax.set_xticklabels(labels)
ax.set_ylabel("Puntuación")
ax.set_title("Comparación de métricas de regresión entre modelos")
ax.legend()
ax.grid(axis="y", alpha=0.3)
plt.tight_layout()
Comparar métricas de regresión

Cada métrica favorece un modelo distinto. MAE resalta al modelo robusto, mientras que RMSE castiga al baseline afectado por outliers. Usa métricas complementarias para confirmar que el modelo elegido se comporta como deseas.


Tabla rápida de métricas #

CategoríaMétricaUso principalPrecauciones
ErrorMAEResistente a outliers, interpretación directaNo útil si el error relativo es crítico
ErrorRMSEPrioriza errores grandesMuy sensible a outliers
ErrorRMSLEManeja amplitudes amplias / tasas de crecimientoNo definido para valores ≤ 0
ErrorMAPE / WAPEReporte en porcentajesFalla con objetivos que valen 0; sobrepenaliza la subestimación
ErrorMASEComparar frente a un pronóstico naïve estacionalRequiere estacionalidad configurada correctamente
ErrorPérdida pinballEvaluar cuantiles / intervalosNecesita optimización por cuantiles
DeterminaciónExplicación de varianzaPuede ser negativo
DeterminaciónR² ajustadoComparar modelos con distinta cantidad de variablesInestable con muestras muy pequeñas
DeterminaciónVarianza explicadaAnalizar la varianza de los residuosDependiente de la escala; ignora sesgo
IntervaloPICPCobertura de intervalos de predicciónRevisa también el ancho del intervalo
IntervaloPINAWEstrechez de los intervalosInterprétalo junto con la cobertura

Lista de verificación operativa #

  • Previo al despliegue: verifica las métricas sobre todo el histórico y revisa gráficos de residuos para detectar anomalías.
  • Monitoreo: controla el drift en métricas (MAE, RMSE, etc.) y define umbrales de alerta.
  • Diagnóstico visual: combina gráficos predicción vs. real, histogramas de residuos y gráficos de cuantiles.
  • Comunicación con negocio: traduce las métricas a términos comprensibles (p. ej., “error medio ±X unidades”) para facilitar decisiones.