まとめ
- Resumir las métricas clave empleadas en tareas de clasificación binaria, multiclase y multietiqueta.
- Comparar métricas basadas en la matriz de confusión, métricas de umbral/ranking y métricas de calibración de probabilidades.
- Explicar cómo construir un conjunto de métricas alineado con los objetivos del negocio y cómo reportarlo.
Capítulo 3 #
Visión general de las métricas de clasificación #
Evaluar un clasificador implica considerar varios ángulos: equilibrio de clases, estrategia de umbrales, fiabilidad de las probabilidades y calidad del ranking superior. Este capítulo agrupa las métricas representativas en esos bloques y aporta pautas sobre cuándo dar prioridad a cada uno.
Categorías de métricas #
1. Basadas en la matriz de confusión #
- Accuracy (Exactitud): tasa global de aciertos; puede ser engañosa con clases desbalanceadas.
- Precisión / Recall / F1 (Precisión y recall, F1): elige según el coste relativo de falsos positivos y falsos negativos.
- Especificidad / Sensibilidad (Sensibilidad y especificidad): críticas en ámbitos como el diagnóstico médico.
- Promedios macro / micro / ponderado (Estrategias de promediado): agregan métricas por clase en multiclase.
2. Umbral y ranking #
- Curva Precisión-Recall / PR-AUC (Precisión-Recall): destaca el rendimiento cuando la clase positiva es escasa.
- Curva ROC / ROC-AUC (ROC-AUC): mide la separabilidad a lo largo de todos los umbrales.
- Top-k Accuracy / Hit Rate (Top-k Accuracy, Hit Rate): útiles cuando sólo se muestran las mejores recomendaciones o resultados de búsqueda.
3. Calibración de probabilidades #
- Log Loss (Pérdida logarítmica): premia probabilidades bien calibradas.
- Brier Score (Puntaje Brier): combinado con curvas de fiabilidad para evaluar la calidad de la calibración.
- Curvas de calibración: comparan probabilidad predicha frente a frecuencia observada.
4. Métricas auxiliares para desbalance #
- Balanced Accuracy (Exactitud balanceada): promedio del recall por clase.
- Kappa de Cohen / MCC (κ de Cohen, Coeficiente de correlación de Matthews): alternativas robustas cuando el desbalance es fuerte.
Cómo cambia la métrica con el umbral #
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
X, y = make_classification(
n_samples=2000,
n_features=12,
n_informative=4,
weights=[0.85, 0.15],
random_state=42,
)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.3, stratify=y, random_state=42
)
scaler = StandardScaler()
model = LogisticRegression(max_iter=2000)
model.fit(scaler.fit_transform(X_train), y_train)
prob = model.predict_proba(scaler.transform(X_test))[:, 1]
thresholds = np.linspace(0.05, 0.95, 19)
precision, recall, f1 = [], [], []
for t in thresholds:
y_pred = (prob >= t).astype(int)
precision.append(precision_score(y_test, y_pred, zero_division=0))
recall.append(recall_score(y_test, y_pred, zero_division=0))
f1.append(f1_score(y_test, y_pred, zero_division=0))
fig, ax = plt.subplots(figsize=(6.8, 4))
ax.plot(thresholds, precision, label="Precisión", color="#2563eb")
ax.plot(thresholds, recall, label="Recall", color="#dc2626")
ax.plot(thresholds, f1, label="F1", color="#0d9488")
ax.set_xlabel("Umbral")
ax.set_ylabel("Puntuación")
ax.set_title("Impacto del umbral en las métricas de clasificación")
ax.set_ylim(0, 1.05)
ax.grid(alpha=0.3)
ax.legend()
plt.tight_layout()

Reducir el umbral aumenta el recall pero disminuye la precisión. F1 alcanza su máximo cerca del punto de equilibrio y suele usarse para elegir el umbral operativo.
Recomendaciones para informar y operar #
- Incluye siempre la matriz de confusión
Permite ver los patrones de error por clase y resaltar las clases críticas. - Justifica el umbral elegido
Usa curvas PR/ROC o un análisis de costes para explicar el punto de operación. - Verifica la calibración de probabilidades
Si las puntuaciones alimentan precios o asignación de recursos, revisa el Brier Score y las curvas de calibración. - Controla el efecto del desbalance
Contrasta Balanced Accuracy y MCC junto con Accuracy para evitar interpretaciones erróneas. - Monitorea el drift tras el despliegue
Vigila la evolución de Precisión/Recall, PR-AUC y ROC-AUC y reajusta el umbral cuando sea necesario.
Referencia rápida #
| Perspectiva | Métricas representativas | Páginas relacionadas | Notas |
|---|---|---|---|
| Precisión global | Accuracy / Balanced Accuracy | Accuracy / Balanced Accuracy | Reporta ambas con clases desbalanceadas |
| Falsos positivos vs. falsos negativos | Precision / Recall / Fβ | Precisión-Recall / F1 | Combina con análisis de umbrales |
| Calidad del ranking | PR-AUC / ROC-AUC / Top-k | Curva PR / ROC-AUC / Top-k Accuracy | Orientado a tareas con desbalance o recomendación |
| Calibración | Log Loss / Brier Score | Log Loss / Brier Score | Necesario cuando las probabilidades se usan en decisiones |
| Robustez | MCC / κ de Cohen | MCC / κ de Cohen | Estables frente al desbalance |
Lista de verificación #
- ¿Se combinaron métricas que reflejen el desbalance?
- ¿Se compartió la justificación del umbral elegido (PR/ROC o análisis de coste)?
- ¿Se verificó la calibración de probabilidades antes de usar las puntuaciones en producción?
- ¿Se confirmó que los datos de evaluación y producción comparten distribución similar?
- ¿Se fijaron métricas base coherentes para futuras actualizaciones del modelo?