4.3
Clasificación
Resumen
- Resumir las métricas clave empleadas en tareas de clasificación binaria, multiclase y multietiqueta.
- Comparar métricas basadas en la matriz de confusión, métricas de umbral/ranking y métricas de calibración de probabilidades.
- Explicar cómo construir un conjunto de métricas alineado con los objetivos del negocio y cómo reportarlo.
Capítulo 3 #
Visión general de las métricas de clasificación #
Evaluar un clasificador implica considerar varios ángulos: equilibrio de clases, estrategia de umbrales, fiabilidad de las probabilidades y calidad del ranking superior. Este capítulo agrupa las métricas representativas en esos bloques y aporta pautas sobre cuándo dar prioridad a cada uno.
Categorías de métricas #
1. Basadas en la matriz de confusión #
- Accuracy (Exactitud): tasa global de aciertos; puede ser engañosa con clases desbalanceadas.
- Precisión / Recall / F1 (Precisión y recall, F1): elige según el coste relativo de falsos positivos y falsos negativos.
- Especificidad / Sensibilidad (Sensibilidad y especificidad): críticas en ámbitos como el diagnóstico médico.
- Promedios macro / micro / ponderado (Estrategias de promediado): agregan métricas por clase en multiclase.
2. Umbral y ranking #
- Curva Precisión-Recall / PR-AUC (Precisión-Recall): destaca el rendimiento cuando la clase positiva es escasa.
- Curva ROC / ROC-AUC (ROC-AUC): mide la separabilidad a lo largo de todos los umbrales.
- Top-k Accuracy / Hit Rate (Top-k Accuracy, Hit Rate): útiles cuando sólo se muestran las mejores recomendaciones o resultados de búsqueda.
3. Calibración de probabilidades #
- Log Loss (Pérdida logarítmica): premia probabilidades bien calibradas.
- Brier Score (Puntaje Brier): combinado con curvas de fiabilidad para evaluar la calidad de la calibración.
- Curvas de calibración: comparan probabilidad predicha frente a frecuencia observada.
4. Métricas auxiliares para desbalance #
- Balanced Accuracy (Exactitud balanceada): promedio del recall por clase.
- Kappa de Cohen / MCC (κ de Cohen, Coeficiente de correlación de Matthews): alternativas robustas cuando el desbalance es fuerte.
Cómo cambia la métrica con el umbral #
| |

Reducir el umbral aumenta el recall pero disminuye la precisión. F1 alcanza su máximo cerca del punto de equilibrio y suele usarse para elegir el umbral operativo.
Recomendaciones para informar y operar #
- Incluye siempre la matriz de confusión
Permite ver los patrones de error por clase y resaltar las clases críticas. - Justifica el umbral elegido
Usa curvas PR/ROC o un análisis de costes para explicar el punto de operación. - Verifica la calibración de probabilidades
Si las puntuaciones alimentan precios o asignación de recursos, revisa el Brier Score y las curvas de calibración. - Controla el efecto del desbalance
Contrasta Balanced Accuracy y MCC junto con Accuracy para evitar interpretaciones erróneas. - Monitorea el drift tras el despliegue
Vigila la evolución de Precisión/Recall, PR-AUC y ROC-AUC y reajusta el umbral cuando sea necesario.
Referencia rápida #
| Perspectiva | Métricas representativas | Páginas relacionadas | Notas |
|---|---|---|---|
| Precisión global | Accuracy / Balanced Accuracy | Accuracy / Balanced Accuracy | Reporta ambas con clases desbalanceadas |
| Falsos positivos vs. falsos negativos | Precision / Recall / Fβ | Precisión-Recall / F1 | Combina con análisis de umbrales |
| Calidad del ranking | PR-AUC / ROC-AUC / Top-k | Curva PR / ROC-AUC / Top-k Accuracy | Orientado a tareas con desbalance o recomendación |
| Calibración | Log Loss / Brier Score | Log Loss / Brier Score | Necesario cuando las probabilidades se usan en decisiones |
| Robustez | MCC / κ de Cohen | MCC / κ de Cohen | Estables frente al desbalance |
Lista de verificación #
- ¿Se combinaron métricas que reflejen el desbalance?
- ¿Se compartió la justificación del umbral elegido (PR/ROC o análisis de coste)?
- ¿Se verificó la calibración de probabilidades antes de usar las puntuaciones en producción?
- ¿Se confirmó que los datos de evaluación y producción comparten distribución similar?
- ¿Se fijaron métricas base coherentes para futuras actualizaciones del modelo?