4.3
Classificacao
Resumo
- Organizamos as metricas principais para classificacao e as diferencas entre binario, multiclasse e multilabel.
- Vemos indicadores de matriz de confusao, ajuste de limiar, probabilidade e ranking.
- Apresentamos como montar um conjunto de metricas e como reportar corretamente.
Capitulo 3 #
Panorama das metricas de classificacao #
A avaliacao de classificacao muda conforme o balanceamento das classes, o limiar de decisao, a confiabilidade das probabilidades e a qualidade do top ranking. Nesta secao reunimos os grupos de metricas e criterios de escolha.
Categorias de metricas #
1. Baseadas na matriz de confusao #
- Accuracy (Accuracy): taxa de acerto geral, mas pode enganar em dados desbalanceados.
- Precision / Recall / F1 (Precision/Recall, F1): escolha conforme custo dos erros.
- Specificity / Sensitivity (Sensitivity/Specificity): critico em areas como saude.
- Macro / Micro / Weighted averaging (Averaging strategies): formas de agregar em multiclasse.
2. Limiar e ranking #
- Precision-Recall curve / PR-AUC (PR): util quando a classe positiva e rara.
- ROC curve / ROC-AUC (ROC-AUC): mede separabilidade global.
- Top-k Accuracy / Hit Rate (Top-k Accuracy, Hit Rate): importante para recomendacao/busca.
3. Probabilidade e calibracao #
- Log Loss (Log Loss): valoriza probabilidades bem calibradas.
- Brier Score (Brier Score): avalia confiabilidade com curva de calibracao.
- Calibration curves: compara probabilidade prevista com frequencia real.
4. Indicadores para desbalanceamento #
- Balanced Accuracy (Balanced Accuracy): media de recall por classe.
- Cohen’s Kappa / MCC (Cohen’s κ, MCC): mais estaveis com classes desbalanceadas.
Como o limiar muda as metricas #
| |

Ao reduzir o limiar, o recall sobe, mas a precision cai. Um criterio e escolher o ponto onde o F1 e maximo.
Pontos para relatorio e operacao #
- Anexe a matriz de confusao
Ajuda a identificar erros por classe. - Explique o limiar escolhido
Use curvas PR ou grafico limiar-score. - Verifique calibracao
Se probabilidades forem usadas em decisao, avalie com Brier Score. - Considere desbalanceamento
Use Balanced Accuracy ou MCC em conjunto. - Monitoramento de drift
Acompanhe Precision/Recall, PR-AUC e ROC-AUC ao longo do tempo.
Referencia rapida #
| Foco | Metricas | Paginas | Nota |
|---|---|---|---|
| Acerto geral | Accuracy / Balanced Accuracy | Accuracy / Balanced Accuracy | Em desbalanceamento, reporte Balanced Accuracy |
| FP vs FN | Precision / Recall / Fβ | Precision-Recall / F1 | Combine com ajuste de limiar |
| Qualidade de ranking | PR-AUC / ROC-AUC / Top-k | PR curve / ROC-AUC / Top-k Accuracy | Bom para recomendacao e classes raras |
| Calibracao | Log Loss / Brier Score | Log Loss / Brier Score | Necessario para decisoes por probabilidade |
| Robustez | MCC / Cohen’s κ | MCC / Cohen’s κ | Estavel em desbalanceamento |
Checklist #
- Usei metricas para desbalanceamento
- Justifiquei o limiar (PR/ROC, custo)
- Verifiquei calibracao de probabilidades
- Comparei distribuicoes de validacao e producao
- Mantive metricas base para futuras comparacoes