Metricas de avaliacao

Eval

Metricas de avaliacao

O que voce vai aprender neste capitulo #

  1. Panorama das metricas
    Organizar os indicadores de regressao, classificacao, ranking e deteccao de anomalias.
  2. Exemplos em Python 3.13
    Com scikit-learn / matplotlib, mostrar calculo e visualizacao com pouco codigo.
  3. Escolha de metricas por caso de uso
    Relacionar requisitos de negocio (recall, lucro, risco) com o conjunto de metricas adequado.
まとめ
  • Lista de metricas por objetivo e padroes de visualizacao com matriz de confusao
  • Receitas de calculo para MAE/MSE/RMSE, Accuracy/F1/AUC, MAP@K e outras
  • Combinacoes de processo de avaliacao (holdout / CV) e metricas

Estrutura da secao #

PaginaObjetivoConteudo principal
Metricas de regressaoAvaliar erro numericoMAE, MSE, RMSE, MAPE, R², graficos de residuo
Metricas de classificacao binariaRotulos 0/1Precision, Recall, F1, AUC, curva PR
Multiclasse / multilabelVarios rotulosMacro/Micro averaging, heatmap da matriz de confusao
Metricas de rankingRecomendacao/buscaMAP@K, NDCG, Hit@K
Deteccao de anomaliasPoucas ou sem rotulosROC/PR, distribuicao de scores, pseudo-rotulos

Em cada pagina seguimos o fluxo “significado → exemplo de calculo → visualizacao → quando usar”.


Visao geral do processo de avaliacao #

  1. Divisao de dados
    • Holdout: Train / Validation / Test
    • Cross-validation: KFold, StratifiedKFold, TimeSeriesSplit
  2. Calculo das metricas
    • Funcoes do sklearn.metrics
    • Com make_scorer, integrar ao GridSearchCV
  3. Agregacao e visualizacao
    • Resumo em pandas.DataFrame, boxplot / ROC / PR
    • Combinar com feature importance e analise de residuos

Guia para escolher metricas #

CriterioPerguntaMetricas recomendadas
Unidade do erroQuer valor absoluto ou percentual?MAE / RMSE / MAPE
Estrutura de custoFalso positivo ou falso negativo pesa mais?Precision/Recall, Fβ, cost-sensitive loss
Proporcao de rotulosHa desbalanceamento?PR-AUC, Balanced Accuracy, ROC-AUC
Objetivo de rankingTop-K e o mais importante?MAP@K, NDCG, Hit@K
Monitoramento/alertaPrecisa detectar degradacao cedo?Serie temporal de metricas + drift

Depois deste capitulo #

  • Explicar em relatorios “por que F1 aqui” com base solida.
  • Alternar metricas em competicoes ou A/B tests sem hesitar.
  • Criar alertas com base na variacao das metricas.

Na proxima pagina, vamos aprofundar as metricas por tipo de tarefa.