評価指標

Eval

評価指標

何を学ぶ章か #

  1. 評価指標の体系を俯瞰
    回帰・分類・ランキング・異常検知それぞれで指標の前提と読み方を整理します。
  2. Python 3.13 のサンプルコード
    scikit-learn / matplotlib を使い、少ないコードで計算&可視化するテンプレを紹介します。
  3. 用途別の指標の選び方
    ビジネス要件(リコール優先、利益最大化など)と指標を紐づけ、モデル比較の軸をそろえます。
まとめ
  • 目的ごとの指標と、混同行列ベースの可視化パターンを一覧化
  • 代表指標(MAE/MSE/RMSE、Accuracy/F1/AUC、MAP@K など)の計算レシピ
  • 評価プロセス(ホールドアウト / CV)と指標の組み合わせパターン

セクション構成 #

ページ目的主な内容
回帰指標数値予測の誤差を評価MAE, MSE, RMSE, MAPE, R²、残差プロット
二値分類指標正解ラベルが 0/1Precision, Recall, F1, AUC, PR 曲線
多クラス / マルチラベルラベルが複数Macro/Micro Averaging、混同行列ヒートマップ
ランキング指標推薦・検索MAP@K, NDCG、Hit@K の計算方法
異常検知ラベル不足でも評価ROC/PR、スコア分布の可視化、擬似ラベル

各ページでは「指標の意味 → 計算例 → 可視化 → 使いどころ」を同じ流れで記述し、システム設計に転用しやすいフォーマットにしています。


評価プロセスの全体像 #

  1. データ分割
    • ホールドアウト: Train / Validation / Test
    • クロスバリデーション: KFold, StratifiedKFold, TimeSeriesSplit
  2. 指標の計算
    • scikit-learn の metrics モジュールで再利用可能な関数を呼び出し
    • make_scorer を使えば GridSearchCV に組み込める
  3. 集計と可視化
    • pandas.DataFrame にスコアをまとめ、箱ひげ / ROC / PR 曲線を描画
    • 変数重要度や残差分析を組み合わせ、改善余地を探る

指標選定のガイドライン #

観点質問推奨指標 / 対応
誤差の単位絶対値で知りたい?比率で知りたい?MAE / RMSE / MAPE
コスト構造偽陽性と偽陰性どちらが重い?Precision/Recall、Fβ、Cost-sensitive Loss
ラベル比率不均衡データか?PR-AUC、Balanced Accuracy、ROC-AUC
目的がランキング上位 K 件が重要?MAP@K、NDCG、Hit@K
監視・アラートモデル劣化を早期検知したい時系列で指標を追跡、Drift 指標との併用

この章を読み進めた後にできること #

  • 定例レポートで「この課題なら F1、なぜなら…」と根拠を持って説明できる
  • Kaggle / 社内コンペなどで指標を切り替える際も迷わなくなる
  • モデル監視や A/B テストで指標の上下をアラート化できる

次のページから、各タスク(回帰・分類など)の評価指標を順番に深掘りしていきましょう。