評価指標

4

評価指標

まとめ
  • 回帰・分類・ランキング・距離・言語モデルの各タスクで使う主要指標の特性と選択基準を学ぶ。
  • ビジネス要件(コスト構造・ラベル不均衡・上位k件の重要性)に応じた指標セットの組み立て方を身に付ける。
  • 評価プロセス(ホールドアウト/交差検証)と指標を組み合わせ、再現性のあるモデル比較を設計する。

直感 #

モデルの良し悪しは「何を基準に測るか」で結論が変わる。MAEで最良のモデルがRMSEでは劣後することもあれば、Accuracyが高くてもRecallが壊滅的なこともある。指標を正しく選べなければ、モデル改善の方向を見誤る。このセクションでは、タスクごとの代表指標を体系的に整理し、ビジネス目的と指標を結びつけるための判断軸を身に付ける。

詳細な解説 #

このセクションで学べること #

  • モデル選択 — 交差検証・検証曲線・学習曲線・AIC/BICによる汎化性能の推定と比較手法
  • 回帰指標 — MAE/RMSE/MAPE/R²など14指標の特性、外れ値耐性、スケール依存性の違い
  • 分類指標 — 混同行列・Precision/Recall/F1・ROC-AUC・確率校正など15指標の体系
  • 距離指標 — コサイン類似度・KLダイバージェンス・ワッサースタイン距離など分布比較の手法
  • ランキング指標 — NDCG・MAP・Recall@k・Hit Rateによる推薦・検索の評価
  • 言語モデル指標 — BLEU・ROUGEなどn-gramベースから埋め込みベース・LLM評価まで

これがわかるとできること #

  • タスクとビジネス要件に応じて適切な指標セットを選択し、根拠を持って説明できる
  • 複数指標を併用してモデルの強み・弱みを多角的に評価できる
  • 評価パイプラインをコードで構築し、モデル監視やA/Bテストに組み込める

学習の進め方 #

  1. まずモデル選択で交差検証の基本と汎化性能の推定方法を押さえる
  2. 回帰・分類の指標で、タスク別の代表指標とその使い分けを理解する
  3. 距離・ランキング・言語モデルの指標で、特殊なタスクの評価手法を学ぶ
  4. 各ページのコード例を動かし、指標の挙動を実際に確認する

指標クイックリファレンス #

分類指標の比較 #

指標不均衡に強い確率を評価閾値不要多クラス対応主な用途
Accuracy均衡データの概観
Balanced Accuracy不均衡データの正解率
Precision / Recall / F1コスト非対称な分類
ROC-AUC閾値に依存しない比較
Average Precision正例が少ないタスク
Log Loss確率校正の評価
Brier Score確率校正(二乗誤差)
MCC全セルを活用した評価
Cohen’s Kappaアノテーター間一致度

回帰指標の比較 #

指標スケール不変外れ値に頑健方向性主な用途
MAE直感的な平均誤差
RMSE大きな誤差を重視
説明力の評価
Adjusted R²変数数を考慮した説明力
MAPEビジネス向けの割合誤差
WAPE加重した割合誤差
MASE時系列予測の比較
MBEバイアスの検出
Median AE外れ値がある回帰
Pinball Loss分位予測の評価

ランキング・距離指標の比較 #

指標カテゴリ順位考慮主な用途
NDCGランキング検索・推薦の順位品質
MAPランキング適合率ベースの評価
Recall@kランキングTop-k の網羅率
Hit Rateランキング推薦の的中率
KL Divergence距離分布の情報量的差異
JS Divergence距離KLD の対称版
Wasserstein距離幾何的な分布間距離
Cosine Similarity距離ベクトルの方向類似度