4
評価指標
まとめ
- 回帰・分類・ランキング・距離・言語モデルの各タスクで使う主要指標の特性と選択基準を学ぶ。
- ビジネス要件(コスト構造・ラベル不均衡・上位k件の重要性)に応じた指標セットの組み立て方を身に付ける。
- 評価プロセス(ホールドアウト/交差検証)と指標を組み合わせ、再現性のあるモデル比較を設計する。
直感 #
モデルの良し悪しは「何を基準に測るか」で結論が変わる。MAEで最良のモデルがRMSEでは劣後することもあれば、Accuracyが高くてもRecallが壊滅的なこともある。指標を正しく選べなければ、モデル改善の方向を見誤る。このセクションでは、タスクごとの代表指標を体系的に整理し、ビジネス目的と指標を結びつけるための判断軸を身に付ける。
詳細な解説 #
このセクションで学べること #
- モデル選択 — 交差検証・検証曲線・学習曲線・AIC/BICによる汎化性能の推定と比較手法
- 回帰指標 — MAE/RMSE/MAPE/R²など14指標の特性、外れ値耐性、スケール依存性の違い
- 分類指標 — 混同行列・Precision/Recall/F1・ROC-AUC・確率校正など15指標の体系
- 距離指標 — コサイン類似度・KLダイバージェンス・ワッサースタイン距離など分布比較の手法
- ランキング指標 — NDCG・MAP・Recall@k・Hit Rateによる推薦・検索の評価
- 言語モデル指標 — BLEU・ROUGEなどn-gramベースから埋め込みベース・LLM評価まで
これがわかるとできること #
- タスクとビジネス要件に応じて適切な指標セットを選択し、根拠を持って説明できる
- 複数指標を併用してモデルの強み・弱みを多角的に評価できる
- 評価パイプラインをコードで構築し、モデル監視やA/Bテストに組み込める
学習の進め方 #
- まずモデル選択で交差検証の基本と汎化性能の推定方法を押さえる
- 回帰・分類の指標で、タスク別の代表指標とその使い分けを理解する
- 距離・ランキング・言語モデルの指標で、特殊なタスクの評価手法を学ぶ
- 各ページのコード例を動かし、指標の挙動を実際に確認する
指標クイックリファレンス #
分類指標の比較 #
| 指標 | 不均衡に強い | 確率を評価 | 閾値不要 | 多クラス対応 | 主な用途 |
|---|---|---|---|---|---|
| Accuracy | ✓ | 均衡データの概観 | |||
| Balanced Accuracy | ✓ | ✓ | 不均衡データの正解率 | ||
| Precision / Recall / F1 | ✓ | ✓ | コスト非対称な分類 | ||
| ROC-AUC | ✓ | ✓ | ✓ | 閾値に依存しない比較 | |
| Average Precision | ✓ | ✓ | ✓ | 正例が少ないタスク | |
| Log Loss | ✓ | ✓ | ✓ | 確率校正の評価 | |
| Brier Score | ✓ | ✓ | 確率校正(二乗誤差) | ||
| MCC | ✓ | 全セルを活用した評価 | |||
| Cohen’s Kappa | ✓ | アノテーター間一致度 |
回帰指標の比較 #
| 指標 | スケール不変 | 外れ値に頑健 | 方向性 | 主な用途 |
|---|---|---|---|---|
| MAE | ✓ | 直感的な平均誤差 | ||
| RMSE | 大きな誤差を重視 | |||
| R² | ✓ | 説明力の評価 | ||
| Adjusted R² | ✓ | 変数数を考慮した説明力 | ||
| MAPE | ✓ | ビジネス向けの割合誤差 | ||
| WAPE | ✓ | ✓ | 加重した割合誤差 | |
| MASE | ✓ | 時系列予測の比較 | ||
| MBE | ✓ | バイアスの検出 | ||
| Median AE | ✓ | 外れ値がある回帰 | ||
| Pinball Loss | ✓ | 分位予測の評価 |
ランキング・距離指標の比較 #
| 指標 | カテゴリ | 順位考慮 | 主な用途 |
|---|---|---|---|
| NDCG | ランキング | ✓ | 検索・推薦の順位品質 |
| MAP | ランキング | ✓ | 適合率ベースの評価 |
| Recall@k | ランキング | Top-k の網羅率 | |
| Hit Rate | ランキング | 推薦の的中率 | |
| KL Divergence | 距離 | — | 分布の情報量的差異 |
| JS Divergence | 距離 | — | KLD の対称版 |
| Wasserstein | 距離 | — | 幾何的な分布間距離 |
| Cosine Similarity | 距離 | — | ベクトルの方向類似度 |