回帰

4.2

回帰

まとめ
  • 誤差系(MAE/RMSE/MAPE)・決定係数系(R²/Adjusted R²)・区間系(Pinball Loss/PICP)の指標群を体系的に学ぶ。
  • 外れ値耐性・スケール依存性・ゼロ値問題など、指標ごとの前提条件と落とし穴を理解する。
  • ビジネス要件(絶対誤差か比率か、過大予測と過小予測のどちらを避けたいか)に応じた指標セットの組み立て方を身に付ける。

直感 #

回帰タスクでは「予測値が実測値にどれだけ近いか」を測る指標が多数存在するが、同じデータでも指標によって最良モデルが入れ替わることがある。MAEで最良のモデルがRMSEでは劣後し、MAPEではゼロ除算が発生する。指標の特性を理解せずに選ぶと、モデル改善の方向を見誤る。このチャプターでは14の回帰指標を3つのカテゴリーに整理し、用途に応じた選び方を身に付ける。

詳細な解説 #

このチャプターで学べること #

  • MAEとRMSEの特性の違いと、外れ値の多いデータでの使い分け
  • MAPEとWAPEの計算方法、ゼロ値問題への対処
  • RMSLEによる対数スケールでの評価と、成長率を重視したい場面での活用
  • MASEによる時系列ベースラインとの比較評価
  • 決定係数R²の解釈と、負の値になるケースの理解
  • Adjusted R²による特徴量数を考慮したモデル比較
  • Pinball Lossによる分位回帰の評価
  • PICPによる予測区間のカバレッジ評価
  • 相関係数(ピアソン/スピアマン)、MBE、中央絶対誤差などの補助指標

これがわかるとできること #

  • データの特性(外れ値・ゼロ値・季節性)に応じて適切な誤差指標を選べる
  • 複数指標を併用してモデルの強み・弱みを多角的に診断できる
  • 指標の選定根拠をビジネス側にわかりやすく説明できる

指標間の関係マップ #

graph LR ERR["誤差系"] --> MAE["MAE"] ERR --> RMSE["RMSE"] MAE --> MAPE["MAPE"] MAE --> WAPE["WAPE"] MAE --> MASE["MASE"] MAE --> MedAE["中央絶対誤差"] RMSE --> RMSLE["RMSLE"] RMSE --> RMSPE["RMSPE"] DET["決定係数系"] --> R2["R²"] R2 --> AR2["Adjusted R²"] R2 --> EV["説明分散"] INT["区間系"] --> PL["Pinball Loss"] INT --> PICP["PICP"] OTH["その他"] --> MBE["MBE"] OTH --> HL["Huber Loss"] OTH --> CC["相関係数"]

指標クイックリファレンス #

指標スケール不変外れ値耐性主な用途
MAE / RMSE誤差の基本評価
MAPE比率での誤差比較
WAPEゼロ値を含む比率評価
RMSLE成長率を重視した評価
RMSPE相対誤差の二乗平均
MASE時系列ベースライン比較
モデル全体の説明力
Adjusted R²特徴量数を考慮した比較
説明分散バイアス有無の診断
MBE系統的偏りの検出
中央絶対誤差外れ値に頑健な誤差
相関係数線形関係の強さ
Huber Loss外れ値に頑健な損失
Pinball Loss分位回帰の評価
PICP予測区間のカバレッジ

学習の進め方 #

  1. まずMAE・RMSEで誤差指標の基本と外れ値への感度の違いを押さえる
  2. 次にMAPE・WAPE・RMSLE・MASEで、比率やスケールを考慮した評価手法を学ぶ
  3. R²・Adjusted R²で決定係数系の指標の解釈と限界を理解する
  4. 最後にPinball Loss・PICPで、区間予測の評価手法を確認する

まとめ #

このチャプターでは、誤差系(MAE/RMSE/MAPE/WAPE/RMSLE/MASE)・決定係数系(R²/Adjusted R²/説明分散)・区間系(Pinball Loss/PICP)の15指標を学んだ。 外れ値耐性・スケール依存性・ゼロ値問題を考慮し、ビジネス要件に応じた指標セットを選択・説明できるようになることがゴールである。