4.2
回帰
まとめ
- 誤差系(MAE/RMSE/MAPE)・決定係数系(R²/Adjusted R²)・区間系(Pinball Loss/PICP)の指標群を体系的に学ぶ。
- 外れ値耐性・スケール依存性・ゼロ値問題など、指標ごとの前提条件と落とし穴を理解する。
- ビジネス要件(絶対誤差か比率か、過大予測と過小予測のどちらを避けたいか)に応じた指標セットの組み立て方を身に付ける。
直感 #
回帰タスクでは「予測値が実測値にどれだけ近いか」を測る指標が多数存在するが、同じデータでも指標によって最良モデルが入れ替わることがある。MAEで最良のモデルがRMSEでは劣後し、MAPEではゼロ除算が発生する。指標の特性を理解せずに選ぶと、モデル改善の方向を見誤る。このチャプターでは14の回帰指標を3つのカテゴリーに整理し、用途に応じた選び方を身に付ける。
詳細な解説 #
このチャプターで学べること #
- MAEとRMSEの特性の違いと、外れ値の多いデータでの使い分け
- MAPEとWAPEの計算方法、ゼロ値問題への対処
- RMSLEによる対数スケールでの評価と、成長率を重視したい場面での活用
- MASEによる時系列ベースラインとの比較評価
- 決定係数R²の解釈と、負の値になるケースの理解
- Adjusted R²による特徴量数を考慮したモデル比較
- Pinball Lossによる分位回帰の評価
- PICPによる予測区間のカバレッジ評価
- 相関係数(ピアソン/スピアマン)、MBE、中央絶対誤差などの補助指標
これがわかるとできること #
- データの特性(外れ値・ゼロ値・季節性)に応じて適切な誤差指標を選べる
- 複数指標を併用してモデルの強み・弱みを多角的に診断できる
- 指標の選定根拠をビジネス側にわかりやすく説明できる
指標間の関係マップ #
graph LR
ERR["誤差系"] --> MAE["MAE"]
ERR --> RMSE["RMSE"]
MAE --> MAPE["MAPE"]
MAE --> WAPE["WAPE"]
MAE --> MASE["MASE"]
MAE --> MedAE["中央絶対誤差"]
RMSE --> RMSLE["RMSLE"]
RMSE --> RMSPE["RMSPE"]
DET["決定係数系"] --> R2["R²"]
R2 --> AR2["Adjusted R²"]
R2 --> EV["説明分散"]
INT["区間系"] --> PL["Pinball Loss"]
INT --> PICP["PICP"]
OTH["その他"] --> MBE["MBE"]
OTH --> HL["Huber Loss"]
OTH --> CC["相関係数"]
指標クイックリファレンス #
| 指標 | スケール不変 | 外れ値耐性 | 主な用途 |
|---|---|---|---|
| MAE / RMSE | 誤差の基本評価 | ||
| MAPE | ✓ | 比率での誤差比較 | |
| WAPE | ✓ | ゼロ値を含む比率評価 | |
| RMSLE | ✓ | ✓ | 成長率を重視した評価 |
| RMSPE | ✓ | 相対誤差の二乗平均 | |
| MASE | ✓ | 時系列ベースライン比較 | |
| R² | ✓ | モデル全体の説明力 | |
| Adjusted R² | ✓ | 特徴量数を考慮した比較 | |
| 説明分散 | ✓ | バイアス有無の診断 | |
| MBE | 系統的偏りの検出 | ||
| 中央絶対誤差 | ✓ | 外れ値に頑健な誤差 | |
| 相関係数 | ✓ | 線形関係の強さ | |
| Huber Loss | ✓ | 外れ値に頑健な損失 | |
| Pinball Loss | 分位回帰の評価 | ||
| PICP | ✓ | 予測区間のカバレッジ |
学習の進め方 #
- まずMAE・RMSEで誤差指標の基本と外れ値への感度の違いを押さえる
- 次にMAPE・WAPE・RMSLE・MASEで、比率やスケールを考慮した評価手法を学ぶ
- R²・Adjusted R²で決定係数系の指標の解釈と限界を理解する
- 最後にPinball Loss・PICPで、区間予測の評価手法を確認する
まとめ #
このチャプターでは、誤差系(MAE/RMSE/MAPE/WAPE/RMSLE/MASE)・決定係数系(R²/Adjusted R²/説明分散)・区間系(Pinball Loss/PICP)の15指標を学んだ。 外れ値耐性・スケール依存性・ゼロ値問題を考慮し、ビジネス要件に応じた指標セットを選択・説明できるようになることがゴールである。