5.10
モデル比較と選択
まとめ
- 複数の予測モデルと前処理を組み合わせ、データ特性ごとに最適なパイプラインを体系的に選ぶ。
- 合成データで「トレンドだけ」「季節性だけ」「構造変化あり」など条件を制御し、精度差の原因を切り分ける。
- 集計指標だけでなく残差パターンまで分析し、モデルの強み・弱みを実務に活かせるようになる。
直感 #
個別のモデルページでは「このモデルはこう使う」と学べるが、実務では「このデータにはどのモデルが合うのか」が最初の問いになる。さらに、前処理の選択がモデルの精度を大きく左右することも多い。このチャプターでは、データの性質・前処理・モデルの 3 軸を同時に動かし、120 通りのパイプラインを一覧比較する。結果をヒートマップと残差分析で可視化し、「どんなデータに何が効くのか」の直感を養う。
詳細な解説 #
このチャプターで学べること #
- 6 種類の合成時系列データを自分で生成し、パターンごとのモデル適性を確認する
- 対数変換・Box-Cox・差分など前処理がモデル精度に与える影響を定量的に把握する
- MASE ヒートマップで 120 通りのパイプラインを俯瞰し、最適な組み合わせを素早く特定する
これがわかるとできること #
- 新しい時系列データに対して、闇雲にモデルを試すのではなく、データ特性から有望なパイプラインを絞り込める
- 精度指標だけでなく残差の構造を見て、モデルの改善方向を判断できる
- コンペやビジネスの予測タスクで、ベースラインの構築と比較を効率的に回せる
学習の進め方 #
- まず合成データの特性を眺め、各パターンの違いを理解する
- パイプラインを実行し、MASE ヒートマップで全体傾向を把握する
- 残差分析で「なぜそのモデルが失敗するのか」を深掘りする