モデル比較と選択

5.10

モデル比較と選択

まとめ
  • 複数の予測モデルと前処理を組み合わせ、データ特性ごとに最適なパイプラインを体系的に選ぶ。
  • 合成データで「トレンドだけ」「季節性だけ」「構造変化あり」など条件を制御し、精度差の原因を切り分ける。
  • 集計指標だけでなく残差パターンまで分析し、モデルの強み・弱みを実務に活かせるようになる。

直感 #

個別のモデルページでは「このモデルはこう使う」と学べるが、実務では「このデータにはどのモデルが合うのか」が最初の問いになる。さらに、前処理の選択がモデルの精度を大きく左右することも多い。このチャプターでは、データの性質・前処理・モデルの 3 軸を同時に動かし、120 通りのパイプラインを一覧比較する。結果をヒートマップと残差分析で可視化し、「どんなデータに何が効くのか」の直感を養う。

詳細な解説 #

このチャプターで学べること #

  • 6 種類の合成時系列データを自分で生成し、パターンごとのモデル適性を確認する
  • 対数変換・Box-Cox・差分など前処理がモデル精度に与える影響を定量的に把握する
  • MASE ヒートマップで 120 通りのパイプラインを俯瞰し、最適な組み合わせを素早く特定する

これがわかるとできること #

  • 新しい時系列データに対して、闇雲にモデルを試すのではなく、データ特性から有望なパイプラインを絞り込める
  • 精度指標だけでなく残差の構造を見て、モデルの改善方向を判断できる
  • コンペやビジネスの予測タスクで、ベースラインの構築と比較を効率的に回せる

学習の進め方 #

  1. まず合成データの特性を眺め、各パターンの違いを理解する
  2. パイプラインを実行し、MASE ヒートマップで全体傾向を把握する
  3. 残差分析で「なぜそのモデルが失敗するのか」を深掘りする