5.4
データ品質と異常検知
まとめ
- Zスコアによる統計的な異常値検出で、閾値を超える外れ値をハイライトする。
- 平均の変化点を可視化し、施策や環境変化のタイミングをチームで共有する。
- 欠損区間を色付けして、分析前にデータ品質の全体像を把握する。
直感 #
モデルに投入するデータに異常値や欠損があると、学習結果が歪む。センサーの故障による外れ値、システム停止による欠損、施策変更による平均シフトなど、時系列データには品質上の問題が頻繁に紛れ込む。モデリングに入る前にこれらを検出・可視化しておくことで、不要なノイズを取り除き、分析の信頼性を確保できる。
詳細な解説 #
このチャプターで学べること #
- Zスコアを使った異常値検出の仕組みと閾値の設定方法
- 平均の変化点を手動で可視化し、構造変化を共有する手法
- 欠損区間のハイライトによるデータ品質の事前把握
これがわかるとできること #
- 外れ値の候補を統計的に絞り込み、原因調査やアラートに活用できる
- 施策前後の構造変化を可視化して、モデル分割や特徴量設計に反映できる
- 欠損パターンを把握し、補間や除外の方針を事前に決められる
学習の進め方 #
- まずZスコアで統計的な外れ値検出の基本を学ぶ
- 変化点の可視化で構造変化の影響を確認する
- 欠損ハイライトでデータ品質チェックの全体フローを身に付ける