データ品質と異常検知

5.4

データ品質と異常検知

まとめ
  • Zスコアによる統計的な異常値検出で、閾値を超える外れ値をハイライトする。
  • 平均の変化点を可視化し、施策や環境変化のタイミングをチームで共有する。
  • 欠損区間を色付けして、分析前にデータ品質の全体像を把握する。

直感 #

モデルに投入するデータに異常値や欠損があると、学習結果が歪む。センサーの故障による外れ値、システム停止による欠損、施策変更による平均シフトなど、時系列データには品質上の問題が頻繁に紛れ込む。モデリングに入る前にこれらを検出・可視化しておくことで、不要なノイズを取り除き、分析の信頼性を確保できる。

詳細な解説 #

このチャプターで学べること #

  • Zスコアを使った異常値検出の仕組みと閾値の設定方法
  • 平均の変化点を手動で可視化し、構造変化を共有する手法
  • 欠損区間のハイライトによるデータ品質の事前把握

これがわかるとできること #

  • 外れ値の候補を統計的に絞り込み、原因調査やアラートに活用できる
  • 施策前後の構造変化を可視化して、モデル分割や特徴量設計に反映できる
  • 欠損パターンを把握し、補間や除外の方針を事前に決められる

学習の進め方 #

  1. まずZスコアで統計的な外れ値検出の基本を学ぶ
  2. 変化点の可視化で構造変化の影響を確認する
  3. 欠損ハイライトでデータ品質チェックの全体フローを身に付ける