データ前処理する前に

データ前処理をしたあとで機械学習を使って意思決定をする際、モデルの出力はさまざまな要素によって変化します。たとえば、

  • データそのもののバイアス
  • 標本の選択の仕方によるバイアス
  • 帰納バイアス ("機械学習手法が汎化のために採用している仮定が,実世界の状況とはずれている場合[引用元])"

などが挙げられます。そのため、データ前処理をする時は必ずそれが後続の処理(前処理・機械学習モデル・後処理・意思決定)にどのような影響を与えるかを確認しましょう。たとえば、特定の県の人のデータだけフィルタリングしてモデルを作成すると、偏りのある予測をするモデルができるかもしれません。たとえ明示的に特定の県をフィルタリングするようなことがなくても、欠損の多いデータをフィルタリングした結果、実は特定の県のデータのみ欠損が多く、それが結果的に偏りにつながるかもしれません。前処理をする際は意図した通りの前処理ができているか、正しく運用できているかどうかを常にチェックする必要があります。

参考サイト