3.3
数値データ前処理
まとめ
- スケーリング(標準化・正規化)の手法ごとの特性とモデル別の使い分けを学ぶ。
- Box-Cox/Yeo-Johnson変換で非線形な分布を扱いやすくする方法を理解する。
- 外れ値検知と異常ラベル付与の実装パターンを押さえる。
直感 #
「数値ならそのまま使える」と思われがちだが、スケールのばらつき・外れ値・非線形な分布はモデルの精度を大きく左右する。このチャプターでは、モデル種別に応じたスケーリング戦略と、分布変換・外れ値処理の実装パターンを押さえる。
詳細な解説 #
このチャプターで学べること #
- ビニングによる数値の離散化と、連続値のままで扱う場合の判断基準
- StandardScaler/MinMaxScaler/RobustScalerの特性比較と選択指針
- Box-Cox変換・Yeo-Johnson変換の適用条件と値域の制約
- HotellingのT二乗統計量やIsolation Forestによる異常値検知とラベル付与
これがわかるとできること #
- モデル種別(線形/ツリー/NN)に応じた前処理ポリシーを設計できる
- 外れ値を除外・補正する際の根拠を定量的に説明できる
- スケーラーや変換器をパイプラインに組み込み、推論環境で再利用できる
学習の進め方 #
- まずビニングで数値データの離散化と連続値の扱いを比較する
- 次にStandardScaler/MinMaxScaler/RobustScalerでスケーリングの基本を押さえる
- Box-Cox/Yeo-Johnson変換で分布の正規化手法を理解する
- 最後に異常値検知手法で外れ値のラベル付与と処理方針を身に付ける