3.4
カテゴリカルデータ前処理
まとめ
- カテゴリカル変数の数値化手法(One-Hot/Count/Target Encoding)の特性と選択基準を学ぶ。
- カテゴリ数・目的変数との関係・時系列制約に応じたエンコーディング戦略を理解する。
- Target Encodingにおけるリーク防止の設計(KFold/OOF)を押さえる。
直感 #
実務データの多くは文字列やラベル型の特徴量で構成される。数値化の方法を誤ると次元爆発やリークが起き、モデルの性能が頭打ちになる。このチャプターでは、カテゴリの粒度と目的変数との関係を踏まえて、エンコーディング手法を選び分ける判断軸を身に付ける。
詳細な解説 #
このチャプターで学べること #
- One-Hot Encodingの基本と、高次元化を防ぐための正則化との組み合わせ
- Count/Frequency Encodingで次元を増やさず分布情報を取り入れる方法
- Target/Mean Encodingで目的変数の情報を効率的に反映しつつリークを防ぐ設計
- Ordered Target Statisticsで時系列データの未来リークを回避する手法
これがわかるとできること #
- カテゴリ数や目的変数との関係に応じて最適なエンコーディングを選択できる
- KFold/OOFを使ったリーク防止の実装を設計できる
- 希少カテゴリの統合や交互作用の生成を体系的に進められる
学習の進め方 #
- まずOne-Hot Encodingで基本的な数値化の仕組みを理解する
- 次にCount/Frequency Encodingで次元を抑えたエンコーディングを学ぶ
- Target Encodingでリーク防止を含む実践的な設計パターンを押さえる
- 最後にOrdered Target Statisticsで時系列制約下の手法を確認する