カテゴリカルデータ前処理

3.4

カテゴリカルデータ前処理

まとめ
  • カテゴリカル変数の数値化手法(One-Hot/Count/Target Encoding)の特性と選択基準を学ぶ。
  • カテゴリ数・目的変数との関係・時系列制約に応じたエンコーディング戦略を理解する。
  • Target Encodingにおけるリーク防止の設計(KFold/OOF)を押さえる。

直感 #

実務データの多くは文字列やラベル型の特徴量で構成される。数値化の方法を誤ると次元爆発やリークが起き、モデルの性能が頭打ちになる。このチャプターでは、カテゴリの粒度と目的変数との関係を踏まえて、エンコーディング手法を選び分ける判断軸を身に付ける。

詳細な解説 #

このチャプターで学べること #

  • One-Hot Encodingの基本と、高次元化を防ぐための正則化との組み合わせ
  • Count/Frequency Encodingで次元を増やさず分布情報を取り入れる方法
  • Target/Mean Encodingで目的変数の情報を効率的に反映しつつリークを防ぐ設計
  • Ordered Target Statisticsで時系列データの未来リークを回避する手法

これがわかるとできること #

  • カテゴリ数や目的変数との関係に応じて最適なエンコーディングを選択できる
  • KFold/OOFを使ったリーク防止の実装を設計できる
  • 希少カテゴリの統合や交互作用の生成を体系的に進められる

学習の進め方 #

  1. まずOne-Hot Encodingで基本的な数値化の仕組みを理解する
  2. 次にCount/Frequency Encodingで次元を抑えたエンコーディングを学ぶ
  3. Target Encodingでリーク防止を含む実践的な設計パターンを押さえる
  4. 最後にOrdered Target Statisticsで時系列制約下の手法を確認する