特徴選択

Chapter 7 #

特徴選択 #

特徴選択(Feature Selection)とは、多数の特徴量の中から「本当に有用なものだけ」を残す工程です。 機械学習モデルの精度向上・計算効率化・解釈性の改善のために欠かせないステップです。


なぜ特徴選択を学ぶのか? #

  • 過学習の防止
    不要な特徴を含むと、モデルがノイズに適合してしまう。

  • 計算効率の向上
    特徴が減れば学習と推論が速くなる。

  • 解釈性の改善
    モデルが「何を根拠に予測しているか」が分かりやすくなる。


特徴選択の主なアプローチ #

1. フィルタ法(Filter methods) #

統計的な基準で特徴を選ぶ。モデルを使わないため軽量。
例:相関係数、χ²検定、相互情報量

2. ラッパー法(Wrapper methods) #

モデルを実際に学習させ、精度に基づいて特徴を選ぶ。
例:逐次前進選択(SFS)、逐次後退選択(SBS)

SFSやSBSは「何度もモデルを学習 → 精度を見て人が選ぶ」流れを含むため、
人のバイアスや過学習が生じやすい点に注意が必要です。

3. 組み込み法(Embedded methods) #

学習過程で得られる「特徴の重要度」を利用。
例:Lasso(L1正則化)、決定木の feature_importances_、Boruta


この章で学ぶこと #

  • 特徴選択の基本(全体像と3つのアプローチ)
  • Boruta(木モデルに基づく安定した特徴選択)
  • (発展)他の手法との比較や実務での活用法

まとめ #

  • 特徴選択は 精度・効率・解釈性 の観点で重要。
  • アプローチは「フィルタ・ラッパー・組み込み」の3つに大別できる。
  • 実務では 組み込み法(Lassoや木系モデル、Boruta) がよく使われる。