Chapter 7 #
特徴選択 #
特徴選択(Feature Selection)とは、多数の特徴量の中から「本当に有用なものだけ」を残す工程です。 機械学習モデルの精度向上・計算効率化・解釈性の改善のために欠かせないステップです。
なぜ特徴選択を学ぶのか? #
過学習の防止
不要な特徴を含むと、モデルがノイズに適合してしまう。計算効率の向上
特徴が減れば学習と推論が速くなる。解釈性の改善
モデルが「何を根拠に予測しているか」が分かりやすくなる。
特徴選択の主なアプローチ #
1. フィルタ法(Filter methods) #
統計的な基準で特徴を選ぶ。モデルを使わないため軽量。
例:相関係数、χ²検定、相互情報量
2. ラッパー法(Wrapper methods) #
モデルを実際に学習させ、精度に基づいて特徴を選ぶ。
例:逐次前進選択(SFS)、逐次後退選択(SBS)
SFSやSBSは「何度もモデルを学習 → 精度を見て人が選ぶ」流れを含むため、
人のバイアスや過学習が生じやすい点に注意が必要です。
3. 組み込み法(Embedded methods) #
学習過程で得られる「特徴の重要度」を利用。
例:Lasso(L1正則化)、決定木の feature_importances_、Boruta
この章で学ぶこと #
- 特徴選択の基本(全体像と3つのアプローチ)
- Boruta(木モデルに基づく安定した特徴選択)
- (発展)他の手法との比較や実務での活用法
まとめ #
- 特徴選択は 精度・効率・解釈性 の観点で重要。
- アプローチは「フィルタ・ラッパー・組み込み」の3つに大別できる。
- 実務では 組み込み法(Lassoや木系モデル、Boruta) がよく使われる。