Bab 7 #
Seleksi Fitur #
Seleksi fitur mengurangi dimensi masukan untuk meningkatkan generalisasi, mempercepat pelatihan, dan memudahkan interpretasi. Gunakan untuk memangkas noise, mencegah overfitting, dan menyederhanakan pipeline.
Pendekatan #
- Filter: menilai tiap fitur dengan statistik univariat (korelasi, mutual information, chi‑kuadrat), pilih yang terbaik.
- Wrapper: mencari subset menggunakan model prediktif (forward/backward stepwise, RFE). Kuat namun mahal dan rawan overfitting.
- Embedded: seleksi selama pelatihan (regularisasi L1/Lasso, feature_importances_ pada pohon, Boruta).
Tips praktis #
- Mulai dari filter; gunakan wrapper saat jumlah fitur kecil.
- Pilih embedded jika model mengekspos koefisien atau importance.
- Validasi dengan cross‑validation; awasi leakage dan stabilitas antar fold.
Referensi dan alat #
- scikit‑learn:
SelectKBest,SelectFromModel,RFE,RFECV,Lasso - Boruta: wrapper yang tangguh di atas importance berbasis pohon