Chapter 7 #
การเลือกคุณลักษณะ #
การเลือกคุณลักษณะ (Feature Selection) คือการคัดเหลือเฉพาะฟีเจอร์ที่มีประโยชน์จริง จากฟีเจอร์จำนวนมาก เพื่อเพิ่มความแม่นยำ ลดต้นทุนคำนวณ และทำให้โมเดลตีความง่ายขึ้น
ทำไมต้องเรียนเรื่องการเลือกคุณลักษณะ #
ลด overfitting
ฟีเจอร์ที่ไม่จำเป็นทำให้โมเดลเรียนรู้ noise มากเกินไปเพิ่มประสิทธิภาพการคำนวณ
ฟีเจอร์น้อยลง ฝึกและทำนายได้เร็วขึ้นเพิ่มความสามารถในการอธิบายผล
เห็นชัดว่าโมเดลใช้เหตุผลจากฟีเจอร์ใด
แนวทางหลักของการเลือกคุณลักษณะ #
1. ฟิลเตอร์ (Filter methods) #
ใช้เกณฑ์สถิติเพื่อคัดเลือกฟีเจอร์ ไม่ต้องฝึกโมเดล จึงเบา
ตัวอย่าง: ค่าสหสัมพันธ์, χ² test, mutual information
2. แรปเปอร์ (Wrapper methods) #
ฝึกโมเดลจริงแล้วเลือกฟีเจอร์ตามความแม่นยำ
ตัวอย่าง: Sequential Forward Selection (SFS), Sequential Backward Selection (SBS)
SFS/SBS ต้องฝึกโมเดลซ้ำ ๆ และเลือกด้วยมือ ทำให้เกิด bias หรือ overfitting ได้ง่าย
3. เอ็มเบดเด็ด (Embedded methods) #
ใช้ความสำคัญฟีเจอร์ที่ได้ระหว่างการฝึก
ตัวอย่าง: Lasso (L1), feature_importances_ ของต้นไม้, Boruta
สิ่งที่จะเรียนในบทนี้ #
- พื้นฐานการเลือกคุณลักษณะ (ภาพรวมและ 3 แนวทาง)
- Boruta (วิธีเลือกฟีเจอร์ที่เสถียรด้วยโมเดลต้นไม้)
- (ขั้นสูง) เปรียบเทียบวิธีอื่นและการใช้งานจริง
สรุป #
- การเลือกคุณลักษณะสำคัญต่อ ความแม่นยำ ประสิทธิภาพ และการตีความ
- แบ่งได้เป็น 3 กลุ่ม: ฟิลเตอร์ แรปเปอร์ และเอ็มเบดเด็ด
- งานจริงมักใช้ เอ็มเบดเด็ด เช่น Lasso หรือโมเดลต้นไม้ร่วมกับ Boruta