การเลือกคุณลักษณะ

Basic

การเลือกคุณลักษณะ | พื้นฐานแมชชีนเลิร์นนิง

Chapter 7 #

การเลือกคุณลักษณะ #

การเลือกคุณลักษณะ (Feature Selection) คือการคัดเหลือเฉพาะฟีเจอร์ที่มีประโยชน์จริง จากฟีเจอร์จำนวนมาก เพื่อเพิ่มความแม่นยำ ลดต้นทุนคำนวณ และทำให้โมเดลตีความง่ายขึ้น


ทำไมต้องเรียนเรื่องการเลือกคุณลักษณะ #

  • ลด overfitting
    ฟีเจอร์ที่ไม่จำเป็นทำให้โมเดลเรียนรู้ noise มากเกินไป

  • เพิ่มประสิทธิภาพการคำนวณ
    ฟีเจอร์น้อยลง ฝึกและทำนายได้เร็วขึ้น

  • เพิ่มความสามารถในการอธิบายผล
    เห็นชัดว่าโมเดลใช้เหตุผลจากฟีเจอร์ใด


แนวทางหลักของการเลือกคุณลักษณะ #

1. ฟิลเตอร์ (Filter methods) #

ใช้เกณฑ์สถิติเพื่อคัดเลือกฟีเจอร์ ไม่ต้องฝึกโมเดล จึงเบา
ตัวอย่าง: ค่าสหสัมพันธ์, χ² test, mutual information

2. แรปเปอร์ (Wrapper methods) #

ฝึกโมเดลจริงแล้วเลือกฟีเจอร์ตามความแม่นยำ
ตัวอย่าง: Sequential Forward Selection (SFS), Sequential Backward Selection (SBS)

SFS/SBS ต้องฝึกโมเดลซ้ำ ๆ และเลือกด้วยมือ ทำให้เกิด bias หรือ overfitting ได้ง่าย

3. เอ็มเบดเด็ด (Embedded methods) #

ใช้ความสำคัญฟีเจอร์ที่ได้ระหว่างการฝึก
ตัวอย่าง: Lasso (L1), feature_importances_ ของต้นไม้, Boruta


สิ่งที่จะเรียนในบทนี้ #

  • พื้นฐานการเลือกคุณลักษณะ (ภาพรวมและ 3 แนวทาง)
  • Boruta (วิธีเลือกฟีเจอร์ที่เสถียรด้วยโมเดลต้นไม้)
  • (ขั้นสูง) เปรียบเทียบวิธีอื่นและการใช้งานจริง

สรุป #

  • การเลือกคุณลักษณะสำคัญต่อ ความแม่นยำ ประสิทธิภาพ และการตีความ
  • แบ่งได้เป็น 3 กลุ่ม: ฟิลเตอร์ แรปเปอร์ และเอ็มเบดเด็ด
  • งานจริงมักใช้ เอ็มเบดเด็ด เช่น Lasso หรือโมเดลต้นไม้ร่วมกับ Boruta