2.1.4
การถดถอยพหุนาม
สรุป
- การถดถอยพหุนามสร้างฟีเจอร์กำลังต่างๆ แล้วส่งให้โมเดลเชิงเส้น ทำให้จับความสัมพันธ์ที่ไม่เชิงเส้นได้
- โมเดลยังคงเป็นการรวมเชิงเส้นของสัมประสิทธิ์ จึงคงข้อดีด้านคำตอบแบบปิดรูปและการตีความของการถดถอยเชิงเส้น
- ยิ่งเพิ่มอันดับพหุนาม ยิ่งมีพลังในการแทนค่า แต่ก็เสี่ยงเกิด overfitting จึงควบคุมด้วยการทำให้เป็นระเบียบหรือ cross-validation
- ควรทำมาตรฐานฟีเจอร์ก่อน และเลือกอันดับ/ความแรงของการทำให้เป็นระเบียบอย่างระมัดระวังเพื่อให้ผลพยากรณ์นิ่ง
สัญชาตญาณ #
การเข้าใจวิธีนี้ควรดูสมมติฐานของโมเดล ลักษณะข้อมูล และผลของการตั้งค่าพารามิเตอร์ต่อการทั่วไปของโมเดล
คำอธิบายโดยละเอียด #
สูตรสำคัญ #
ให้เวกเตอร์อินพุต \(\mathbf{x} = (x_1, \dots, x_m)\) และกำหนดอันดับพหุนาม \(d\) เราสร้างแผนที่ฟีเจอร์ \(\phi(\mathbf{x})\) และทำการถดถอยเชิงเส้นบนฟีเจอร์เหล่านี้ เช่น เมื่อ \(m = 2, d = 2\)
$$ \phi(\mathbf{x}) = (1, x_1, x_2, x_1^2, x_1 x_2, x_2^2) $$แบบจำลองมีรูป
$$ y = \mathbf{w}^\top \phi(\mathbf{x}) $$เมื่อเพิ่ม \(d\) จำนวนฟีเจอร์จะโตเร็วมาก จึงมักเริ่มจากอันดับ 2 หรือ 3 แล้วเลือกใช้วิธีทำให้เป็นระเบียบ (เช่น Ridge หรือ Lasso) ร่วมด้วยตามความจำเป็น
ทดลองด้วย Python #
ตัวอย่างต่อไปนี้เพิ่มฟีเจอร์พหุนามอันดับ 3 เพื่อเรียนรู้ความสัมพันธ์รูปเส้นโค้ง
| |

วิเคราะห์ผลลัพธ์ #
- โมเดลเชิงเส้นทั่วไปไม่สามารถตามส่วนโค้งตรงกลางได้ ในขณะที่พหุนามอันดับ 3 จับรูปทรงได้ใกล้เคียงกับความจริง
- การเพิ่มอันดับพหุนามช่วยให้ฟิตชุดฝึกดีขึ้นแต่ทำให้การคาดการณ์นอกช่วงไม่เสถียร จึงต้องระวัง overfitting
- การใช้การทำให้เป็นระเบียบ (เช่น Ridge/Lasso) ในพาเลตเดียวกันช่วยควบคุมโมเดลเมื่อมีฟีเจอร์จำนวนมาก
เอกสารอ้างอิง #
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.