2.1.3
การถดถอยแบบ Robust
สรุป
- วิธีการกำลังสองน้อยที่สุดไวต่อค่าออกนอกกลุ่มอย่างมาก แม้ข้อมูลผิดเพียงไม่กี่จุดก็ทำให้เส้นประมาณเบนได้
- Huber loss ทำงานเป็นกำลังสองกับความคลาดเคลื่อนเล็กๆ และเป็นเส้นตรงกับความคลาดเคลื่อนใหญ่ๆ จึงลดผลกระทบของ outlier ได้แบบไดนามิก
- การปรับค่า threshold \(\delta\) และโทษ L2 \(\alpha\) ช่วยควบคุมสมดุลระหว่างความทนทานกับอคติของโมเดล
- เมื่อใช้ร่วมกับการปรับสเกลฟีเจอร์และ cross-validation โมเดลจะเชื่อถือได้มากขึ้นในข้อมูลจริง
สัญชาตญาณ #
การเข้าใจวิธีนี้ควรดูสมมติฐานของโมเดล ลักษณะข้อมูล และผลของการตั้งค่าพารามิเตอร์ต่อการทั่วไปของโมเดล
คำอธิบายโดยละเอียด #
สูตรสำคัญ #
ให้ residual \(r = y - \hat{y}\) และ threshold \(\delta > 0\) Huber loss มีนิยาม
$$ \ell_\delta(r) = \begin{cases} \dfrac{1}{2} r^2, & |r| \le \delta, \\\\ \delta \left(|r| - \dfrac{1}{2}\delta \right), & |r| > \delta. \end{cases} $$จึงมีความชันที่ค่อยๆ อิ่มตัว ทำให้จุดที่ห่างมากถูกจำกัดอิทธิพลโดยอัตโนมัติ
ทดลองด้วย Python #
ตัวอย่างต่อไปนี้แสดงรูปร่างของ Huber loss เทียบกับ loss แบบอื่น และเปรียบเทียบ OLS, Ridge, Huber เมื่อมี outlier
| |
พฤติกรรมเมื่อมี outlier #
| |
| |
วิเคราะห์ผลลัพธ์ #
- Huber loss ทำตัวเหมือนกำลังสองบริเวณศูนย์ แต่กลายเป็นเส้นตรงเมื่อ residual ใหญ่ จึงป้องกันไม่ให้ค่าผิดปกติครอบงำ
- เมื่อมี outlier เส้นของ Huber จะใกล้กับแนวโน้มจริงมากกว่า OLS และมักเบี่ยงน้อยกว่า Ridge
- ปรับ
epsilon(กำหนดช่วงที่ถือเป็นค่าปกติ) และalphaแล้วใช้ cross-validation เพื่อหาค่าที่สมดุลระหว่างการทนทานกับความแม่นยำ
เอกสารอ้างอิง #
- Huber, P. J. (1964). Robust Estimation of a Location Parameter. The Annals of Mathematical Statistics, 35(1), 73 E01.
- Hampel, F. R. et al. (1986). Robust Statistics: The Approach Based on Influence Functions. Wiley.
- Huber, P. J., & Ronchetti, E. M. (2009). Robust Statistics (2nd ed.). Wiley.