2.1.7
การถดถอยควอนไทล์
สรุป
- การถดถอยควอนไทล์ประมาณค่ากลาง เปอร์เซ็นไทล์ 10 หรือเปอร์เซ็นไทล์ใดๆ ได้โดยตรง ไม่จำกัดแค่ค่าเฉลี่ย
- การใช้ pinball loss ทำให้โมเดลทนทานต่อ outlier และรับมือกับ noise ที่ไม่สมมาตรได้ดี
- แต่ละควอนไทล์เป็นโมเดลแยกกัน หากรวมควอนไทล์ต่ำและสูงเข้าด้วยกันจะได้แถบคาดการณ์ (prediction interval)
- การทำมาตรฐานและการเลือกพารามิเตอร์การทำให้เป็นระเบียบช่วยให้การหาคำตอบลู่เข้าและมีการทั่วไปที่ดี
สัญชาตญาณ #
การเข้าใจวิธีนี้ควรดูสมมติฐานของโมเดล ลักษณะข้อมูล และผลของการตั้งค่าพารามิเตอร์ต่อการทั่วไปของโมเดล
คำอธิบายโดยละเอียด #
สูตรสำคัญ #
ให้ค่าคลาดเคลื่อน \(r = y - \hat{y}\) และควอนไทล์ \(\tau \in (0,1)\) pinball loss นิยามเป็น
$$ L_\tau(r) = \begin{cases} \tau \, r & (r \ge 0) \\\\ (\tau - 1) r & (r < 0) \end{cases} $$การทำให้ loss นี้ต่ำสุดให้ตัวพยากรณ์ที่สอดคล้องกับควอนไทล์ \(\tau\) เช่น \(\tau = 0.5\) เท่ากับการถดถอยแบบมัธยฐาน ซึ่งมีพฤติกรรมเดียวกับการลดค่าความคลาดเคลื่อนสัมบูรณ์และทนทานต่อ outlier
ทดลองด้วย Python #
โค้ดต่อไปนี้ใช้ QuantileRegressor เพื่อประมาณควอนไทล์ 0.1, 0.5 และ 0.9 พร้อมกับเส้นเชิงเส้นทั่วไป
| |

วิเคราะห์ผลลัพธ์ #
- แต่ละควอนไทล์ให้เส้นที่ต่างกัน จึงมองเห็นการกระจายตัวด้านบนและด้านล่างได้ชัด
- เมื่อเปรียบเทียบกับ OLS ที่จับค่าเฉลี่ย จะเห็นว่าโมเดลควอนไทล์รับมือกับ noise ที่เอียงด้านเดียวได้ดีกว่า
- การมีหลายควอนไทล์พร้อมกันช่วยสร้างช่วงคาดการณ์เพื่อสนับสนุนการตัดสินใจ เช่น กำหนด buffer สำหรับอุปสงค์
เอกสารอ้างอิง #
- Koenker, R., & Bassett, G. (1978). Regression Quantiles. Econometrica, 46(1), 33 E0.
- Koenker, R. (2005). Quantile Regression. Cambridge University Press.