2.1.2
ริจ & แลสโซ
สรุป
- การถดถอยแบบริจเพิ่มโทษ L2 เพื่อลดความผันผวนของสัมประสิทธิ์ ทำให้เสถียรกว่าการถดถอยธรรมดาแม้ฟีเจอร์มีความสัมพันธ์สูง
- การถดถอยแบบแลสโซเพิ่มโทษ L1 จึงบีบสัมประสิทธิ์บางตัวให้เป็นศูนย์ ส่งผลดีต่อการเลือกฟีเจอร์และการตีความโมเดล
- การเลือกความแรงของการทำให้เป็นระเบียบ \(\alpha\) ช่วยสร้างสมดุลระหว่างการฟิตข้อมูลฝึกกับความสามารถในการทั่วไป
- เมื่อรวมการทำมาตรฐานและการตรวจสอบไขว้ จะเลือกพารามิเตอร์ได้มั่นใจและลดการเรียนรู้เกินได้ง่าย
สัญชาตญาณ #
การเข้าใจวิธีนี้ควรดูสมมติฐานของโมเดล ลักษณะข้อมูล และผลของการตั้งค่าพารามิเตอร์ต่อการทั่วไปของโมเดล
คำอธิบายโดยละเอียด #
สูตรสำคัญ #
ฟังก์ชันวัตถุประสงค์ของทั้งสองวิธีคือการบวกโทษลงในความคลาดเคลื่อนกำลังสอง
Ridge
$$ \min_{\boldsymbol\beta, b} \sum_{i=1}^{n} \left(y_i - (\boldsymbol\beta^\top \mathbf{x}_i + b)\right)^2 + \alpha \lVert \boldsymbol\beta \rVert_2^2 $$Lasso
$$ \min_{\boldsymbol\beta, b} \sum_{i=1}^{n} \left(y_i - (\boldsymbol\beta^\top \mathbf{x}_i + b)\right)^2 + \alpha \lVert \boldsymbol\beta \rVert_1 $$
ค่า \(\alpha\) ยิ่งใหญ่ยิ่งบังคับให้สัมประสิทธิ์เล็กลง สำหรับแลสโซ เมื่อ \(\alpha\) เกินค่าหนึ่งสัมประสิทธิ์บางตัวจะเป็นศูนย์ ทำให้ได้โมเดลแบบสปาร์ส
ทดลองด้วย Python #
ตัวอย่างต่อไปนี้สร้างข้อมูลที่มีเพียงบางฟีเจอร์ที่มีผล แล้วเปรียบเทียบเส้นตรงทั่วไปกับ Ridge และ Lasso
| |
วิเคราะห์ผลลัพธ์ #
- Ridge ทำให้สัมประสิทธิ์ทุกตัวหดลงอย่างนุ่มนวล จึงยังคงใช้ฟีเจอร์ทั้งหมดแต่เสถียรขึ้น
- Lasso ทำให้บางสัมประสิทธิ์เป็นศูนย์ ส่งผลให้เหลือเฉพาะฟีเจอร์ที่จำเป็น
- เลือกค่า \(\alpha\) ด้วย cross-validation จะช่วยคุมความสมดุลระหว่างการฟิตชุดฝึกกับการทั่วไป
เอกสารอ้างอิง #
- Hoerl, A. E., & Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12(1), 55 E7.
- Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B, 58(1), 267 E88.
- Zou, H., & Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society: Series B, 67(2), 301 E20.