2.1.9
PLS Regression
สรุป
- PLS ดึงปัจจัยแฝงที่ทำให้ความแปรปรวนร่วมระหว่างตัวแปรอธิบายและตัวแปรเป้าหมายสูงสุด แล้วใช้ปัจจัยเหล่านั้นในการถดถอย จึงเป็นการลดมิติที่มีผู้สอน
- ต่างจาก PCA ที่สนใจเฉพาะตัวแปรอธิบาย PLS เรียนรู้แกนที่สะท้อนเป้าหมาย จึงลดมิติได้โดยไม่เสียสมรรถนะการพยากรณ์
- การเลือกจำนวนปัจจัยแฝงให้เหมาะช่วยแก้ปัญหาความสัมพันธ์เชิงเส้นพหุคูณที่รุนแรงได้
- เมื่อดู loading plots จะเห็นได้ว่าฟีเจอร์ใดรวมตัวกันเพื่อมีผลกับเป้าหมาย ทำให้อธิบายแก่ผู้ใช้งานได้ง่าย
สัญชาตญาณ #
การเข้าใจวิธีนี้ควรดูสมมติฐานของโมเดล ลักษณะข้อมูล และผลของการตั้งค่าพารามิเตอร์ต่อการทั่วไปของโมเดล
คำอธิบายโดยละเอียด #
สูตรสำคัญ #
ให้เมทริกซ์ตัวอธิบาย \(\mathbf{X}\) และเวกเตอร์เป้าหมาย \(\mathbf{y}\) เราอัปเดตคะแนนแฝง \(\mathbf{t} = \mathbf{X}\mathbf{w}\) และ \(\mathbf{u} = \mathbf{y} c\) สลับกันเพื่อเพิ่มความแปรปรวนร่วม \(\mathbf{t}^\top \mathbf{u}\) ให้สูงสุด ทำซ้ำหลายรอบเพื่อได้ปัจจัยแฝงหลายตัว แล้วทำการถดถอยเชิงเส้นบนปัจจัยเหล่านี้ หากใช้ \(k\) ปัจจัย สมการพยากรณ์จะมีรูป
$$ \hat{y} = \mathbf{t}\boldsymbol{b} + b_0 $$จำนวนปัจจัยเหมาะสมมักเลือกโดย cross-validation
ทดลองด้วย Python #
โค้ดด้านล่างใช้ชุดข้อมูล Linnerud (ข้อมูลการออกกำลังกาย) เพื่อดูประสิทธิภาพของจำนวนปัจจัยแฝงต่างๆ
| |

วิเคราะห์ผลลัพธ์ #
- CV MSE มักจะลดลงเมื่อเพิ่มจำนวนปัจจัย แล้วเริ่มเพิ่มขึ้นเมื่อเกินจุดที่เหมาะสม สามารถใช้กราฟเพื่อเลือกจุดสมดุล
x_loadings_และy_loadings_แสดงว่าฟีเจอร์ใดมีผลต่อปัจจัยแฝง จึงอธิบายให้ผู้ใช้เข้าใจได้ง่าย- การทำมาตรฐานช่วยให้ฟีเจอร์ต่างสเกลอยู่ร่วมกันบนปัจจัยเดียวได้อย่างสมดุล
เอกสารอ้างอิง #
- Wold, H. (1975). Soft Modelling by Latent Variables: The Non-Linear Iterative Partial Least Squares (NIPALS) Approach. In Perspectives in Probability and Statistics. Academic Press.
- Geladi, P., & Kowalski, B. R. (1986). Partial Least-Squares Regression: A Tutorial. Analytica Chimica Acta, 185, 1 E7.