- การถดถอยเชิงเส้นเป็นแบบจำลองพื้นฐานที่สุดที่อธิบายความสัมพันธ์เชิงเส้นระหว่างอินพุตกับเอาต์พุต จึงเป็นฐานทั้งสำหรับการพยากรณ์และการตีความ
- เมื่อผสานกับเทคนิคอย่างการทำให้เป็นระเบียบ การทำให้ทนทาน หรือการลดมิติ ก็สามารถรับมือกับข้อมูลที่หลากหลายได้
- ทุกหน้าเดินตามโครง “ภาพรวม → สัญชาติญาณ → สูตร → ทดลองด้วย Python → เอกสารอ้างอิง” จึงค่อยๆ ขยายความเข้าใจได้อย่างเป็นระบบ
การถดถอยเชิงเส้น #
ภาพรวมเชิงสัญชาติญาณ #
การถดถอยเชิงเส้นตอบคำถามพื้นฐานว่า “ถ้าอินพุตเพิ่มขึ้นหนึ่งหน่วย เอาต์พุตจะเปลี่ยนไปเท่าใด” แบบจำลองมีค่าสัมประสิทธิ์ที่ตีความได้ง่ายและเทรนได้รวดเร็ว จึงมักเป็นตัวเลือกแรกในโปรเจกต์แมชชีนเลิร์นนิง และยังใช้เป็นจุดอ้างอิงเมื่อประเมินวิธีอื่นๆ
สูตรสำคัญ #
วิธีการกำลังสองน้อยที่สุดประมาณค่าสัมประสิทธิ์โดยทำให้ผลรวมกำลังสองของส่วนต่างระหว่างค่าที่สังเกตกับค่าที่พยากรณ์มีค่าต่ำสุด สำหรับการถดถอยเชิงเส้นพหุคูณ เราใช้เมทริกซ์ \(\mathbf{X}\) และเวกเตอร์ \(\mathbf{y}\) แล้วได้คำตอบปิดรูป
$$ \hat{\boldsymbol\beta} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} $$
จากกรอบคิดนี้เราจะต่อยอดด้วยการทำให้เป็นระเบียบ ความทนทาน หรือการลดมิติ เพื่อรับมือสถานการณ์ต่างๆ ในโลกจริง
ทดลองด้วย Python #
ทุกหน้ามีโค้ด scikit-learn ที่รันได้ทันที โดยหัวข้อหลักๆ ได้แก่
- พื้นฐาน: วิธีการกำลังสองน้อยที่สุด การถดถอยสัน การถดถอยแลสโซ การถดถอยแบบทนทาน
- เพิ่มพลังการแทนค่า: การถดถอยพหุนาม Elastic Net การถดถอยเชิงปริมาณ การถดถอยเชิงเส้นแบบเบย์
- การลดมิติและความเบาบาง: การถดถอยด้วยองค์ประกอบหลัก PLS การถดถอยกำลังสองถ่วงน้ำหนัก Orthogonal Matching Pursuit และ SVR
คุณสามารถลองรันโค้ด ปรับพารามิเตอร์ แล้วสังเกตพฤติกรรมของแบบจำลองได้ทันที
เอกสารอ้างอิง #
- Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley & Sons.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.
- Seber, G. A. F., & Lee, A. J. (2012). Linear Regression Analysis (2nd ed.). Wiley.