การถดถอย

Basic

แบบจำลองการถดถอย | พื้นฐานวิธีเชิงเส้นและการทำให้เป็นระเบียบ

まとめ
  • การถดถอยเชิงเส้นเป็นแบบจำลองพื้นฐานที่สุดที่อธิบายความสัมพันธ์เชิงเส้นระหว่างอินพุตกับเอาต์พุต จึงเป็นฐานทั้งสำหรับการพยากรณ์และการตีความ
  • เมื่อผสานกับเทคนิคอย่างการทำให้เป็นระเบียบ การทำให้ทนทาน หรือการลดมิติ ก็สามารถรับมือกับข้อมูลที่หลากหลายได้
  • ทุกหน้าเดินตามโครง “ภาพรวม → สัญชาติญาณ → สูตร → ทดลองด้วย Python → เอกสารอ้างอิง” จึงค่อยๆ ขยายความเข้าใจได้อย่างเป็นระบบ

การถดถอยเชิงเส้น #

ภาพรวมเชิงสัญชาติญาณ #

การถดถอยเชิงเส้นตอบคำถามพื้นฐานว่า “ถ้าอินพุตเพิ่มขึ้นหนึ่งหน่วย เอาต์พุตจะเปลี่ยนไปเท่าใด” แบบจำลองมีค่าสัมประสิทธิ์ที่ตีความได้ง่ายและเทรนได้รวดเร็ว จึงมักเป็นตัวเลือกแรกในโปรเจกต์แมชชีนเลิร์นนิง และยังใช้เป็นจุดอ้างอิงเมื่อประเมินวิธีอื่นๆ

สูตรสำคัญ #

วิธีการกำลังสองน้อยที่สุดประมาณค่าสัมประสิทธิ์โดยทำให้ผลรวมกำลังสองของส่วนต่างระหว่างค่าที่สังเกตกับค่าที่พยากรณ์มีค่าต่ำสุด สำหรับการถดถอยเชิงเส้นพหุคูณ เราใช้เมทริกซ์ \(\mathbf{X}\) และเวกเตอร์ \(\mathbf{y}\) แล้วได้คำตอบปิดรูป

$$ \hat{\boldsymbol\beta} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} $$

จากกรอบคิดนี้เราจะต่อยอดด้วยการทำให้เป็นระเบียบ ความทนทาน หรือการลดมิติ เพื่อรับมือสถานการณ์ต่างๆ ในโลกจริง

ทดลองด้วย Python #

ทุกหน้ามีโค้ด scikit-learn ที่รันได้ทันที โดยหัวข้อหลักๆ ได้แก่

  • พื้นฐาน: วิธีการกำลังสองน้อยที่สุด การถดถอยสัน การถดถอยแลสโซ การถดถอยแบบทนทาน
  • เพิ่มพลังการแทนค่า: การถดถอยพหุนาม Elastic Net การถดถอยเชิงปริมาณ การถดถอยเชิงเส้นแบบเบย์
  • การลดมิติและความเบาบาง: การถดถอยด้วยองค์ประกอบหลัก PLS การถดถอยกำลังสองถ่วงน้ำหนัก Orthogonal Matching Pursuit และ SVR

คุณสามารถลองรันโค้ด ปรับพารามิเตอร์ แล้วสังเกตพฤติกรรมของแบบจำลองได้ทันที

เอกสารอ้างอิง #

  • Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley & Sons.
  • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.
  • Seber, G. A. F., & Lee, A. J. (2012). Linear Regression Analysis (2nd ed.). Wiley.