การลดมิติ

Basic

การลดมิติ | คู่มือพื้นฐาน

การลดมิติ #

การลดมิติ คือการบีบจำนวนฟีเจอร์ให้เหลือน้อยที่สุดโดยสูญเสียข้อมูลให้น้อยที่สุด ใช้เพื่อการมองภาพรวมของข้อมูลมิติสูง ลด noise และเร่งความเร็วการเรียนรู้


วิธีที่พบบ่อย #

  • PCA / SVD / LDA / Kernel PCA: เทคนิคเชิงเส้นที่ตั้งอยู่บนพื้นฐานพีชคณิตเชิงเส้น
  • t-SNE: เครื่องมือสำรวจข้อมูลที่คงความคล้ายของเพื่อนบ้านเมื่อฉายลง 2D/3D
  • Isomap: ใช้ระยะทางตามกราฟ (geodesic) เพื่อคลี่ manifold ที่โค้ง

ทำไมถึงต้องลดมิติ #

  • การมองภาพ: ทำให้เห็นโครงสร้างคลัสเตอร์หรือจุดผิดปกติ |- การตัด Noise: เก็บเฉพาะองค์ประกอบที่ให้ข้อมูลมากที่สุดเพื่อลดการเรียนรู้เกิน
  • ประสิทธิภาพ: ลด feature dimension แล้วอัลกอริทึม downstream จะทำงานเร็วขึ้น

สาระสำคัญ #

  • ใช้ทั้งวิธีเชิงเส้นและไม่เชิงเส้นเพื่อทำความเข้าใจ manifold ของข้อมูล
  • เข้าใจว่าพารามิเตอร์และนิยามระยะมีผลอย่างไร เลือกวิธีให้เหมาะกับโจทย์แต่ละแบบ