การลดมิติ #
การลดมิติ คือการบีบจำนวนฟีเจอร์ให้เหลือน้อยที่สุดโดยสูญเสียข้อมูลให้น้อยที่สุด ใช้เพื่อการมองภาพรวมของข้อมูลมิติสูง ลด noise และเร่งความเร็วการเรียนรู้
วิธีที่พบบ่อย #
- PCA / SVD / LDA / Kernel PCA: เทคนิคเชิงเส้นที่ตั้งอยู่บนพื้นฐานพีชคณิตเชิงเส้น
- t-SNE: เครื่องมือสำรวจข้อมูลที่คงความคล้ายของเพื่อนบ้านเมื่อฉายลง 2D/3D
- Isomap: ใช้ระยะทางตามกราฟ (geodesic) เพื่อคลี่ manifold ที่โค้ง
ทำไมถึงต้องลดมิติ #
- การมองภาพ: ทำให้เห็นโครงสร้างคลัสเตอร์หรือจุดผิดปกติ |- การตัด Noise: เก็บเฉพาะองค์ประกอบที่ให้ข้อมูลมากที่สุดเพื่อลดการเรียนรู้เกิน
- ประสิทธิภาพ: ลด feature dimension แล้วอัลกอริทึม downstream จะทำงานเร็วขึ้น
สาระสำคัญ #
- ใช้ทั้งวิธีเชิงเส้นและไม่เชิงเส้นเพื่อทำความเข้าใจ manifold ของข้อมูล
- เข้าใจว่าพารามิเตอร์และนิยามระยะมีผลอย่างไร เลือกวิธีให้เหมาะกับโจทย์แต่ละแบบ