2.5.1
k-means
สรุป
- k-means ยึดแนวคิดง่ายๆ “จุดที่อยู่ใกล้กันควรอยู่กลุ่มเดียวกัน” โดยอัปเดตจุดศูนย์กลาง (centroid) สลับกับการจัดกลุ่มข้อมูลให้ได้ \(k\) คลัสเตอร์
- ฟังก์ชันวัตถุประสงค์คือผลรวมระยะกำลังสองระหว่างตัวอย่างกับเซนทรอยด์ของมัน (WCSS) เราพยายามทำให้ค่านี้ต่ำสุด
scikit-learnมีKMeansให้ทดลองได้สะดวก สามารถดูการลู่เข้าของ WCSS หรือความเปลี่ยนแปลงของการจัดกลุ่มได้- การเลือกจำนวนคลัสเตอร์ \(k\) มักใช้ elbow method, silhouette score หรือพิจารณาร่วมกับบริบทธุรกิจ
สัญชาตญาณ #
การเข้าใจวิธีนี้ควรดูสมมติฐานของโมเดล ลักษณะข้อมูล และผลของการตั้งค่าพารามิเตอร์ต่อการทั่วไปของโมเดล