k-means

2.5.1

k-means

อัปเดต 2020-01-29 อ่าน 1 นาที
สรุป
  • k-means ยึดแนวคิดง่ายๆ “จุดที่อยู่ใกล้กันควรอยู่กลุ่มเดียวกัน” โดยอัปเดตจุดศูนย์กลาง (centroid) สลับกับการจัดกลุ่มข้อมูลให้ได้ \(k\) คลัสเตอร์
  • ฟังก์ชันวัตถุประสงค์คือผลรวมระยะกำลังสองระหว่างตัวอย่างกับเซนทรอยด์ของมัน (WCSS) เราพยายามทำให้ค่านี้ต่ำสุด
  • scikit-learn มี KMeans ให้ทดลองได้สะดวก สามารถดูการลู่เข้าของ WCSS หรือความเปลี่ยนแปลงของการจัดกลุ่มได้
  • การเลือกจำนวนคลัสเตอร์ \(k\) มักใช้ elbow method, silhouette score หรือพิจารณาร่วมกับบริบทธุรกิจ

สัญชาตญาณ #

การเข้าใจวิธีนี้ควรดูสมมติฐานของโมเดล ลักษณะข้อมูล และผลของการตั้งค่าพารามิเตอร์ต่อการทั่วไปของโมเดล

คำอธิบายโดยละเอียด #