k-means++

2.5.2

k-means++

Diperbarui 2020-02-12 Baca 1 menit
Ringkasan
  • k-means++ menyebarkan centroid awal sehingga k-means lebih jarang berhenti pada solusi lokal yang buruk.
  • Setiap centroid baru dipilih dengan peluang sebanding kuadrat jaraknya terhadap centroid yang sudah ada, sehingga seed tidak terkumpul di satu area.
  • Dengan KMeans(init="k-means++") di scikit-learn, perbandingan dengan inisialisasi acak menjadi sangat mudah.
  • Turunan skala besar seperti mini-batch k-means dibangun dari ide k-means++ dan lazim dipakai pada data streaming maupun dataset raksasa.

Intuisi #

Metode ini dipahami lewat asumsi dasarnya, karakteristik data, dan dampak pengaturan parameter terhadap generalisasi.

Penjelasan Rinci #