Bab 5 #
Pengelompokan #
Kelompokkan observasi serupa untuk menemukan struktur, merangkum dataset, atau mendukung tugas lanjutan. Pilih algoritme berdasarkan asumsi bentuk, kebutuhan robust, dan skalabilitas.
Algoritme sekilas #
- k‑means / k‑means++ / X‑means: cepat untuk klaster sferis; sensitif terhadap skala dan inisialisasi.
- DBSCAN / HDBSCAN: berbasis densitas; menemukan bentuk arbitrer dan pencilan; butuh
eps/minPtsyang masuk akal. - Gaussian Mixture (GMM): klaster probabilistik; penugasan lunak dan elipsoid.
- Hierarkis: dendrogram untuk struktur multi‑skala; pilihan linkage berpengaruh.
Tips praktik #
- Standarkan fitur; gunakan PCA/UMAP untuk visualisasi dan denoising.
- Pilih k via silhouette, elbow, atau stabilitas lintas resampling.
- Validasi dengan label jika ada; jika tidak, laporkan indeks internal plus inspeksi kualitatif.