2.5.1
k-means
まとめ
- k-means は「距離が近い点同士をまとめる」という素朴な直感をもとに、クラスタの代表点(セントロイド)を更新しながらデータを \(k\) 個に分割します。
- 目的関数は各サンプルと所属クラスタのセントロイドとの距離二乗和(WCSS)で、これを最小にする配置を探します。
scikit-learnのKMeansを使えば、初期値や反復回数を変えつつ収束過程やクラスタ割り当ての変化を可視化できます。- クラスタ数 \(k\) の選択にはエルボー法やシルエット係数などの指標が使われ、データ構造とビジネス要件を踏まえて判断します。
直感 #
k-meansクラスタリング | 重心の更新でデータを自動分割の要点は、データの性質に合わせて前提を確認し、適切な評価指標で挙動を検証することにあります。