Chapter 5 #
クラスタリング #
クラスタリングとは、データに「ラベル」が与えられていない状態で、その構造を見つけ出すための手法です。 教師あり学習が「答え(ラベル)を予測すること」に焦点を当てるのに対し、クラスタリングは「データそのもののパターンやグループを発見すること」を目的とします。
なぜクラスタリングを学ぶのか? #
未知のデータを理解するため
例えばユーザー行動ログや購買データなど、最初からラベルがついていないデータは多いです。クラスタリングは「似ているデータ同士をまとめる」ことで全体像を把握できます。可視化や探索の出発点になる
高次元データをクラスタリングすると、「どんなパターンが存在するのか」「どのような特徴が重要なのか」を見つけるヒントになります。実務での応用が広い
- マーケティング:顧客をセグメントに分けて戦略を立てる
- 医療:患者データをグループ化して治療法を検討
- セキュリティ:不審なアクセスのクラスタを検知
- 画像・自然言語処理:特徴空間で類似度に基づいたグルーピング
この章で学ぶこと #
この章では、クラスタリングの代表的なアルゴリズムを取り上げ、それぞれの「仕組み」「数式の直感」「Pythonによる実装例」を紹介します。
- k-means:最も基本的なクラスタリング手法
- k-means++:初期値を工夫して安定性を高めた手法
- X-means:クラスタ数を自動的に推定する拡張版
- (発展)クラスタ数の決め方(エルボー法・シルエットスコア)
まとめ #
- クラスタリングは「教師なし学習」の代表例。
- ラベルがないデータから構造を見つけることで、新しい発見や応用につながる。
- 実務的にも研究的にも幅広く利用される重要なテクニック。