2.6
次元削減
まとめ
- この章では、高次元データを情報を保ちながら低次元に圧縮する代表手法を学ぶ。
- 線形手法(PCA/SVD/LDA)と非線形手法(t-SNE/Isomap/Kernel PCA)の使い分けを理解する。
- 可視化・前処理・ノイズ低減など、実務で次元削減をどう使うかを判断できるようになる。
直感 #
次元削減は、データのばらつきや近さの構造をできるだけ保ったまま、情報を少ない軸に再配置する技術です。目的が可視化なのか、下流モデルの性能改善なのかで、保持すべき構造(大域構造か局所近傍か)が変わります。
詳細な解説 #
このチャプターで学べること #
- PCA(主成分分析)による分散最大化の基本と、寄与率を使った次元数の決め方
- SVD(特異値分解)の数学的基盤と、PCAとの関係
- LDA(線形判別分析)による教師あり次元削減と、クラス分離の最大化
- Kernel PCAによる非線形構造の捉え方
- t-SNEとIsomapによる高次元データの可視化と、局所構造の保存
これがわかるとできること #
- 目的(可視化・ノイズ除去・計算効率化)に応じて適切な次元削減手法を選択できる
- 線形手法と非線形手法の特性の違いを理解し、データ構造に合わせた使い分けができる
- 次元削減を前処理パイプラインに組み込み、下流モデルの性能を改善できる
手法クイックリファレンス #
| 手法 | 種別 | 教師 | 推奨場面 |
|---|---|---|---|
| PCA | 線形 | なし | 前処理・ノイズ除去・可視化 |
| SVD | 線形 | なし | 大規模行列・推薦システム |
| LDA | 線形 | あり | クラス分離を重視する圧縮 |
| Kernel PCA | 非線形 | なし | 非線形構造の可視化 |
| t-SNE | 非線形 | なし | 高次元データの2D/3D可視化 |
| Isomap | 非線形 | なし | 多様体構造の保存 |
学習の進め方 #
- まずPCAで次元削減の基本概念と分散の考え方を押さえる
- SVDで数学的基盤を理解し、PCAとの関係を確認する
- LDAで教師あり次元削減の考え方を学ぶ
- t-SNE・Isomap・Kernel PCAで非線形手法の特徴と使い分けを身に付ける
まとめ #
このチャプターでは、線形手法(PCA/SVD/LDA)と非線形手法(t-SNE/Isomap/Kernel PCA)の6つの次元削減手法を学びました。 目的が可視化なのか前処理なのかを明確にし、データの構造(線形・非線形・教師情報の有無)に応じて手法を使い分けられるようになることがゴールです。