次元削減

2.6

次元削減

まとめ
  • この章では、高次元データを情報を保ちながら低次元に圧縮する代表手法を学ぶ。
  • 線形手法(PCA/SVD/LDA)と非線形手法(t-SNE/Isomap/Kernel PCA)の使い分けを理解する。
  • 可視化・前処理・ノイズ低減など、実務で次元削減をどう使うかを判断できるようになる。

直感 #

次元削減は、データのばらつきや近さの構造をできるだけ保ったまま、情報を少ない軸に再配置する技術です。目的が可視化なのか、下流モデルの性能改善なのかで、保持すべき構造(大域構造か局所近傍か)が変わります。

詳細な解説 #

このチャプターで学べること #

  • PCA(主成分分析)による分散最大化の基本と、寄与率を使った次元数の決め方
  • SVD(特異値分解)の数学的基盤と、PCAとの関係
  • LDA(線形判別分析)による教師あり次元削減と、クラス分離の最大化
  • Kernel PCAによる非線形構造の捉え方
  • t-SNEとIsomapによる高次元データの可視化と、局所構造の保存

これがわかるとできること #

  • 目的(可視化・ノイズ除去・計算効率化)に応じて適切な次元削減手法を選択できる
  • 線形手法と非線形手法の特性の違いを理解し、データ構造に合わせた使い分けができる
  • 次元削減を前処理パイプラインに組み込み、下流モデルの性能を改善できる

手法クイックリファレンス #

手法種別教師推奨場面
PCA線形なし前処理・ノイズ除去・可視化
SVD線形なし大規模行列・推薦システム
LDA線形ありクラス分離を重視する圧縮
Kernel PCA非線形なし非線形構造の可視化
t-SNE非線形なし高次元データの2D/3D可視化
Isomap非線形なし多様体構造の保存

学習の進め方 #

  1. まずPCAで次元削減の基本概念と分散の考え方を押さえる
  2. SVDで数学的基盤を理解し、PCAとの関係を確認する
  3. LDAで教師あり次元削減の考え方を学ぶ
  4. t-SNE・Isomap・Kernel PCAで非線形手法の特徴と使い分けを身に付ける

まとめ #

このチャプターでは、線形手法(PCA/SVD/LDA)と非線形手法(t-SNE/Isomap/Kernel PCA)の6つの次元削減手法を学びました。 目的が可視化なのか前処理なのかを明確にし、データの構造(線形・非線形・教師情報の有無)に応じて手法を使い分けられるようになることがゴールです。