PC A.id
Ringkasan
- PCA mencari sumbu ortogonal dengan varian terbesar lalu memproyeksikan data ke komponen utama tersebut.
- Rasio varian terjelaskan membantu memilih jumlah komponen yang tepat.
- Standardisasi fitur penting ketika skala antar variabel berbeda.
Intuisi #
PCA memutar sistem koordinat ke arah yang paling informatif. Menyimpan beberapa arah utama saja sudah cukup untuk mempertahankan struktur dominan data.
Penjelasan Rinci #
1. Motivasi #
- Data berdimensi tinggi sulit divisualisasikan; PCA mencari kombinasi linear ortogonal yang paling informatif.
- Metode ini tidak butuh label—murni berdasarkan kovarians data.
- Komponen utama hasil proyeksi dapat dipakai untuk visualisasi, denoising, atau model lanjutan.
2. Rumus utama #
Dengan matriks data berpusat (X \in \mathbb{R}^{n \times d}):
- Kovarians (\Sigma = \frac{1}{n} X^\top X)
- Autovektor (\Sigma v_j = \lambda_j v_j)
- Proyeksi (Z = X V_k)
3. Dataset contoh #
| |
4. PCA di scikit-learn #
| |
5. Pentingnya penskalaan #
| |
6. Catatan praktis #
- Gunakan rasio varian yang dijelaskan untuk memilih jumlah komponen (80–90% sering cukup).
- PCA dijalankan lewat SVD; gunakan solver teracak untuk dataset besar.
- Jika struktur data nonlinier, coba Kernel PCA, UMAP, atau t-SNE.