Lda.id
Ringkasan
- LDA adalah reduksi dimensi terawasi yang memaksimalkan jarak antar kelas dan meminimalkan sebaran dalam kelas.
- Karena memanfaatkan label, LDA sering efektif sebagai praproses klasifikasi.
- Kinerja dipengaruhi distribusi kelas dan asumsi kovarians.
Intuisi #
Berbeda dari PCA, LDA mengejar keterpisahan kelas secara langsung. Arah proyeksi dipilih agar kelas makin kompak dan saling jauh.
Penjelasan Rinci #
1. PCA vs LDA #
- PCA: tak menggunakan label, hanya menjaga varian terbesar.
- LDA: menggunakan label untuk memaksimalkan seperability kelas.
2. Rumus #
Dengan kelas (C_1, \dots, C_k):
- Scatter intra-kelas: (S_W = \sum_{j=1}^k \sum_{x_i \in C_j} (x_i - \mu_j)(x_i - \mu_j)^\top)
- Scatter antar-kelas: (S_B = \sum_{j=1}^k n_j (\mu_j - \mu)(\mu_j - \mu)^\top)
- Maksimalkan (J(w) = \frac{w^\top S_B w}{w^\top S_W w}); autovektor (S_W^{-1}S_B) menjadi arah diskriminan (maksimal
n_classes - 1).
3. Dataset contoh #
| |
4. LDA di scikit-learn #
| |
5. Bandingkan dengan PCA #
| |
PCA mencampur kelas karena tak menggunakan label; LDA menjaga pemisahan.
6. Tips #
- Komponen maksimal = jumlah kelas − 1.
- Standardisasi fitur terlebih dahulu.
- Jika asumsi kovarians homogen tak terpenuhi, pertimbangkan QDA atau LDA regularisasi.