Lda.es
Resumen
- LDA es reduccion supervisada: maximiza separacion entre clases y minimiza dispersion intra-clase.
- Al usar etiquetas, suele mejorar pipelines de clasificacion.
- Su rendimiento depende de distribuciones de clase y supuestos de covarianza.
Intuicion #
A diferencia de PCA, LDA no busca solo varianza; busca ejes donde las clases queden compactas y separadas.
Explicacion Detallada #
1. PCA vs LDA #
- PCA: no usa etiquetas; sólo captura la mayor varianza global.
- LDA: supervisada; maximiza el cociente entre varianza inter-clase e intra-clase.
2. Formulación #
Para clases (C_1, \dots, C_k):
- Disp. intra-clase: (S_W = \sum_{j=1}^k \sum_{x_i \in C_j} (x_i - \mu_j)(x_i - \mu_j)^\top)
- Disp. inter-clase: (S_B = \sum_{j=1}^k n_j (\mu_j - \mu)(\mu_j - \mu)^\top)
- Optimización: (J(w) = \frac{w^\top S_B w}{w^\top S_W w}); los autovectores de (S_W^{-1} S_B) definen las direcciones discriminantes.
3. Dataset #
| |
4. Aplicar LDA #
| |
5. Comparar con PCA #
| |
6. Consejos #
- El número máximo de componentes útiles es
n_clases - 1. - Estandariza las variables antes de entrenar.
- LDA asume covarianzas similares entre clases; si no se cumple, evalúa QDA o versiones regularizadas.