2.2.4
Análisis Discriminante Lineal (LDA)
- LDA es reduccion supervisada: maximiza separacion entre clases y minimiza dispersion intra-clase.
- Al usar etiquetas, suele mejorar pipelines de clasificacion.
- Su rendimiento depende de distribuciones de clase y supuestos de covarianza.
Intuicion #
A diferencia de PCA, LDA no busca solo varianza; busca ejes donde las clases queden compactas y separadas.
Explicacion Detallada #
1. PCA vs LDA #
- PCA: no usa etiquetas; sólo captura la mayor varianza global.
- LDA: supervisada; maximiza el cociente entre varianza inter-clase e intra-clase.
2. Formulación #
Para clases (C_1, \dots, C_k):
- Disp. intra-clase: (S_W = \sum_{j=1}^k \sum_{x_i \in C_j} (x_i - \mu_j)(x_i - \mu_j)^\top)
- Disp. inter-clase: (S_B = \sum_{j=1}^k n_j (\mu_j - \mu)(\mu_j - \mu)^\top)
- Optimización: (J(w) = \frac{w^\top S_B w}{w^\top S_W w}); los autovectores de (S_W^{-1} S_B) definen las direcciones discriminantes.
3. Dataset #
| |
4. Aplicar LDA #
| |
5. Comparar con PCA #
| |
6. Consejos #
- El número máximo de componentes útiles es
n_clases - 1. - Estandariza las variables antes de entrenar.
- LDA asume covarianzas similares entre clases; si no se cumple, evalúa QDA o versiones regularizadas.
Preguntas frecuentes #
¿Qué es el Análisis Discriminante Lineal (LDA)? #
El Análisis Discriminante Lineal (LDA) es una técnica supervisada de reducción de dimensionalidad y clasificación. Encuentra combinaciones lineales de variables que maximizan la separación entre clases (varianza inter-clase) minimizando a la vez la dispersión dentro de cada clase (varianza intra-clase). A diferencia de PCA, LDA utiliza las etiquetas de clase, lo que lo hace ideal como paso previo a la clasificación.
¿Cuál es la fórmula del LDA? #
LDA optimiza el criterio de Fisher:
$$ J(w) = \frac{w^\top S_B w}{w^\top S_W w} $$donde \(S_W\) es la matriz de dispersión intra-clase y \(S_B\) la inter-clase. Las direcciones óptimas \(w\) son los autovectores de \(S_W^{-1} S_B\). El número máximo de componentes discriminantes es \(k - 1\), donde \(k\) es el número de clases.
¿Cuál es la diferencia entre LDA y PCA? #
| PCA | LDA | |
|---|---|---|
| Supervisión | No supervisado | Supervisado (usa etiquetas) |
| Objetivo | Maximizar varianza total | Maximizar separación entre clases |
| Máx. componentes | min(n_variables, n_muestras−1) | k−1 (k = número de clases) |
| Ideal para | Compresión, eliminación de ruido | Preprocesamiento para clasificación |
Usa PCA cuando no tienes etiquetas o quieres compresión general. Usa LDA cuando quieras proyecciones que ayuden a un clasificador a separar las clases.
¿Cuáles son los casos de uso del LDA? #
LDA se aplica en:
- Reconocimiento facial: Eigenfaces supervisadas con separación por identidad.
- Diagnóstico médico: separar grupos de pacientes a partir de variables clínicas.
- Análisis de texto: proyectar representaciones de documentos para clasificación por categoría.
- Finanzas: distinguir empresas sanas de las que tienen riesgo de quiebra.
- Análisis de marketing: segmentar clientes según comportamiento de compra.
¿Cuándo falla o funciona mal el LDA? #
LDA asume que cada clase tiene una matriz de covarianza similar. Puede fallar cuando:
- Las covarianzas entre clases difieren significativamente (usa Análisis Discriminante Cuadrático, QDA).
- El número de variables supera al de muestras (la matriz intra-clase se vuelve singular; aplica PCA primero o usa LDA regularizado).
- Las clases no son linealmente separables (considera kernel LDA o métodos no lineales).