Capítulo 7 #
Selección de características #
La selección de características reduce la dimensionalidad de entrada para mejorar la generalización, acelerar el entrenamiento y facilitar la interpretación. Úsala para eliminar ruido, evitar sobreajuste y simplificar los pipelines.
Enfoques #
- Métodos filtro: puntúan cada variable con una estadística univariada (correlación, información mutua, chi‑cuadrado) y conservan las mejores.
- Métodos wrapper: buscan subconjuntos con un modelo predictivo (selección hacia delante/atrás, RFE). Potentes pero costosos y con riesgo de sobreajuste.
- Métodos embebidos: seleccionan durante el entrenamiento (regularización L1/Lasso, importancias de árboles, Boruta).
Consejos prácticos #
- Empieza con filtros; reserva wrappers para pocos atributos.
- Prefiere embebidos si tu modelo expone coeficientes o importancias.
- Valida con validación cruzada; vigila fuga de información y estabilidad entre pliegues.
Referencias y herramientas #
- scikit‑learn:
SelectKBest,SelectFromModel,RFE,RFECV,Lasso - Boruta: wrapper robusto sobre importancias de árboles