Selección de características

Basic

Selección de características | Guía de aprendizaje automático

Capítulo 7 #

Selección de características #

La selección de características reduce la dimensionalidad de entrada para mejorar la generalización, acelerar el entrenamiento y facilitar la interpretación. Úsala para eliminar ruido, evitar sobreajuste y simplificar los pipelines.

Enfoques #

  • Métodos filtro: puntúan cada variable con una estadística univariada (correlación, información mutua, chi‑cuadrado) y conservan las mejores.
  • Métodos wrapper: buscan subconjuntos con un modelo predictivo (selección hacia delante/atrás, RFE). Potentes pero costosos y con riesgo de sobreajuste.
  • Métodos embebidos: seleccionan durante el entrenamiento (regularización L1/Lasso, importancias de árboles, Boruta).

Consejos prácticos #

  • Empieza con filtros; reserva wrappers para pocos atributos.
  • Prefiere embebidos si tu modelo expone coeficientes o importancias.
  • Valida con validación cruzada; vigila fuga de información y estabilidad entre pliegues.

Referencias y herramientas #

  • scikit‑learn: SelectKBest, SelectFromModel, RFE, RFECV, Lasso
  • Boruta: wrapper robusto sobre importancias de árboles