Características categóricas | Codificación y manejo

Prep

Características categóricas | Codificación y manejo

Sección 3.2 #

Características categóricas #

Patrones prácticos para codificar categorías, tratar niveles raros, manejar alta cardinalidad y combinar con variables numéricas en pipelines.

Codificaciones comunes #

  • One‑hot / Dummy: opción segura con baja cardinalidad; cuidado con la dimensionalidad.
  • Ordinal: cuando existe un orden natural (p. ej., bajo < medio < alto).
  • Objetivo / Media (Target/Mean): potente, requiere codificación con validación cruzada para evitar fugas.
  • Hashing: escalable para alta cardinalidad; colisiones no invertibles.

Consejos #

  • Consolida niveles raros (umbral de frecuencia) para estabilizar modelos.
  • Mantén la codificación dentro de Pipeline para evitar fugas train/test.
  • Para árboles/GBMs, one‑hot suele ser suficiente; modelos lineales se benefician de opciones ordinal/target cuidadosas.