Sección 3.2 #
Características categóricas #
Patrones prácticos para codificar categorías, tratar niveles raros, manejar alta cardinalidad y combinar con variables numéricas en pipelines.
Codificaciones comunes #
- One‑hot / Dummy: opción segura con baja cardinalidad; cuidado con la dimensionalidad.
- Ordinal: cuando existe un orden natural (p. ej., bajo < medio < alto).
- Objetivo / Media (Target/Mean): potente, requiere codificación con validación cruzada para evitar fugas.
- Hashing: escalable para alta cardinalidad; colisiones no invertibles.
Consejos #
- Consolida niveles raros (umbral de frecuencia) para estabilizar modelos.
- Mantén la codificación dentro de
Pipelinepara evitar fugas train/test. - Para árboles/GBMs, one‑hot suele ser suficiente; modelos lineales se benefician de opciones ordinal/target cuidadosas.