Bagian 3.2 #
Fitur kategorikal #
Pola praktis untuk mengodekan kategori, menangani level langka, mengatasi kardinalitas tinggi, dan menggabungkan dengan fitur numerik di dalam pipeline.
Pengodean umum #
- One‑hot / Dummy: aman untuk kardinalitas rendah; perhatikan dimensi.
- Ordinal: saat ada urutan alami (rendah < sedang < tinggi).
- Target / Mean: kuat, wajib CV‑encoding untuk mencegah kebocoran.
- Hashing: skalabel untuk kardinalitas tinggi; tabrakan tidak dapat dibalik.
Tips #
- Gabungkan level langka (ambang frekuensi) agar model stabil.
- Letakkan pengodean dalam
Pipelineuntuk mencegah kebocoran train/test. - Untuk pohon/GBM, one‑hot sering cukup; model linear terbantu oleh pilihan ordinal/target yang hati‑hati.