Fitur kategorikal | Pengodean dan penanganan

Prep

Fitur kategorikal | Pengodean dan penanganan

Bagian 3.2 #

Fitur kategorikal #

Pola praktis untuk mengodekan kategori, menangani level langka, mengatasi kardinalitas tinggi, dan menggabungkan dengan fitur numerik di dalam pipeline.

Pengodean umum #

  • One‑hot / Dummy: aman untuk kardinalitas rendah; perhatikan dimensi.
  • Ordinal: saat ada urutan alami (rendah < sedang < tinggi).
  • Target / Mean: kuat, wajib CV‑encoding untuk mencegah kebocoran.
  • Hashing: skalabel untuk kardinalitas tinggi; tabrakan tidak dapat dibalik.

Tips #

  • Gabungkan level langka (ambang frekuensi) agar model stabil.
  • Letakkan pengodean dalam Pipeline untuk mencegah kebocoran train/test.
  • Untuk pohon/GBM, one‑hot sering cukup; model linear terbantu oleh pilihan ordinal/target yang hati‑hati.