Pohon keputusan | Model berbasis aturan yang mudah dijelaskan

まとめ

Pohon keputusan membagi ruang fitur dengan pertanyaan sederhana sehingga menghasilkan kumpulan aturan yang mudah dibaca manusia.
Dengan memadukan versi klasifikasi, regresi, ensambel berbasis gradien, dan alat seperti dtreeviz, kita dapat memvisualisasikan perilaku kompleks secara intuitif.
Hiperparameter (kedalaman, ukuran daun minimum, pruning) mengatur keseimbangan bias–varian dan perlu ditala menggunakan data validasi sambil meninjau aturan yang dihasilkan.

Pohon keputusan #

1. Gambaran umum #

Setiap split mengajukan pertanyaan if-then dan mengarahkan sampel ke kiri atau kanan hingga mencapai daun yang mengeluarkan prediksi. Karena setiap jalur merupakan aturan eksplisit, pohon populer di ranah yang menuntut akuntabilitas—skoring kredit, operasi, atau alur kerja yang membutuhkan logika bisnis jelas.

2. Impuritas dan pruning #

Indeks Gini, entropi, MSE, atau MAE mengukur seberapa beragam sebuah node. Pohon tumbuh dengan memaksimalkan penurunan impuritas, sedangkan pruning memangkas cabang yang manfaatnya tidak sebanding dengan kompleksitas menggunakan penalti seperti cost-complexity (\alpha |T|).

3. Panduan Python #

Subbab berikut menampilkan praktik terbaik:

Klasifikasi Pohon Keputusan – mempelajari Gini/entropi, wilayah keputusan, dan visualisasi pohon.
Regresi Pohon Keputusan – fungsi konstan per segmen, metrik (R^2)/RMSE/MAE, serta permukaan prediksi.
Parameter Pohon – eksperimen dengan max_depth, min_samples_leaf, ccp_alpha, dan kriteria split.
RuleFit – menggabungkan aturan hasil pohon dengan istilah linear untuk model jarang yang tetap akurat.

Semua contoh menggunakan scikit-learn dan dapat dijalankan ulang lewat notebook atau skrip di repositori ini.

4. Referensi #

Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth.
scikit-learn developers. (2024). Decision Trees. https://scikit-learn.org/stable/modules/tree.html