2.6.4
Isolation Forest
Ringkasan #
Ringkasan
- Isolation Forest mendeteksi anomali dengan mengisolasi titik lewat pemisahan acak pada banyak pohon.
- Titik dengan panjang lintasan rata-rata pendek dianggap lebih anomali karena lebih cepat terpisah dari populasi utama.
- Parameter
contaminationdan jumlah pohon menentukan sensitivitas deteksi, stabilitas skor, dan jumlah alert.
Intuisi #
Inti metodenya adalah: outlier biasanya mudah diisolasi. Dengan merata-ratakan kedalaman isolasi dari banyak pohon acak, model menghasilkan skor anomali yang relatif stabil untuk pengambilan keputusan.
Penjelasan Rinci #
1. Cara kerja #
- Mengambil sub-sampel data secara acak.
- Membangun Isolation Tree dengan fitur dan ambang yang dipilih acak.
- Sampel dengan panjang jalur rata-rata yang lebih pendek lebih mudah terisolasi, sehingga lebih mungkin menjadi anomali.
Skor anomali dinormalisasi menggunakan panjang jalur harapan pohon biner acak, \(c(n)\).
2. Contoh Python #
| |
3. Hiperparameter #
n_estimators: Jumlah pohon. Lebih banyak biasanya lebih stabil.max_samples: Sampel per pohon. Defaultmin(256, n_samples).contamination: Perkiraan proporsi anomali; dipakai sebagai ambang.max_features: Jumlah fitur yang dipakai pada setiap split.
4. Kelebihan dan kekurangan #
| Kelebihan | Kekurangan |
|---|---|
| Relatif cepat pada dimensi tinggi | Hasil bisa berubah karena seed acak |
| Tidak wajib scaling (meski disarankan) | Anomali lokal kecil bisa terlewat |
| Training dan inferensi sederhana | contamination kadang sulit ditentukan |
5. Ringkasan #
- Isolation Forest adalah metode berbasis pohon yang memakai jalur isolasi yang pendek sebagai sinyal anomali.
- Mudah digunakan di scikit-learn, terutama mengatur jumlah pohon dan jumlah sampel.
- Cocok untuk menyaring kandidat anomali secara cepat pada log atau data sensor.