4.3
Klasifikasi
Ringkasan
- Memetakan metrik utama yang digunakan pada klasifikasi biner, multikelas, dan multi-label.
- Membandingkan metrik berbasis confusion matrix, metrik berbasis ambang/ranking, serta metrik kalibrasi probabilitas.
- Menjelaskan cara menyusun kumpulan metrik yang selaras dengan tujuan bisnis dan cara melaporkannya.
Bab 3 #
Ringkasan metrik klasifikasi #
Evaluasi model klasifikasi bergantung pada beberapa perspektif: keseimbangan kelas, strategi ambang, keandalan probabilitas, dan kualitas rekomendasi teratas. Bab ini mengelompokkan metrik representatif ke dalam kategori tersebut dan memberikan panduan kapan masing-masing perlu diprioritaskan.
Kategori metrik #
1. Berbasis confusion matrix #
- Accuracy (Akurasi): tingkat keberhasilan keseluruhan; bisa menipu jika kelas tidak seimbang.
- Precision / Recall / F1 (Precision & recall, F1-score): pilih sesuai biaya relatif false positive dan false negative.
- Specificity / Sensitivity (Sensitivitas & spesifisitas): penting untuk kasus seperti deteksi medis.
- Rata-rata macro / micro / berbobot (Strategi perataan): agregasi skala per kelas pada setting multikelas.
2. Ambang dan ranking #
- Kurva Precision-Recall / PR-AUC (Precision-Recall): menonjolkan performa saat kelas positif langka.
- Kurva ROC / ROC-AUC (ROC-AUC): mengukur kemampuan pemisahan di seluruh ambang.
- Top-k Accuracy / Hit Rate (Top-k Accuracy, Hit Rate): relevan untuk rekomendasi/pencarian yang hanya menampilkan item teratas.
3. Kalibrasi probabilitas #
- Log Loss (Log Loss): memberi penghargaan pada probabilitas yang terkalibrasi.
- Brier Score (Brier Score): cocok dipasangkan dengan reliability curve untuk menilai kalibrasi.
- Kurva kalibrasi: membandingkan probabilitas prediksi dengan frekuensi aktual.
4. Pendamping untuk ketidakseimbangan #
- Balanced Accuracy (Balanced Accuracy): rata-rata recall per kelas.
- Cohen’s Kappa / MCC (Kappa Cohen, MCC): alternatif tangguh saat ketidakseimbangan kelas parah.
Dampak ambang terhadap skor #
| |

Menurunkan ambang meningkatkan recall tetapi menurunkan precision. F1 memuncak di titik seimbang dan sering dipakai untuk memilih ambang operasi.
Panduan pelaporan dan operasional #
- Selalu sertakan confusion matrix
Memperlihatkan pola kesalahan per kelas dan menonjolkan kelas kritis. - Jelaskan alasan pemilihan ambang
Gunakan kurva PR/ROC atau analisis biaya untuk menjelaskan titik operasi. - Periksa kalibrasi probabilitas
Jika skor menentukan harga atau alokasi sumber daya, tinjau Brier Score dan kurva kalibrasi. - Awasi dampak ketidakseimbangan
Bandingkan Balanced Accuracy dan MCC bersama Accuracy sehingga perbaikan semu dapat dihindari. - Pantau drift pasca deployment
Amati Precision/Recall, PR-AUC, dan ROC-AUC dari waktu ke waktu dan sesuaikan ambang bila perlu.
Referensi cepat #
| Perspektif | Metrik utama | Halaman terkait | Catatan |
|---|---|---|---|
| Akurasi keseluruhan | Accuracy / Balanced Accuracy | Accuracy / Balanced Accuracy | Laporkan keduanya saat kelas tidak seimbang |
| False positive vs false negative | Precision / Recall / Fβ | Precision-Recall / F1-score | Kombinasikan dengan analisis ambang |
| Kualitas ranking | PR-AUC / ROC-AUC / Top-k | Kurva PR / ROC-AUC / Top-k Accuracy | Cocok untuk rekomendasi atau disbalans |
| Kalibrasi probabilitas | Log Loss / Brier Score | Log Loss / Brier Score | Wajib jika probabilitas dipakai dalam keputusan |
| Ketahanan | MCC / Kappa Cohen | MCC / Kappa Cohen | Stabil meski kelas tidak seimbang |
Daftar periksa #
- Metrik yang mencerminkan ketidakseimbangan kelas sudah digabungkan
- Alasan pemilihan ambang (PR/ROC atau analisis biaya) sudah dibagikan
- Kalibrasi probabilitas diverifikasi sebelum skor dipakai operasional
- Distribusi data evaluasi dan produksi sudah dibandingkan
- Metrik baseline untuk pembaruan model berikutnya sudah disepakati