まとめ
- Kappa Cohen: mengukur kesepakatan di luar kebetulanの概要を押さえ、評価対象と読み取り方を整理します。
- Python 3.13 のコード例で算出・可視化し、手順と実務での確認ポイントを確認します。
- 図表や補助指標を組み合わせ、モデル比較や閾値調整に活かすヒントをまとめます。
1. Definisi #
Misalkan \(p_o\) adalah tingkat kesepakatan yang diamati dan \(p_e\) adalah kesepakatan yang diharapkan terjadi secara acak. Maka $$ \kappa = \frac{p_o - p_e}{1 - p_e} $$
- \(\kappa = 1\): kesepakatan sempurna
- \(\kappa = 0\): setara dengan kebetulan
- \(\kappa < 0\): lebih buruk daripada kebetulan
2. Perhitungan di Python 3.13 #
python --version # contoh: Python 3.13.0
pip install scikit-learn
from sklearn.metrics import cohen_kappa_score, confusion_matrix
print("Kappa Cohen:", cohen_kappa_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
Fungsi ini mendukung klasifikasi multikelas. Gunakan weights="quadratic" untuk menghitung Kappa berbobot pada label ordinal.
3. Panduan interpretasi #
Landis & Koch (1977) memberikan panduan berikut. Sesuaikan ambang batas tersebut dengan standar yang berlaku di domain Anda.
| κ | Interpretasi |
|---|---|
| < 0 | Hampir tidak ada kesepakatan |
| 0.0–0.2 | Kesepakatan lemah |
| 0.2–0.4 | Kesepakatan wajar |
| 0.4–0.6 | Kesepakatan sedang |
| 0.6–0.8 | Kesepakatan kuat |
| 0.8–1.0 | Hampir sempurna |
4. Kelebihan untuk evaluasi model #
- Tahan terhadap ketidakseimbangan: Model yang hanya menebak kelas mayoritas akan memperoleh κ rendah sehingga Accuracy tidak menipu.
- Audit kualitas anotasi: Bandingkan prediksi model dengan label manusia atau antar anotator secara objektif.
- Kappa berbobot: Pada label ordinal (misalnya penilaian 5 tingkat) kita dapat memberi bobot sesuai jauhnya kesalahan prediksi.
5. Tips praktis #
- Accuracy tinggi tetapi κ rendah menandakan model bergantung pada kebetulan. Periksa matriks kebingungan untuk memahami kesalahan.
- Beberapa industri yang diawasi regulator mewajibkan pelaporan κ; dokumentasikan pipeline perhitungannya.
- Gunakan κ ketika mengaudit data latih untuk menemukan anotator atau subset yang konsisten rendah.
Ringkasan #
- Kappa Cohen mengurangi kesepakatan kebetulan sehingga cocok untuk data tidak seimbang dan evaluasi anotasi.
cohen_kappa_scoredi scikit-learn mudah digunakan, termasuk versi berbobot.- Gabungkan κ dengan Accuracy, F1, dan metrik lainnya agar penilaian kinerja model dan kualitas label lebih menyeluruh.