まとめ
- Merangkum metrik utama untuk mengevaluasi model bahasa serta kapan menggunakannya.
- Menjelaskan metrik otomatis untuk tugas terjemahan, rangkuman, dan generasi dengan contoh kode.
- Menerangkan cara memadukan metrik otomatis dengan evaluasi manusia atau berbasis LLM sambil mengendalikan bias.
Gambaran metrik untuk model bahasa #
Tugas bahasa jarang memiliki satu jawaban baku, sehingga kita memanfaatkan beberapa keluarga metrik. Di sini metrik dikelompokkan menjadi pendekatan berbasis n-gram, berbasis embedding, dan LLM sebagai penilai. Masing-masing menilai aspek berbeda—kemiripan permukaan, kesamaan semantik, serta kepatuhan instruksi.
1. Metrik berbasis n-gram (kemiripan permukaan) #
| Metrik | Apa yang diukur | Karakteristik |
|---|---|---|
| BLEU | Precision n-gram + penalti panjang | Standar di terjemahan; lemah pada output pendek dan parafrasa |
| ROUGE-1/2/L | Recall n-gram / longest common subsequence | Populer untuk rangkuman; lebih baik dengan banyak referensi |
| METEOR | Kecocokan unigram + sinonim/fleksi | Berorientasi recall; dukungan kuat di bahasa Inggris (WordNet) |
| chrF++ | F-score n-gram karakter | Tahan terhadap bahasa morfologis kompleks; memperluas chrF |
Catatan penggunaan #
- BLEU: cocok untuk membandingkan dengan benchmark; gunakan smoothing pada referensi pendek.
- ROUGE: ampuh di rangkuman ekstraktif; paket
rouge-scorememudahkan perhitungan. - METEOR: menangkap kemiripan semantik namun membutuhkan sumber leksikal.
- chrF++: ideal ketika tokenisasi sulit (Jepang, Mandarin, dsb.).
import sacrebleu
references = [["今日は良い天気です。"]]
candidate = "今日はとてもいい天気だ。"
bleu_score = sacrebleu.corpus_bleu([candidate], references)
chrf_score = sacrebleu.corpus_chrf([candidate], references)
print(bleu_score.score, chrf_score.score)
2. Metrik berbasis embedding (kesamaan semantik) #
| Metrik | Model | Catatan |
|---|---|---|
| BERTScore | Embedding token BERT/RoBERTa | Menghitung precision/recall/F1 di ruang embedding; mendukung multibahasa |
| MoverScore | Varian Word Mover’s Distance | Memberi bobot lebih pada kata langka; biaya komputasi tinggi |
| BLEURT | RoBERTa yang dilatih ulang dengan penilaian manusia | Korelasi tinggi meski data sedikit; perlu mengunduh checkpoint |
| COMET | Transformer multibahasa dengan loss QA | Kuat pada benchmark MT; tersedia CLI dan API |
| QAEval / ParaScore | Membuat pertanyaan dan memeriksa jawabannya | Menilai kesetiaan semantik via QA; butuh setup ekstra |
Rekomendasi #
bert-scorememudahkan pemakaian BERTScore, termasuk model Jepang.- BLEURT/COMET memerlukan checkpoint; memberikan korelasi terbaik namun lebih mahal dijalankan.
- Gunakan BERTScore untuk pemeriksaan semantik ringan; beralih ke BLEURT/COMET untuk evaluasi berisiko tinggi.
from bert_score import score
cands = ["今日はとてもいい天気だ。"]
refs = ["今日は良い天気です。"]
P, R, F1 = score(cands, refs, lang="ja", model_type="cl-tohoku/bert-base-japanese")
print(F1.mean().item())
3. LLM sebagai penilai #
| Pendekatan | Ringkasan | Perhatian |
|---|---|---|
| Penilaian langsung | Berikan referensi + kandidat ke model seperti GPT-4 | Desain prompt dan kontrol bias sangat penting |
| Penilaian berbasis rubrik | Sertakan kriteria (kelancaran, kesetiaan, toksisitas) per dimensi | Biaya lebih tinggi namun analisis lebih kaya |
| LLM + QA | Bangun pertanyaan lalu cek konsistensi jawaban | Pas untuk ringkasan panjang; kualitas bergantung pada QA yang dihasilkan |
Pedoman #
- Publikasikan prompt dan pesan sistem untuk menjaga transparansi.
- Tetapkan temperatur/random seed dan rata-rata hasil dari beberapa run.
- Secara berkala bandingkan dengan anotasi manusia guna menjaga kepercayaan.
Alur memilih metrik #
- Perjelas tugas
Terjemahan/rangkuman → sertakan metrik n-gram; generasi bebas → prioritaskan embedding + penilaian LLM. - Nilai ketersediaan referensi
Referensi melimpah → kombinasikan n-gram + embedding; referensi terbatas → andalkan LLM atau evaluasi manual. - Seimbangkan biaya dan ketelitian
Butuh iterasi cepat → SacreBLEU atau BERTScore; butuh evaluasi presisi tinggi → BLEURT/COMET atau penilai GPT.
Daftar periksa #
- Kualitas dan jumlah referensi sudah ditinjau
- Metrik otomatis divalidasi terhadap evaluasi manusia/LLM
- Kemiripan permukaan dan kesetiaan semantik sama-sama dinilai
- Prompt dan konfigurasi LLM penilai terdokumentasi
- Rencana mitigasi bias telah disiapkan
Referensi tambahan #
- BLEU / chrF++: SacreBLEU
- ROUGE:
rouge-score - BERTScore: GitHub bert-score
- BLEURT: Google Research BLEURT
- COMET: Unbabel COMET
- LLM-as-a-Judge: OpenAI evals
Gunakan kombinasi metrik, pantau korelasinya dengan penilaian manusia, dan iterasikan pipeline evaluasi selaras perkembangan model maupun tugasnya.