Ringkasan- Merangkum metrik utama untuk mengevaluasi model bahasa serta kapan menggunakannya.
- Menjelaskan metrik otomatis untuk tugas terjemahan, rangkuman, dan generasi dengan contoh kode.
- Menerangkan cara memadukan metrik otomatis dengan evaluasi manusia atau berbasis LLM sambil mengendalikan bias.
Gambaran metrik untuk model bahasa
#
Tugas bahasa jarang memiliki satu jawaban baku, sehingga kita memanfaatkan beberapa keluarga metrik. Di sini metrik dikelompokkan menjadi pendekatan berbasis n-gram, berbasis embedding, dan LLM sebagai penilai. Masing-masing menilai aspek berbeda—kemiripan permukaan, kesamaan semantik, serta kepatuhan instruksi.
1. Metrik berbasis n-gram (kemiripan permukaan)
#
| Metrik | Apa yang diukur | Karakteristik |
|---|
| BLEU | Precision n-gram + penalti panjang | Standar di terjemahan; lemah pada output pendek dan parafrasa |
| ROUGE-1/2/L | Recall n-gram / longest common subsequence | Populer untuk rangkuman; lebih baik dengan banyak referensi |
| METEOR | Kecocokan unigram + sinonim/fleksi | Berorientasi recall; dukungan kuat di bahasa Inggris (WordNet) |
| chrF++ | F-score n-gram karakter | Tahan terhadap bahasa morfologis kompleks; memperluas chrF |
Catatan penggunaan
#
- BLEU: cocok untuk membandingkan dengan benchmark; gunakan smoothing pada referensi pendek.
- ROUGE: ampuh di rangkuman ekstraktif; paket
rouge-score memudahkan perhitungan. - METEOR: menangkap kemiripan semantik namun membutuhkan sumber leksikal.
- chrF++: ideal ketika tokenisasi sulit (Jepang, Mandarin, dsb.).
1
2
3
4
5
6
7
8
9
| import sacrebleu
references = [["今日は良い天気です。"]]
candidate = "今日はとてもいい天気だ。"
bleu_score = sacrebleu.corpus_bleu([candidate], references)
chrf_score = sacrebleu.corpus_chrf([candidate], references)
print(bleu_score.score, chrf_score.score)
|
2. Metrik berbasis embedding (kesamaan semantik)
#
| Metrik | Model | Catatan |
|---|
| BERTScore | Embedding token BERT/RoBERTa | Menghitung precision/recall/F1 di ruang embedding; mendukung multibahasa |
| MoverScore | Varian Word Mover’s Distance | Memberi bobot lebih pada kata langka; biaya komputasi tinggi |
| BLEURT | RoBERTa yang dilatih ulang dengan penilaian manusia | Korelasi tinggi meski data sedikit; perlu mengunduh checkpoint |
| COMET | Transformer multibahasa dengan loss QA | Kuat pada benchmark MT; tersedia CLI dan API |
| QAEval / ParaScore | Membuat pertanyaan dan memeriksa jawabannya | Menilai kesetiaan semantik via QA; butuh setup ekstra |
Rekomendasi
#
bert-score memudahkan pemakaian BERTScore, termasuk model Jepang.- BLEURT/COMET memerlukan checkpoint; memberikan korelasi terbaik namun lebih mahal dijalankan.
- Gunakan BERTScore untuk pemeriksaan semantik ringan; beralih ke BLEURT/COMET untuk evaluasi berisiko tinggi.
1
2
3
4
5
6
7
| from bert_score import score
cands = ["今日はとてもいい天気だ。"]
refs = ["今日は良い天気です。"]
P, R, F1 = score(cands, refs, lang="ja", model_type="cl-tohoku/bert-base-japanese")
print(F1.mean().item())
|
3. LLM sebagai penilai
#
| Pendekatan | Ringkasan | Perhatian |
|---|
| Penilaian langsung | Berikan referensi + kandidat ke model seperti GPT-4 | Desain prompt dan kontrol bias sangat penting |
| Penilaian berbasis rubrik | Sertakan kriteria (kelancaran, kesetiaan, toksisitas) per dimensi | Biaya lebih tinggi namun analisis lebih kaya |
| LLM + QA | Bangun pertanyaan lalu cek konsistensi jawaban | Pas untuk ringkasan panjang; kualitas bergantung pada QA yang dihasilkan |
Pedoman
#
- Publikasikan prompt dan pesan sistem untuk menjaga transparansi.
- Tetapkan temperatur/random seed dan rata-rata hasil dari beberapa run.
- Secara berkala bandingkan dengan anotasi manusia guna menjaga kepercayaan.
Alur memilih metrik
#
- Perjelas tugas
Terjemahan/rangkuman → sertakan metrik n-gram; generasi bebas → prioritaskan embedding + penilaian LLM. - Nilai ketersediaan referensi
Referensi melimpah → kombinasikan n-gram + embedding; referensi terbatas → andalkan LLM atau evaluasi manual. - Seimbangkan biaya dan ketelitian
Butuh iterasi cepat → SacreBLEU atau BERTScore; butuh evaluasi presisi tinggi → BLEURT/COMET atau penilai GPT.
Daftar periksa
#
Referensi tambahan
#
Gunakan kombinasi metrik, pantau korelasinya dengan penilaian manusia, dan iterasikan pipeline evaluasi selaras perkembangan model maupun tugasnya.