まとめ

Merangkum metrik utama untuk mengevaluasi model bahasa serta kapan menggunakannya.
Menjelaskan metrik otomatis untuk tugas terjemahan, rangkuman, dan generasi dengan contoh kode.
Menerangkan cara memadukan metrik otomatis dengan evaluasi manusia atau berbasis LLM sambil mengendalikan bias.

Gambaran metrik untuk model bahasa #

Tugas bahasa jarang memiliki satu jawaban baku, sehingga kita memanfaatkan beberapa keluarga metrik. Di sini metrik dikelompokkan menjadi pendekatan berbasis n-gram, berbasis embedding, dan LLM sebagai penilai. Masing-masing menilai aspek berbeda—kemiripan permukaan, kesamaan semantik, serta kepatuhan instruksi.

1. Metrik berbasis n-gram (kemiripan permukaan) #

Metrik	Apa yang diukur	Karakteristik
BLEU	Precision n-gram + penalti panjang	Standar di terjemahan; lemah pada output pendek dan parafrasa
ROUGE-1/2/L	Recall n-gram / longest common subsequence	Populer untuk rangkuman; lebih baik dengan banyak referensi
METEOR	Kecocokan unigram + sinonim/fleksi	Berorientasi recall; dukungan kuat di bahasa Inggris (WordNet)
chrF++	F-score n-gram karakter	Tahan terhadap bahasa morfologis kompleks; memperluas chrF

Catatan penggunaan #

BLEU: cocok untuk membandingkan dengan benchmark; gunakan smoothing pada referensi pendek.
ROUGE: ampuh di rangkuman ekstraktif; paket rouge-score memudahkan perhitungan.
METEOR: menangkap kemiripan semantik namun membutuhkan sumber leksikal.
chrF++: ideal ketika tokenisasi sulit (Jepang, Mandarin, dsb.).

import sacrebleu

references = [["今日は良い天気です。"]]
candidate = "今日はとてもいい天気だ。"

bleu_score = sacrebleu.corpus_bleu([candidate], references)
chrf_score = sacrebleu.corpus_chrf([candidate], references)

print(bleu_score.score, chrf_score.score)

2. Metrik berbasis embedding (kesamaan semantik) #

Metrik	Model	Catatan
BERTScore	Embedding token BERT/RoBERTa	Menghitung precision/recall/F1 di ruang embedding; mendukung multibahasa
MoverScore	Varian Word Mover’s Distance	Memberi bobot lebih pada kata langka; biaya komputasi tinggi
BLEURT	RoBERTa yang dilatih ulang dengan penilaian manusia	Korelasi tinggi meski data sedikit; perlu mengunduh checkpoint
COMET	Transformer multibahasa dengan loss QA	Kuat pada benchmark MT; tersedia CLI dan API
QAEval / ParaScore	Membuat pertanyaan dan memeriksa jawabannya	Menilai kesetiaan semantik via QA; butuh setup ekstra

Rekomendasi #

bert-score memudahkan pemakaian BERTScore, termasuk model Jepang.
BLEURT/COMET memerlukan checkpoint; memberikan korelasi terbaik namun lebih mahal dijalankan.
Gunakan BERTScore untuk pemeriksaan semantik ringan; beralih ke BLEURT/COMET untuk evaluasi berisiko tinggi.

from bert_score import score

cands = ["今日はとてもいい天気だ。"]
refs = ["今日は良い天気です。"]

P, R, F1 = score(cands, refs, lang="ja", model_type="cl-tohoku/bert-base-japanese")
print(F1.mean().item())

3. LLM sebagai penilai #

Pendekatan	Ringkasan	Perhatian
Penilaian langsung	Berikan referensi + kandidat ke model seperti GPT-4	Desain prompt dan kontrol bias sangat penting
Penilaian berbasis rubrik	Sertakan kriteria (kelancaran, kesetiaan, toksisitas) per dimensi	Biaya lebih tinggi namun analisis lebih kaya
LLM + QA	Bangun pertanyaan lalu cek konsistensi jawaban	Pas untuk ringkasan panjang; kualitas bergantung pada QA yang dihasilkan

Pedoman #

Publikasikan prompt dan pesan sistem untuk menjaga transparansi.
Tetapkan temperatur/random seed dan rata-rata hasil dari beberapa run.
Secara berkala bandingkan dengan anotasi manusia guna menjaga kepercayaan.

Alur memilih metrik #

Perjelas tugas
Terjemahan/rangkuman → sertakan metrik n-gram; generasi bebas → prioritaskan embedding + penilaian LLM.
Nilai ketersediaan referensi
Referensi melimpah → kombinasikan n-gram + embedding; referensi terbatas → andalkan LLM atau evaluasi manual.
Seimbangkan biaya dan ketelitian
Butuh iterasi cepat → SacreBLEU atau BERTScore; butuh evaluasi presisi tinggi → BLEURT/COMET atau penilai GPT.

Daftar periksa #

Kualitas dan jumlah referensi sudah ditinjau
Metrik otomatis divalidasi terhadap evaluasi manusia/LLM
Kemiripan permukaan dan kesetiaan semantik sama-sama dinilai
Prompt dan konfigurasi LLM penilai terdokumentasi
Rencana mitigasi bias telah disiapkan

Referensi tambahan #

BLEU / chrF++: SacreBLEU
ROUGE: rouge-score
BERTScore: GitHub bert-score
BLEURT: Google Research BLEURT
COMET: Unbabel COMET
LLM-as-a-Judge: OpenAI evals

Gunakan kombinasi metrik, pantau korelasinya dengan penilaian manusia, dan iterasikan pipeline evaluasi selaras perkembangan model maupun tugasnya.

Evaluasi Model Bahasa