Evaluasi Model Bahasa

Eval

Evaluasi Model Bahasa

まとめ
  • Merangkum metrik utama untuk mengevaluasi model bahasa serta kapan menggunakannya.
  • Menjelaskan metrik otomatis untuk tugas terjemahan, rangkuman, dan generasi dengan contoh kode.
  • Menerangkan cara memadukan metrik otomatis dengan evaluasi manusia atau berbasis LLM sambil mengendalikan bias.

Gambaran metrik untuk model bahasa #

Tugas bahasa jarang memiliki satu jawaban baku, sehingga kita memanfaatkan beberapa keluarga metrik. Di sini metrik dikelompokkan menjadi pendekatan berbasis n-gram, berbasis embedding, dan LLM sebagai penilai. Masing-masing menilai aspek berbeda—kemiripan permukaan, kesamaan semantik, serta kepatuhan instruksi.


1. Metrik berbasis n-gram (kemiripan permukaan) #

MetrikApa yang diukurKarakteristik
BLEUPrecision n-gram + penalti panjangStandar di terjemahan; lemah pada output pendek dan parafrasa
ROUGE-1/2/LRecall n-gram / longest common subsequencePopuler untuk rangkuman; lebih baik dengan banyak referensi
METEORKecocokan unigram + sinonim/fleksiBerorientasi recall; dukungan kuat di bahasa Inggris (WordNet)
chrF++F-score n-gram karakterTahan terhadap bahasa morfologis kompleks; memperluas chrF

Catatan penggunaan #

  • BLEU: cocok untuk membandingkan dengan benchmark; gunakan smoothing pada referensi pendek.
  • ROUGE: ampuh di rangkuman ekstraktif; paket rouge-score memudahkan perhitungan.
  • METEOR: menangkap kemiripan semantik namun membutuhkan sumber leksikal.
  • chrF++: ideal ketika tokenisasi sulit (Jepang, Mandarin, dsb.).
import sacrebleu

references = [["今日は良い天気です。"]]
candidate = "今日はとてもいい天気だ。"

bleu_score = sacrebleu.corpus_bleu([candidate], references)
chrf_score = sacrebleu.corpus_chrf([candidate], references)

print(bleu_score.score, chrf_score.score)

2. Metrik berbasis embedding (kesamaan semantik) #

MetrikModelCatatan
BERTScoreEmbedding token BERT/RoBERTaMenghitung precision/recall/F1 di ruang embedding; mendukung multibahasa
MoverScoreVarian Word Mover’s DistanceMemberi bobot lebih pada kata langka; biaya komputasi tinggi
BLEURTRoBERTa yang dilatih ulang dengan penilaian manusiaKorelasi tinggi meski data sedikit; perlu mengunduh checkpoint
COMETTransformer multibahasa dengan loss QAKuat pada benchmark MT; tersedia CLI dan API
QAEval / ParaScoreMembuat pertanyaan dan memeriksa jawabannyaMenilai kesetiaan semantik via QA; butuh setup ekstra

Rekomendasi #

  • bert-score memudahkan pemakaian BERTScore, termasuk model Jepang.
  • BLEURT/COMET memerlukan checkpoint; memberikan korelasi terbaik namun lebih mahal dijalankan.
  • Gunakan BERTScore untuk pemeriksaan semantik ringan; beralih ke BLEURT/COMET untuk evaluasi berisiko tinggi.
from bert_score import score

cands = ["今日はとてもいい天気だ。"]
refs = ["今日は良い天気です。"]

P, R, F1 = score(cands, refs, lang="ja", model_type="cl-tohoku/bert-base-japanese")
print(F1.mean().item())

3. LLM sebagai penilai #

PendekatanRingkasanPerhatian
Penilaian langsungBerikan referensi + kandidat ke model seperti GPT-4Desain prompt dan kontrol bias sangat penting
Penilaian berbasis rubrikSertakan kriteria (kelancaran, kesetiaan, toksisitas) per dimensiBiaya lebih tinggi namun analisis lebih kaya
LLM + QABangun pertanyaan lalu cek konsistensi jawabanPas untuk ringkasan panjang; kualitas bergantung pada QA yang dihasilkan

Pedoman #

  • Publikasikan prompt dan pesan sistem untuk menjaga transparansi.
  • Tetapkan temperatur/random seed dan rata-rata hasil dari beberapa run.
  • Secara berkala bandingkan dengan anotasi manusia guna menjaga kepercayaan.

Alur memilih metrik #

  1. Perjelas tugas
    Terjemahan/rangkuman → sertakan metrik n-gram; generasi bebas → prioritaskan embedding + penilaian LLM.
  2. Nilai ketersediaan referensi
    Referensi melimpah → kombinasikan n-gram + embedding; referensi terbatas → andalkan LLM atau evaluasi manual.
  3. Seimbangkan biaya dan ketelitian
    Butuh iterasi cepat → SacreBLEU atau BERTScore; butuh evaluasi presisi tinggi → BLEURT/COMET atau penilai GPT.

Daftar periksa #

  • Kualitas dan jumlah referensi sudah ditinjau
  • Metrik otomatis divalidasi terhadap evaluasi manusia/LLM
  • Kemiripan permukaan dan kesetiaan semantik sama-sama dinilai
  • Prompt dan konfigurasi LLM penilai terdokumentasi
  • Rencana mitigasi bias telah disiapkan

Referensi tambahan #

Gunakan kombinasi metrik, pantau korelasinya dengan penilaian manusia, dan iterasikan pipeline evaluasi selaras perkembangan model maupun tugasnya.