Metrik ROUGE

Eval

Metrik ROUGE

まとめ
  • ROUGE adalah kumpulan metrik yang mengukur kesamaan n-gram atau LCS antara teks hasil generasi dan teks referensi.
  • Dengan contoh tugas peringkasan, dihitung ROUGE-1/2/L dan dijelaskan cara membaca nilainya.
  • Dibahas juga korelasi dengan penilaian manusia dan perhatian saat mengevaluasi teks panjang.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) adalah kumpulan metrik yang menilai tingkat kesamaan antara ringkasan kandidat dan ringkasan referensi.
ROUGE-1 dan ROUGE-2 menghitung recall n-gram, sedangkan ROUGE-L didasarkan pada Longest Common Subsequence (LCS) antara dua teks.


Varian Utama #

  • ROUGE-1 / ROUGE-2: Mengukur recall unigram dan bigram — cocok untuk ringkasan ekstraktif dan pemeriksaan kata kunci penting.
  • ROUGE-L: Berdasarkan panjang LCS yang dinormalisasi terhadap panjang referensi — mempertimbangkan urutan kata.
  • ROUGE-Lsum: Merata-ratakan LCS per kalimat — umum digunakan untuk evaluasi ringkasan dokumen panjang.
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeLsum"], use_stemmer=True)
candidate = "Hari ini cuacanya sangat baik"
reference = "Hari ini cuaca bagus"
print(scorer.score(reference, candidate))

Kelebihan #

  • Perhitungannya ringan dan dapat menghitung beberapa metrik sekaligus.
  • Memiliki korelasi cukup tinggi dengan penilaian manusia berbasis recall.
  • Standar untuk mengevaluasi ringkasan ekstraktif atau membandingkan kandungan informasi.

Keterbatasan #

  • Tidak memperhitungkan kesamaan semantik, sehingga parafrasa bisa membuat skor turun secara tidak adil.
  • Jika hanya ada satu ringkasan referensi, keragaman hasil kandidat mungkin tidak terwakili.
  • Untuk bahasa Jepang atau bahasa lain yang kaya morfologi, lakukan tokenisasi atau pembagian subword agar skor lebih stabil.