まとめ
- ROUGE adalah kumpulan metrik yang mengukur kesamaan n-gram atau LCS antara teks hasil generasi dan teks referensi.
- Dengan contoh tugas peringkasan, dihitung ROUGE-1/2/L dan dijelaskan cara membaca nilainya.
- Dibahas juga korelasi dengan penilaian manusia dan perhatian saat mengevaluasi teks panjang.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) adalah kumpulan metrik yang menilai tingkat kesamaan antara ringkasan kandidat dan ringkasan referensi.
ROUGE-1 dan ROUGE-2 menghitung recall n-gram, sedangkan ROUGE-L didasarkan pada Longest Common Subsequence (LCS) antara dua teks.
Varian Utama #
- ROUGE-1 / ROUGE-2: Mengukur recall unigram dan bigram — cocok untuk ringkasan ekstraktif dan pemeriksaan kata kunci penting.
- ROUGE-L: Berdasarkan panjang LCS yang dinormalisasi terhadap panjang referensi — mempertimbangkan urutan kata.
- ROUGE-Lsum: Merata-ratakan LCS per kalimat — umum digunakan untuk evaluasi ringkasan dokumen panjang.
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeLsum"], use_stemmer=True)
candidate = "Hari ini cuacanya sangat baik"
reference = "Hari ini cuaca bagus"
print(scorer.score(reference, candidate))
Kelebihan #
- Perhitungannya ringan dan dapat menghitung beberapa metrik sekaligus.
- Memiliki korelasi cukup tinggi dengan penilaian manusia berbasis recall.
- Standar untuk mengevaluasi ringkasan ekstraktif atau membandingkan kandungan informasi.
Keterbatasan #
- Tidak memperhitungkan kesamaan semantik, sehingga parafrasa bisa membuat skor turun secara tidak adil.
- Jika hanya ada satu ringkasan referensi, keragaman hasil kandidat mungkin tidak terwakili.
- Untuk bahasa Jepang atau bahasa lain yang kaya morfologi, lakukan tokenisasi atau pembagian subword agar skor lebih stabil.