Metrik ROUGE

Diperbarui 2020-02-12 Baca 2 menit

Ringkasan

ROUGE adalah kumpulan metrik yang mengukur kesamaan n-gram atau LCS antara teks hasil generasi dan teks referensi.
Dengan contoh tugas peringkasan, dihitung ROUGE-1/2/L dan dijelaskan cara membaca nilainya.
Dibahas juga korelasi dengan penilaian manusia dan perhatian saat mengevaluasi teks panjang.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) adalah kumpulan metrik yang menilai tingkat kesamaan antara ringkasan kandidat dan ringkasan referensi.
ROUGE-1 dan ROUGE-2 menghitung recall n-gram, sedangkan ROUGE-L didasarkan pada Longest Common Subsequence (LCS) antara dua teks.

Varian Utama #

ROUGE-1 / ROUGE-2: Mengukur recall unigram dan bigram — cocok untuk ringkasan ekstraktif dan pemeriksaan kata kunci penting.
ROUGE-L: Berdasarkan panjang LCS yang dinormalisasi terhadap panjang referensi — mempertimbangkan urutan kata.
ROUGE-Lsum: Merata-ratakan LCS per kalimat — umum digunakan untuk evaluasi ringkasan dokumen panjang.

1
2
3
4
5
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeLsum"], use_stemmer=True)
candidate = "Hari ini cuacanya sangat baik"
reference = "Hari ini cuaca bagus"
print(scorer.score(reference, candidate))

Kelebihan #

Perhitungannya ringan dan dapat menghitung beberapa metrik sekaligus.
Memiliki korelasi cukup tinggi dengan penilaian manusia berbasis recall.
Standar untuk mengevaluasi ringkasan ekstraktif atau membandingkan kandungan informasi.

Keterbatasan #

Tidak memperhitungkan kesamaan semantik, sehingga parafrasa bisa membuat skor turun secara tidak adil.
Jika hanya ada satu ringkasan referensi, keragaman hasil kandidat mungkin tidak terwakili.
Untuk bahasa Jepang atau bahasa lain yang kaya morfologi, lakukan tokenisasi atau pembagian subword agar skor lebih stabil.