4.6.1
Metrik BLEU
Ringkasan
- BLEU mengukur kualitas terjemahan dengan menghitung kesamaan n-gram antara kalimat kandidat dan kalimat referensi.
- Implementasi mencakup n-gram precision dan brevity penalty untuk memahami perilaku skor.
- Dibahas juga kelemahannya terhadap urutan kata dan sinonim, serta cara mengatasinya dengan referensi ganda.
1. Konsep BLEU #
- Hitung modified precision untuk n-gram dari 1 hingga 4 antara kandidat dan referensi.
- Ambil rata-rata logaritmik dari presisi dan ubah menjadi rata-rata geometrik.
- Terapkan brevity penalty jika kalimat kandidat lebih pendek dari referensi untuk menghukum pemotongan berlebihan.
Nilai BLEU berada pada rentang 0–1; semakin tinggi, semakin mirip dengan referensi.
2. Contoh Implementasi di Python 3.13 #
Contoh implementasi BLEU menggunakan pustaka standar Python saja.
| |
Hasil contoh:
BLEU = 0.638
3. Kelebihan #
- Mudah dan cepat diimplementasikan; telah lama digunakan sebagai tolok ukur penerjemahan mesin.
- Menggunakan beberapa referensi meningkatkan ketahanan terhadap parafrasa.
4. Keterbatasan #
- Sensitif terhadap urutan kata dan sinonim, sehingga terjemahan yang benar bisa mendapat skor rendah.
- Korelasi dengan penilaian manusia menurun pada teks panjang.
- Untuk bahasa seperti Jepang, lakukan tokenisasi atau pemisahan kata sebelum perhitungan.
Ringkasan #
- BLEU menilai kualitas terjemahan berdasarkan kesamaan n-gram dan brevity penalty.
- Dapat diimplementasikan langsung dengan Python 3.13 dan type hints untuk fleksibilitas tinggi.
- Gunakan bersama metrik lain seperti ROUGE atau METEOR untuk menilai keragaman dan kesamaan semantik.