4.6.1
Métrica BLEU
Resumen
- BLEU mide la calidad de una traducción mediante la coincidencia de n-gramas entre la oración candidata y la de referencia.
- Se implementa el cálculo de precisión de n-gramas y la brevity penalty para analizar cómo varía la puntuación.
- Se explican sus limitaciones frente al orden de palabras y sinónimos, y cómo usar múltiples referencias para mitigarlas.
1. Concepto de BLEU #
- Calcular la precisión modificada para los n-gramas (normalmente hasta 4-gram).
- Tomar el promedio logarítmico de las precisiones y convertirlo en promedio geométrico.
- Aplicar una brevity penalty si la oración candidata es más corta que la de referencia.
El puntaje BLEU varía entre 0 y 1; valores más altos indican traducciones más cercanas a la referencia.
2. Ejemplo de Implementación en Python 3.13 #
Implementación de BLEU usando solo la biblioteca estándar de Python.
| |
Ejemplo de salida:
BLEU = 0.638
3. Ventajas #
- Fácil de implementar y rápido de calcular; se ha usado ampliamente en la evaluación de traducción automática.
- El uso de múltiples referencias mejora la tolerancia a las paráfrasis.
4. Limitaciones #
- Sensible al orden de palabras y sinónimos, por lo que una traducción correcta puede recibir una puntuación baja.
- Su correlación con la evaluación humana disminuye en textos largos.
- En idiomas como el japonés, se recomienda tokenizar o segmentar las palabras antes del cálculo.
Resumen #
- BLEU evalúa la calidad de la traducción según la coincidencia de n-gramas y la penalización por brevedad.
- Puede implementarse fácilmente en Python 3.13 con anotaciones de tipo para mejorar su reutilización.
- Se recomienda combinarlo con métricas como ROUGE o METEOR para evaluar también la diversidad léxica y la similitud semántica.