まとめ
- ROUGE es un conjunto de métricas que miden la superposición de n-gramas o de la secuencia común más larga (LCS) entre el texto generado y el de referencia.
- Usando un ejemplo de resumen, se calculan ROUGE-1/2/L y se interpreta su significado.
- También se analiza su correlación con la evaluación humana y las precauciones al aplicarlo a textos largos.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) es una familia de métricas que cuantifican el grado de coincidencia entre un resumen candidato y uno de referencia.
ROUGE-1 y ROUGE-2 miden el recall de n-gramas, mientras que ROUGE-L se basa en la Secuencia Común Más Larga (LCS) entre ambos textos.
Principales Variantes #
- ROUGE-1 / ROUGE-2: Calculan el recall de unigramas y bigramas; útiles para resúmenes extractivos o verificación de palabras clave.
- ROUGE-L: Basado en la longitud de la LCS normalizada por la longitud de referencia; considera el orden de las palabras.
- ROUGE-Lsum: Promedia la LCS a nivel de oración; muy usado para la evaluación de resúmenes largos.
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeLsum"], use_stemmer=True)
candidate = "Hoy hace muy buen tiempo"
reference = "Hoy el clima es agradable"
print(scorer.score(reference, candidate))
Ventajas #
- Cálculo ligero; permite obtener varias métricas simultáneamente.
- Muestra buena correlación con la evaluación humana basada en recall.
- Métrica estándar para resúmenes extractivos y análisis de contenido informativo.
Limitaciones #
- No considera la similitud semántica, por lo que las paráfrasis pueden reducir la puntuación injustamente.
- Con solo un resumen de referencia, la diversidad de los candidatos puede infravalorarse.
- En japonés u otros idiomas con morfología compleja, usar análisis morfológico o segmentación por subpalabras mejora la estabilidad del puntaje.