Métricas ROUGE

Eval

Métricas ROUGE

まとめ
  • ROUGE es un conjunto de métricas que miden la superposición de n-gramas o de la secuencia común más larga (LCS) entre el texto generado y el de referencia.
  • Usando un ejemplo de resumen, se calculan ROUGE-1/2/L y se interpreta su significado.
  • También se analiza su correlación con la evaluación humana y las precauciones al aplicarlo a textos largos.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) es una familia de métricas que cuantifican el grado de coincidencia entre un resumen candidato y uno de referencia.
ROUGE-1 y ROUGE-2 miden el recall de n-gramas, mientras que ROUGE-L se basa en la Secuencia Común Más Larga (LCS) entre ambos textos.


Principales Variantes #

  • ROUGE-1 / ROUGE-2: Calculan el recall de unigramas y bigramas; útiles para resúmenes extractivos o verificación de palabras clave.
  • ROUGE-L: Basado en la longitud de la LCS normalizada por la longitud de referencia; considera el orden de las palabras.
  • ROUGE-Lsum: Promedia la LCS a nivel de oración; muy usado para la evaluación de resúmenes largos.
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeLsum"], use_stemmer=True)
candidate = "Hoy hace muy buen tiempo"
reference = "Hoy el clima es agradable"
print(scorer.score(reference, candidate))

Ventajas #

  • Cálculo ligero; permite obtener varias métricas simultáneamente.
  • Muestra buena correlación con la evaluación humana basada en recall.
  • Métrica estándar para resúmenes extractivos y análisis de contenido informativo.

Limitaciones #

  • No considera la similitud semántica, por lo que las paráfrasis pueden reducir la puntuación injustamente.
  • Con solo un resumen de referencia, la diversidad de los candidatos puede infravalorarse.
  • En japonés u otros idiomas con morfología compleja, usar análisis morfológico o segmentación por subpalabras mejora la estabilidad del puntaje.