Métricas ROUGE

Actualizado 2020-02-12 Lectura 2 min

Resumen

ROUGE es un conjunto de métricas que miden la superposición de n-gramas o de la secuencia común más larga (LCS) entre el texto generado y el de referencia.
Usando un ejemplo de resumen, se calculan ROUGE-1/2/L y se interpreta su significado.
También se analiza su correlación con la evaluación humana y las precauciones al aplicarlo a textos largos.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) es una familia de métricas que cuantifican el grado de coincidencia entre un resumen candidato y uno de referencia.
ROUGE-1 y ROUGE-2 miden el recall de n-gramas, mientras que ROUGE-L se basa en la Secuencia Común Más Larga (LCS) entre ambos textos.

Principales Variantes #

ROUGE-1 / ROUGE-2: Calculan el recall de unigramas y bigramas; útiles para resúmenes extractivos o verificación de palabras clave.
ROUGE-L: Basado en la longitud de la LCS normalizada por la longitud de referencia; considera el orden de las palabras.
ROUGE-Lsum: Promedia la LCS a nivel de oración; muy usado para la evaluación de resúmenes largos.

1
2
3
4
5
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeLsum"], use_stemmer=True)
candidate = "Hoy hace muy buen tiempo"
reference = "Hoy el clima es agradable"
print(scorer.score(reference, candidate))

Ventajas #

Cálculo ligero; permite obtener varias métricas simultáneamente.
Muestra buena correlación con la evaluación humana basada en recall.
Métrica estándar para resúmenes extractivos y análisis de contenido informativo.

Limitaciones #

No considera la similitud semántica, por lo que las paráfrasis pueden reducir la puntuación injustamente.
Con solo un resumen de referencia, la diversidad de los candidatos puede infravalorarse.
En japonés u otros idiomas con morfología compleja, usar análisis morfológico o segmentación por subpalabras mejora la estabilidad del puntaje.