Publicación: Métodos y herramientas para la evaluación de resúmenes automáticos mediante feedback humano
Cargando...
Fecha
2023
Autores
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
Atribución-NoComercial-SinDerivadas 4.0 Internacional
info:eu-repo/semantics/openAccess
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Resumen
A medida que avanzan los modelos de lenguaje natural, el entrenamiento y la evaluaci ón de estos se ven limitados por las métricas y los datos empleados para tareas específicas. En el contexto de la generación automática de resúmenes, comúnmente se utilizan métricas tradicionales como ROUGE y BLEU, entre otras, pero estas podrían no capturar la verdadera esencia de la calidad del resumen. En este trabajo, se revisa la validez de dichas métricas en el contexto actual, empleando un dataset innovador de OpenAI, compuesto por comparaciones de resúmenes anotados con feedback humano. Se observa que los resúmenes automáticos a menudo superan la calidad de los resúmenes de referencia humanos, llegando a ser casi indistinguibles de estos. Mediante diversos experimentos, se explora tanto la eficacia de las métricas de evaluación tradicionales como el impacto de ciertos rasgos y características en la calidad percibida de un resumen. Este estudio ofrece tres contribuciones significativas: en primer lugar, proporciona una evaluación crítica de las métricas estándar en el contexto actual, subrayando la necesidad de adaptaciones continuas. En segundo lugar, pone de relieve la importancia del feedback humano y cómo este puede enriquecer el proceso de evaluación, brindando percepciones valiosas que las métricas tradicionales podrían no capturar. Finalmente, introduce y valida métricas y herramientas innovadoras, como aquellas basadas en la similitud semántica, y la herramienta ExplainSumm, que han demostrado su eficacia en distintos contextos. Se espera que este trabajo no solo desafíe las nociones convencionales en la evaluación de resúmenes automáticos, sino que también proponga una ruta hacia una evaluación más holística y matizada, capaz de representar de manera más fiable la calidad y utilidad de los resúmenes en la era contemporánea.
Descripción
Categorías UNESCO
Palabras clave
Machine Learning (cs.LG), Computation and Language (cs.CL), Machine Learning (stat.ML), FOS: Computer and information sciences,, FOS: Computer and information sciences
Citación
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Lenguajes y Sistemas Informáticos