Publicación: Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje
Cargando...
Fecha
2021-06-01
Autores
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
Atribución-NoComercial-SinDerivadas 4.0 Internacional
info:eu-repo/semantics/openAccess
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Resumen
El área de Búsqueda de Respuestas evoluciona gracias al uso de colecciones que permiten la evaluación del rendimiento de los sistemas ante la necesidad de conocimiento general. Los últimos sistemas de Deep Learning, basados en modelos pre-entrenados como BERT, RoBERTa y T5, han mejorado en gran medida los resultados de planteamientos anteriores. Sin embargo, el análisis de errores cometidos por estos sistemas es escaso y no permite conocer en qué aspectos se puede mejorar o qué tipo de preguntas plantean mayor dificultad. Para abordar este problema, en este trabajo se ha realizado una caracterización automática de las colecciones más empleadas como SQuAD, NewsQA y RACE, y un estudio asociando los fallos y aciertos cometidos por varios modelos sobre estas colecciones. Además, se propone una metodología para la anotación automática de la complejidad de las colecciones de preguntas en base a las dificultades que suponen para varios sistemas. Finalmente, se evalúan varios modelos predictivos basados en Aprendizaje Automático para estudiar la capacidad de predecir la anotación propuesta en este trabajo. De este modo, se pretende avanzar en los estudios relativos a cómo mejorar los resultados en la Búsqueda de Respuestas por parte de los sistemas actuales.
Question answering evolution is due to the explosion of challenging datasets requiring world knowledge to answer. Recently, pre-trained neural network language models such as BERT, RoBERTa and T5 have greatly improved on the results of previous approaches. However, error analysis of this models is scarce and and does not allow to know in which aspects can be improved or what type of questions pose the greatest difficulty. To address this problem, in this work is proposed the automatic linguistic characterization of several datasets used for fine-tunning this models such as SQuAD, NewsQA and RACE, and a study associating the mistakes and successes made by various models on these collections. In addition, a methodology for automatic annotation of the complexity of question collections is proposed based on the difficulties the pose to various systems. Finally, several predictive models based on Machine Learning are evaluated to study the ability to predict the annotation proposed in this work. In this way, it is intended to advance in the studies on how to improve the results in Question Answering by the current systems.
Question answering evolution is due to the explosion of challenging datasets requiring world knowledge to answer. Recently, pre-trained neural network language models such as BERT, RoBERTa and T5 have greatly improved on the results of previous approaches. However, error analysis of this models is scarce and and does not allow to know in which aspects can be improved or what type of questions pose the greatest difficulty. To address this problem, in this work is proposed the automatic linguistic characterization of several datasets used for fine-tunning this models such as SQuAD, NewsQA and RACE, and a study associating the mistakes and successes made by various models on these collections. In addition, a methodology for automatic annotation of the complexity of question collections is proposed based on the difficulties the pose to various systems. Finally, several predictive models based on Machine Learning are evaluated to study the ability to predict the annotation proposed in this work. In this way, it is intended to advance in the studies on how to improve the results in Question Answering by the current systems.
Descripción
Categorías UNESCO
Palabras clave
Búsqueda de Respuestas, Modelos Neuronales de Lenguaje, Procesamiento de Lenguaje Natural, Aprendizaje Automático Profundo, Transfer Learning, Question Answering, Neural Networks Language Models, Natural Language Processing, Deep Learning, Transfer Learning
Citación
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Lenguajes y Sistemas Informáticos