Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje

Olmos Camarena, Lara

Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje

Olmos Camarena, Lara. (2021). Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
OlmosCamarena_Lara_TFM.pdf			OlmosCamarena_Lara_TFM.pdf		application/pdf	3.79MB

Título	Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje
Autor(es)	Olmos Camarena, Lara
Resumen	El área de Búsqueda de Respuestas evoluciona gracias al uso de colecciones que permiten la evaluación del rendimiento de los sistemas ante la necesidad de conocimiento general. Los últimos sistemas de Deep Learning, basados en modelos pre-entrenados como BERT, RoBERTa y T5, han mejorado en gran medida los resultados de planteamientos anteriores. Sin embargo, el análisis de errores cometidos por estos sistemas es escaso y no permite conocer en qué aspectos se puede mejorar o qué tipo de preguntas plantean mayor dificultad. Para abordar este problema, en este trabajo se ha realizado una caracterización automática de las colecciones más empleadas como SQuAD, NewsQA y RACE, y un estudio asociando los fallos y aciertos cometidos por varios modelos sobre estas colecciones. Además, se propone una metodología para la anotación automática de la complejidad de las colecciones de preguntas en base a las dificultades que suponen para varios sistemas. Finalmente, se evalúan varios modelos predictivos basados en Aprendizaje Automático para estudiar la capacidad de predecir la anotación propuesta en este trabajo. De este modo, se pretende avanzar en los estudios relativos a cómo mejorar los resultados en la Búsqueda de Respuestas por parte de los sistemas actuales.
Abstract	Question answering evolution is due to the explosion of challenging datasets requiring world knowledge to answer. Recently, pre-trained neural network language models such as BERT, RoBERTa and T5 have greatly improved on the results of previous approaches. However, error analysis of this models is scarce and and does not allow to know in which aspects can be improved or what type of questions pose the greatest difficulty. To address this problem, in this work is proposed the automatic linguistic characterization of several datasets used for fine-tunning this models such as SQuAD, NewsQA and RACE, and a study associating the mistakes and successes made by various models on these collections. In addition, a methodology for automatic annotation of the complexity of question collections is proposed based on the difficulties the pose to various systems. Finally, several predictive models based on Machine Learning are evaluated to study the ability to predict the annotation proposed in this work. In this way, it is intended to advance in the studies on how to improve the results in Question Answering by the current systems.
Notas adicionales	Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s)	Ingeniería Informática
Palabra clave	Búsqueda de Respuestas Modelos Neuronales de Lenguaje Procesamiento de Lenguaje Natural Aprendizaje Automático Profundo Transfer Learning Question Answering Neural Networks Language Models Natural Language Processing Deep Learning Transfer Learning
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor	Rodrigo Yuste, Álvaro
Fecha	2021-06-01
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-TL-Lolmos http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Lolmos
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en Tecnologías del Lenguaje (UNED) Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	152 Visitas, 200 Descargas - Estadísticas en detalle
Creado:	Thu, 12 Jan 2023, 00:25:41 CET

e-spacio

Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje