Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje

Olmos Camarena, Lara. (2021). Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
OlmosCamarena_Lara_TFM.pdf OlmosCamarena_Lara_TFM.pdf application/pdf 3.79MB

Título Caracterización y predicción automática de dificultad en colecciones de Búsqueda de Respuestas en base a Modelos Neuronales de Lenguaje
Autor(es) Olmos Camarena, Lara
Resumen El área de Búsqueda de Respuestas evoluciona gracias al uso de colecciones que permiten la evaluación del rendimiento de los sistemas ante la necesidad de conocimiento general. Los últimos sistemas de Deep Learning, basados en modelos pre-entrenados como BERT, RoBERTa y T5, han mejorado en gran medida los resultados de planteamientos anteriores. Sin embargo, el análisis de errores cometidos por estos sistemas es escaso y no permite conocer en qué aspectos se puede mejorar o qué tipo de preguntas plantean mayor dificultad. Para abordar este problema, en este trabajo se ha realizado una caracterización automática de las colecciones más empleadas como SQuAD, NewsQA y RACE, y un estudio asociando los fallos y aciertos cometidos por varios modelos sobre estas colecciones. Además, se propone una metodología para la anotación automática de la complejidad de las colecciones de preguntas en base a las dificultades que suponen para varios sistemas. Finalmente, se evalúan varios modelos predictivos basados en Aprendizaje Automático para estudiar la capacidad de predecir la anotación propuesta en este trabajo. De este modo, se pretende avanzar en los estudios relativos a cómo mejorar los resultados en la Búsqueda de Respuestas por parte de los sistemas actuales.
Abstract Question answering evolution is due to the explosion of challenging datasets requiring world knowledge to answer. Recently, pre-trained neural network language models such as BERT, RoBERTa and T5 have greatly improved on the results of previous approaches. However, error analysis of this models is scarce and and does not allow to know in which aspects can be improved or what type of questions pose the greatest difficulty. To address this problem, in this work is proposed the automatic linguistic characterization of several datasets used for fine-tunning this models such as SQuAD, NewsQA and RACE, and a study associating the mistakes and successes made by various models on these collections. In addition, a methodology for automatic annotation of the complexity of question collections is proposed based on the difficulties the pose to various systems. Finally, several predictive models based on Machine Learning are evaluated to study the ability to predict the annotation proposed in this work. In this way, it is intended to advance in the studies on how to improve the results in Question Answering by the current systems.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Palabra clave Búsqueda de Respuestas
Modelos Neuronales de Lenguaje
Procesamiento de Lenguaje Natural
Aprendizaje Automático Profundo
Transfer Learning
Question Answering
Neural Networks Language Models
Natural Language Processing
Deep Learning
Transfer Learning
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor Rodrigo Yuste, Álvaro
Fecha 2021-06-01
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Lolmos
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Lolmos
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 152 Visitas, 200 Descargas  -  Estadísticas en detalle
Creado: Thu, 12 Jan 2023, 00:25:41 CET