Transformers BERT para Question-Answering sobre COVID-19

Sigüenza Moreno, Bernardo

Transformers BERT para Question-Answering sobre COVID-19

Sigüenza Moreno, Bernardo. (2021). Transformers BERT para Question-Answering sobre COVID-19 Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
SiguenzaBernardo_TFM.pdf			SiguenzaBernardo_TFM.pdf		application/pdf	1.10MB

Título	Transformers BERT para Question-Answering sobre COVID-19
Autor(es)	Sigüenza Moreno, Bernardo
Resumen	La sobrecarga de información debido al ritmo de publicación de artículos científicos requiere sistemas question-answering que proporcionen acceso eficiente al conocimiento adecuando las respuestas al tipo de usuario. Para el desarrollo de sistemas question-answering son necesarios datasets de entrenamiento/evaluación anotados por expertos. Sin embargo, los datasets existentes para comprensión lectora en áreas de conocimiento especializadas como medicina no tienen un volumen de muestras suficiente para usarlos con métodos de aprendizaje supervisado. BioASQ v9b, un dataset biomédico, contiene 3.742 preguntas; COVID-QA-2019 (Möller et al., 2020) 2.019 ternas de pregunta, artículo, respuesta; COVID-QA-147 (Tang et al., 2020) 147 ternas, COVID-QA-111 (Lee et al., 2020) 111 ternas mientras que la versión 2 del Stanford Question Answering Dataset SQuAD v2 (Rajpurkar et al., 2018), un dataset genérico creado a partir de artículos de Wikipedia, contiene 130.319 muestras de entrenamiento, 11.873 de validación y 8.862 de pruebas. Una solución a la falta de datasets question-answering específicos del dominio con tamaños suficientes de muestras consiste en inducir el modelo de lenguaje en un dataset de dominio general y aplicarlo al dominio específico. Este trabajo estudia el rendimiento de modelos BERT (Devlin et al., 2018) y SBERT (Reimers et Gurevych, 2019) entrenados en corpus de dominio general SQuAD v2, QuAC (Choi et al., 2018) y MS MARCO (Nguyen et al., 2016) cuando se utilizan para obtener respuestas en el dominio COVID-19 mediante el corpus CORD-19 (Wang et al., 2020).
Abstract	Information overload due to the increase in scientific literature requires question-answering systems that provides efficient access to knowledge, adapting the answers to the user. One of the most important requirements for the development of a question-answering system is an expert annotated training/validation dataset. However, existing machine reading comprehension datasets for question-answering in specialized knowledge areas such as biomedicine are not large enough to be used in supervised learning models; e.g., BioASQ v9b, a biomedical dataset containing 3742 questions; COVIDQA- 2019 (Möller et al., 2020) consisting of 2019 question-articleanswer triples; COVID-QA-147 (Tang et al., 2020) 147 triples, COVIDQA- 111 (Lee et al., 2020) 111 triples. The Stanford Question Answering Dataset SQuAD v2 (Rajpurkar et al., 2018), a reading comprehension dataset created by crowdworkers on a set of Wikipedia articles is composed of 130319 training samples, 11873 validation samples and 8862 test samples. To address the lack of biomedical dataset, the language representations are pretrained and fine-tuned on large generic corpora, e.g., SQuAD, and evaluated in COVID-19 domain. We evaluate performance of BERT (Devlin et al., 2018) and SBERT (Reimers et Gurevych, 2019) models trained in SQuAD v2, QuAC (Choi et al., 2018) and MS MARCO (Nguyen et al., 2016) to obtain answers in the COVID-19 domain using CORD-19 dataset (Wang et al., 2020)
Notas adicionales	Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s)	Ingeniería Informática
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor	Peñas Padilla, Anselmo
Fecha	2021-09-01
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-TL-Bsiguenza http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Bsiguenza
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en Tecnologías del Lenguaje (UNED) Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	172 Visitas, 244 Descargas - Estadísticas en detalle
Creado:	Thu, 12 Jan 2023, 19:09:55 CET

e-spacio

Transformers BERT para Question-Answering sobre COVID-19