None of the above: Comparing Scenarios for Answerability Detection in Question Answering Systems

Reyes Montesinos, Julio

Fecha

2022-10-03

Director/a

Rodrigo Yuste, Álvaro
Peñas Padilla, Anselmo

Derechos de acceso

info:eu-repo/semantics/openAccess

Editor

Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Citas

0 citas en

Resumen

El reciente salto cualitativo en el rendimiento de los sistemas de Búsqueda de Respuestas (QA) ha motivado en paralelo la aparición de un gran número de nuevos conjuntos de datos de QA creados para evaluar dichos sistemas. Sin embargo, no hay suficientes estudios acerca del abanico de fenómenos de razonamiento que ocurren en QA, lo cual permitiría una evaluación más completa de los sistemas de QA. Un fenómeno que no ha recibido suficiente atención es la habilidad de no responder. En la práctica, es importante que cuando un sistema de Búsqueda de Respuestas no está seguro, pueda decidir no ofrecer ninguna respuesta. Sin embargo, la mayoría de los conjuntos de datos de QA no incluyen preguntas sin respuesta y, si las incluyen, no especifican en qué proporción. Hasta la fecha, no hay ningún conjunto de datos o guía para su creación disponible que especifique la cantidad óptima de preguntas sin respuesta que un sistema de Búsqueda de Respuestas debería ver durante el entrenamiento. En este trabajo, proponemos una modificación del popular conjunto de datos de opción múltiple RACE que convierte algunas preguntas en preguntas sin respuesta, y analizamos qué proporción de preguntas sin respuesta podría ofrecer los mejores resultados durante el entrenamiento y la evaluación de un modelo BERT de base.
The recent qualitative step in performance of Question Answering (QA) systems has motivated a parallel profusion of new QA datasets intended to benchmark them. However, there have been only limited efforts to study the range of reasoning phenomena in QA, something that would allow for a more thorough evaluation of QA systems. One phenomenon that has not received much attention is answerability. It is important that question answering systems are able to decide whether to not give an answer when the system is unsure. However, most question answering datasets do not include unanswerable questions, and if they do, do not specify the amount of unanswerable questions. To date, there is no QA dataset or guideline available that specifies the optimal amount of unanswerable questions a QA system should see during training. In this work we propose a modification to the popular multiple-choice question answering dataset RACE that renders some questions unanswerable, and we study which proportion of unanswerable questions might offer the best results during training and evaluation of a baseline BERT model.

Centro

E.T.S. de Ingeniería Informática

Departamento

Lenguajes y Sistemas Informáticos

Handle

https://hdl.handle.net/20.500.14468/14694

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editor

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Handle

DOI

Colecciones