Publicación: None of the above: Comparing Scenarios for Answerability Detection in Question Answering Systems
Cargando...
Fecha
2022-10-03
Autores
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
Atribución-NoComercial-SinDerivadas 4.0 Internacional
info:eu-repo/semantics/openAccess
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Resumen
El reciente salto cualitativo en el rendimiento de los sistemas de Búsqueda de Respuestas (QA) ha motivado en paralelo la aparición de un gran número de nuevos conjuntos de datos de QA creados para evaluar dichos sistemas. Sin embargo, no hay suficientes estudios acerca del abanico de fenómenos de razonamiento que ocurren en QA, lo cual permitiría una evaluación más completa de los sistemas de QA. Un fenómeno que no ha recibido suficiente atención es la habilidad de no responder. En la práctica, es importante que cuando un sistema de Búsqueda de Respuestas no está seguro, pueda decidir no ofrecer ninguna respuesta. Sin embargo, la mayoría de los conjuntos de datos de QA no incluyen preguntas sin respuesta y, si las incluyen, no especifican en qué proporción. Hasta la fecha, no hay ningún conjunto de datos o guía para su creación disponible que especifique la cantidad óptima de preguntas sin respuesta que un sistema de Búsqueda de Respuestas debería ver durante el entrenamiento. En este trabajo, proponemos una modificación del popular conjunto de datos de opción múltiple RACE que convierte algunas preguntas en preguntas sin respuesta, y analizamos qué proporción de preguntas sin respuesta podría ofrecer los mejores resultados durante el entrenamiento y la evaluación de un modelo BERT de base.
The recent qualitative step in performance of Question Answering (QA) systems has motivated a parallel profusion of new QA datasets intended to benchmark them. However, there have been only limited efforts to study the range of reasoning phenomena in QA, something that would allow for a more thorough evaluation of QA systems. One phenomenon that has not received much attention is answerability. It is important that question answering systems are able to decide whether to not give an answer when the system is unsure. However, most question answering datasets do not include unanswerable questions, and if they do, do not specify the amount of unanswerable questions. To date, there is no QA dataset or guideline available that specifies the optimal amount of unanswerable questions a QA system should see during training. In this work we propose a modification to the popular multiple-choice question answering dataset RACE that renders some questions unanswerable, and we study which proportion of unanswerable questions might offer the best results during training and evaluation of a baseline BERT model.
The recent qualitative step in performance of Question Answering (QA) systems has motivated a parallel profusion of new QA datasets intended to benchmark them. However, there have been only limited efforts to study the range of reasoning phenomena in QA, something that would allow for a more thorough evaluation of QA systems. One phenomenon that has not received much attention is answerability. It is important that question answering systems are able to decide whether to not give an answer when the system is unsure. However, most question answering datasets do not include unanswerable questions, and if they do, do not specify the amount of unanswerable questions. To date, there is no QA dataset or guideline available that specifies the optimal amount of unanswerable questions a QA system should see during training. In this work we propose a modification to the popular multiple-choice question answering dataset RACE that renders some questions unanswerable, and we study which proportion of unanswerable questions might offer the best results during training and evaluation of a baseline BERT model.
Descripción
Categorías UNESCO
Palabras clave
Citación
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Lenguajes y Sistemas Informáticos