Detecting Most Important Sentences in Training Corpus For NER Task

Esteban Andaluz, Luis. (2022). Detecting Most Important Sentences in Training Corpus For NER Task Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Esteban_Andaluz_Luis_TFM.pdf Esteban_Andaluz_Luis_TFM.pdf application/pdf 2.25MB

Título Detecting Most Important Sentences in Training Corpus For NER Task
Autor(es) Esteban Andaluz, Luis
Resumen El Reconocimiento de Entidades Nominales (NER) consiste en la localización de una expresión textual que hace referencia a una entidad en el texto. Durante los ´últimos 25 años este problema ha sido sujeto de investigación dada su aplicación en variedad de sistemas de Procesamiento del Lenguaje Natural (NLP). Además, el NER en el dominio biomédico tiene un interés especial, así como dificultades debido a la heterogeneidad y polisemia en algunas entidades como son: genes, síntomas y enfermedades. Aunque los sistemas NER han mejorado sustancialmente en los últimos años gracias al rápido desarrollo del Deep Learning, todavía queda margen de mejora y, por este motivo, todavía se organizan campañas de evaluación para hacer avanzar el estado del arte. En este trabajo, hemos propuesto un sistema completo capaz de llevar a cabo la tarea NER basado en el deep transformer, BERT. Este sistema utiliza etiquetas BIO, por lo que las etapas de pre y post procesamiento también se han diseñado y desarrollado de cero. Utilizaremos la campaña de evaluación eHealth Knowledge Discovery Challenge at Iber- LEF 2021 como marco para nuestro desarrollo. Utilizando este sistema, vamos a estudiar el impacto de la selección de oraciones en el entrenamiento del propio sistema. Primero, describimos las oraciones del corpus dados ciertos rasgos morfosintácticos y semánticos. Después, entrenamos el sistema con diferente número de oraciones, que han sido seleccionadas según ciertos criterios de los rasgos, y comparamos los resultados con el mismo número de oraciones que han sido escogidas de forma aleatoria. Los resultados muestran que el entrenamiento con oraciones concretas puede desempeñar mejor que la selección aleatoria cuando poca cantidad de datos de entrenamiento están disponibles. Finalmente, calculamos y comparamos los resultados de este sistema en la tarea eHealth KD 2021, además de las técnicas utilizadas por los resultados al nivel del estado del arte.
Abstract Name Entity Recognition (NER) consists in the location of a word expression that references to an entity in a text. For the last 25 years, this task have been subject of research given its application in a variety of Natural Language Processing (NLP) tasks. Also, NER for biomedical domain has special interest, as well as difficulties given the heterogeneity and polysemy in some entities such as genes, symptoms and diseases. Although NER systems have improve substantially in the past years thanks to Deep Learning fast development, there is still improvement possibilities and for this reason there are still evaluation campaigns to push the state of art further. In this work, we have proposed an end-to-end system able to accomplish NER task based on deep transformer, BERT. This system uses BIO-labels, so pre and post processing steps have been also designed and developed from scratch. We will use the eHealth Knowledge Discovery Challenge at IberLEF 2021 as a framework for our development. Using this system, the impact of sentence selection in system training is studied. First, we describe the sentences in corpus given certain morpho-syntactical and semantic extracted features. Later, we train the system with different number of sentences, which have been selected given certain feature criteria, and compare the results with the same number of sentences that have been selected in a random selection. Results show that training with certain sentence can perform better that random selections when small amounts of training data are available. Finally, we calculate and compare the results of our system on eHealth KD 2021 task, as well as, techniques used in of state-of-art results.
Notas adicionales Trabajo de Fin de Máster Universitario en Investigación en Inteligencia Artificial. UNED
Materia(s) Ingeniería Informática
Palabra clave reconocimiento de entidades nominales (NER)
biomédico
etiquetas BIO
Deep Transformers
BERT
extracción de rasgos característicos
AI centrada en datos
Name Entity Recognition (NER)
biomededical
BIO tags
feature extraction
data-centric AI
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor Martínez Unanue, Raquel
Fecha 2022-09-18
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-IIA-Lesteban
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-IIA-Lesteban
Idioma eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 141 Visitas, 104 Descargas  -  Estadísticas en detalle
Creado: Thu, 14 Sep 2023, 20:43:03 CET