Detecting Most Important Sentences in Training Corpus For NER Task

Esteban Andaluz, Luis

Fecha

2022-09-18

Director/a

Martínez Unanue, Raquel

Derechos de acceso

info:eu-repo/semantics/openAccess

Editorial

Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Citas

0 citas en

Resumen

El Reconocimiento de Entidades Nominales (NER) consiste en la localización de una expresión textual que hace referencia a una entidad en el texto. Durante los ´últimos 25 años este problema ha sido sujeto de investigación dada su aplicación en variedad de sistemas de Procesamiento del Lenguaje Natural (NLP). Además, el NER en el dominio biomédico tiene un interés especial, así como dificultades debido a la heterogeneidad y polisemia en algunas entidades como son: genes, síntomas y enfermedades. Aunque los sistemas NER han mejorado sustancialmente en los últimos años gracias al rápido desarrollo del Deep Learning, todavía queda margen de mejora y, por este motivo, todavía se organizan campañas de evaluación para hacer avanzar el estado del arte. En este trabajo, hemos propuesto un sistema completo capaz de llevar a cabo la tarea NER basado en el deep transformer, BERT. Este sistema utiliza etiquetas BIO, por lo que las etapas de pre y post procesamiento también se han diseñado y desarrollado de cero. Utilizaremos la campaña de evaluación eHealth Knowledge Discovery Challenge at Iber- LEF 2021 como marco para nuestro desarrollo. Utilizando este sistema, vamos a estudiar el impacto de la selección de oraciones en el entrenamiento del propio sistema. Primero, describimos las oraciones del corpus dados ciertos rasgos morfosintácticos y semánticos. Después, entrenamos el sistema con diferente número de oraciones, que han sido seleccionadas según ciertos criterios de los rasgos, y comparamos los resultados con el mismo número de oraciones que han sido escogidas de forma aleatoria. Los resultados muestran que el entrenamiento con oraciones concretas puede desempeñar mejor que la selección aleatoria cuando poca cantidad de datos de entrenamiento están disponibles. Finalmente, calculamos y comparamos los resultados de este sistema en la tarea eHealth KD 2021, además de las técnicas utilizadas por los resultados al nivel del estado del arte.
Name Entity Recognition (NER) consists in the location of a word expression that references to an entity in a text. For the last 25 years, this task have been subject of research given its application in a variety of Natural Language Processing (NLP) tasks. Also, NER for biomedical domain has special interest, as well as difficulties given the heterogeneity and polysemy in some entities such as genes, symptoms and diseases. Although NER systems have improve substantially in the past years thanks to Deep Learning fast development, there is still improvement possibilities and for this reason there are still evaluation campaigns to push the state of art further. In this work, we have proposed an end-to-end system able to accomplish NER task based on deep transformer, BERT. This system uses BIO-labels, so pre and post processing steps have been also designed and developed from scratch. We will use the eHealth Knowledge Discovery Challenge at IberLEF 2021 as a framework for our development. Using this system, the impact of sentence selection in system training is studied. First, we describe the sentences in corpus given certain morpho-syntactical and semantic extracted features. Later, we train the system with different number of sentences, which have been selected given certain feature criteria, and compare the results with the same number of sentences that have been selected in a random selection. Results show that training with certain sentence can perform better that random selections when small amounts of training data are available. Finally, we calculate and compare the results of our system on eHealth KD 2021 task, as well as, techniques used in of state-of-art results.

Palabras clave

reconocimiento de entidades nominales (NER), biomédico, etiquetas BIO, Deep Transformers, BERT, extracción de rasgos característicos, AI centrada en datos, Name Entity Recognition (NER), biomededical, BIO tags, feature extraction, data-centric AI

Centro

E.T.S. de Ingeniería Informática

Departamento

Inteligencia Artificial

Handle

https://hdl.handle.net/20.500.14468/14663

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editorial

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Datos de investigación relacionados

Handle

DOI

Colecciones