Detecting Most Important Sentences in Training Corpus For NER Task

Esteban Andaluz, Luis

Detecting Most Important Sentences in Training Corpus For NER Task

Esteban Andaluz, Luis. (2022). Detecting Most Important Sentences in Training Corpus For NER Task Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
Esteban_Andaluz_Luis_TFM.pdf			Esteban_Andaluz_Luis_TFM.pdf		application/pdf	2.25MB

Título	Detecting Most Important Sentences in Training Corpus For NER Task
Autor(es)	Esteban Andaluz, Luis
Resumen	El Reconocimiento de Entidades Nominales (NER) consiste en la localización de una expresión textual que hace referencia a una entidad en el texto. Durante los ´últimos 25 años este problema ha sido sujeto de investigación dada su aplicación en variedad de sistemas de Procesamiento del Lenguaje Natural (NLP). Además, el NER en el dominio biomédico tiene un interés especial, así como dificultades debido a la heterogeneidad y polisemia en algunas entidades como son: genes, síntomas y enfermedades. Aunque los sistemas NER han mejorado sustancialmente en los últimos años gracias al rápido desarrollo del Deep Learning, todavía queda margen de mejora y, por este motivo, todavía se organizan campañas de evaluación para hacer avanzar el estado del arte. En este trabajo, hemos propuesto un sistema completo capaz de llevar a cabo la tarea NER basado en el deep transformer, BERT. Este sistema utiliza etiquetas BIO, por lo que las etapas de pre y post procesamiento también se han diseñado y desarrollado de cero. Utilizaremos la campaña de evaluación eHealth Knowledge Discovery Challenge at Iber- LEF 2021 como marco para nuestro desarrollo. Utilizando este sistema, vamos a estudiar el impacto de la selección de oraciones en el entrenamiento del propio sistema. Primero, describimos las oraciones del corpus dados ciertos rasgos morfosintácticos y semánticos. Después, entrenamos el sistema con diferente número de oraciones, que han sido seleccionadas según ciertos criterios de los rasgos, y comparamos los resultados con el mismo número de oraciones que han sido escogidas de forma aleatoria. Los resultados muestran que el entrenamiento con oraciones concretas puede desempeñar mejor que la selección aleatoria cuando poca cantidad de datos de entrenamiento están disponibles. Finalmente, calculamos y comparamos los resultados de este sistema en la tarea eHealth KD 2021, además de las técnicas utilizadas por los resultados al nivel del estado del arte.
Abstract	Name Entity Recognition (NER) consists in the location of a word expression that references to an entity in a text. For the last 25 years, this task have been subject of research given its application in a variety of Natural Language Processing (NLP) tasks. Also, NER for biomedical domain has special interest, as well as difficulties given the heterogeneity and polysemy in some entities such as genes, symptoms and diseases. Although NER systems have improve substantially in the past years thanks to Deep Learning fast development, there is still improvement possibilities and for this reason there are still evaluation campaigns to push the state of art further. In this work, we have proposed an end-to-end system able to accomplish NER task based on deep transformer, BERT. This system uses BIO-labels, so pre and post processing steps have been also designed and developed from scratch. We will use the eHealth Knowledge Discovery Challenge at IberLEF 2021 as a framework for our development. Using this system, the impact of sentence selection in system training is studied. First, we describe the sentences in corpus given certain morpho-syntactical and semantic extracted features. Later, we train the system with different number of sentences, which have been selected given certain feature criteria, and compare the results with the same number of sentences that have been selected in a random selection. Results show that training with certain sentence can perform better that random selections when small amounts of training data are available. Finally, we calculate and compare the results of our system on eHealth KD 2021 task, as well as, techniques used in of state-of-art results.
Notas adicionales	Trabajo de Fin de Máster Universitario en Investigación en Inteligencia Artificial. UNED
Materia(s)	Ingeniería Informática
Palabra clave	reconocimiento de entidades nominales (NER) biomédico etiquetas BIO Deep Transformers BERT extracción de rasgos característicos AI centrada en datos Name Entity Recognition (NER) biomededical BIO tags feature extraction data-centric AI
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor	Martínez Unanue, Raquel
Fecha	2022-09-18
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-IIA-Lesteban http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-IIA-Lesteban
Idioma	eng
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en Investigación en Inteligencia Artificial Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	141 Visitas, 104 Descargas - Estadísticas en detalle
Creado:	Thu, 14 Sep 2023, 20:43:03 CET

e-spacio

Detecting Most Important Sentences in Training Corpus For NER Task