Extracción de Relaciones Semánticas entre entidades en el dominio biomédico español

Sánchez Torreguitart, Jeremi

Extracción de Relaciones Semánticas entre entidades en el dominio biomédico español

Sánchez Torreguitart, Jeremi. (2022). Extracción de Relaciones Semánticas entre entidades en el dominio biomédico español Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
Sanchez_Torreguitart_Jeremi_TFM.pdf			Sanchez_Torreguitart_Jeremi_TFM.pdf		application/pdf	9.29MB

Título	Extracción de Relaciones Semánticas entre entidades en el dominio biomédico español
Autor(es)	Sánchez Torreguitart, Jeremi
Resumen	Debido a que la literatura biomédica ha ido creciendo de forma exponencial, la minería de textos biomédicos ha recibido especial atención. Los avances recientes en las técnicas de procesamiento de textos permiten ir más allá de la simple lectura de la información incluida en los textos publicados y facilitan la extracción de datos relevantes para la toma de decisiones. La extracción de entidades (NER) y de sus relaciones semánticas (RE) son tareas clave en la extracción de información. Dada una secuencia de texto (generalmente una oración), el objetivo de estos sistemas es identificar tanto las entidades nombradas como las relaciones entre ellas. Los modelos más avanzados demuestran que todavía existe un largo recorrido para conseguir rendimientos cercanos al de un humano en la tarea de la extracción de relaciones semánticas en el campo biomédico español. El objetivo de este trabajo es proponer una metodología_y una serie de técnicas para intentar mejorar los resultados de estos modelos en el campo biomédico español. En este trabajo se indaga sobre el uso de distintas técnicas de aumento de datos y diferentes modelos de Inteligencia Artificial con el objetivo de mejorar el rendimiento a la hora de reconocer relaciones semánticas (RE). Como marco experimental se utilizara el facilitado por el desafío eHealth-KD 2021. Se implementarían y evaluarían distintos algoritmos de aprendizaje supervisado basados en transformers pre-entrenados de origen. Con estos modelos se realizara un primer entrenamiento inicial (pre-entrenamiento) con un corpus grande generado artificialmente con técnicas de aumento de datos: traducción, traducción inversa (backtranslation), alineamiento de palabras (word-aligment) y balanceo de clases. Se usará una combinación de modelos supervisados que consta de un modelo transformer pre-entrenados y una red neuronal de clasificación y se hará uso de conocimiento heurístico previo basado en función de la combinación del tipo de entidades para reducir el error en la clasificación de relaciones. Se ha demostrado que el uso de un corpus de pre-entrenamiento, el uso de técnicas de aumento de datos y el uso de incrustaciones de redes transformers multilingües (tranformer embeddings multilingual ) consiguen mejorar el rendimiento de los modelos.
Abstract	Biomedical literature has grown exponentially, and biomedical text mining has received special attention. Recent advances in word processing techniques make it possible to go beyond simply reading the information included in published texts and facilitate the extraction of relevant data for decision-making. The extraction of entities (NER) and their semantic relations (RE) are key tasks in the extraction and retrieval of information systems. Given a sequence of text (usually a sentence), the goal of these systems to identify both the named entities and the relationships between them. The most advanced models show that there is still a long way to go to achieve performances close to that of a human in the task of extracting semantic relationships in the Spanish biomedical eld. The objective of this work is to propose a methodology and a series of techniques to try to improve the results of these models in the Spanish biomedical eld. This paper investigates the use of dierent data augmentation techniques and dierent Articial Intelligence models with the aim of improving performance when recognizing semantic relationships (RE). As an experimental framework, the one provided by the eHealth-KD 2021 challenge will be used. Dierent supervised learning algorithms based on pre-trained transformers will be implemented and evaluated. With models, a rst initial training (pre-training) is carried out with a large corpus articially generated with data augmentation techniques: translation, backtranslation, word-alignment and class balance. A combination of supervised models consisting of a pretrained transformer model and a classication neural network will be used and heuristic prior knowledge based on the combination of entity type will be used to reduce error in relationship classication. It has been shown that the use of a pretraining corpus, the use of data augmentation techniques and the use of multilingual transformer embeddings improve the performance of the models.
Notas adicionales	Trabajo de Fin de Máster Universitario en Investigación en Inteligencia Artificial. UNED
Materia(s)	Ingeniería Informática
Palabra clave	extracción de relaciones semánticas dominio biomédico modelo tranformers aumento de datos traducción Inversa aumento de Texto procesamiento de lenguaje natural Entity Relation Extraction Biomedical Domain Transformer Model Data Augmentation Back Translation Text Augmentation NLP
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor	Martínez Unanue, Raquel Montalvo Herranz, María Soto
Fecha	2022-06-01
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-IIA-Jsanchez http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-IIA-Jsanchez
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en Investigación en Inteligencia Artificial Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	114 Visitas, 73 Descargas - Estadísticas en detalle
Creado:	Wed, 13 Sep 2023, 19:19:08 CET

e-spacio

Extracción de Relaciones Semánticas entre entidades en el dominio biomédico español