Reconocimiento de entidades y extracción de relaciones en texto biomédico

Villaplana Moreno, Aitana. (2023). Reconocimiento de entidades y extracción de relaciones en texto biomédico Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Villaplana_Aitana_TFM.pdf Villaplana_Aitana_TFM.pdf application/pdf 3.72MB

Título Reconocimiento de entidades y extracción de relaciones en texto biomédico
Autor(es) Villaplana Moreno, Aitana
Resumen El análisis de documentos médicos supone un gran reto a día de hoy. Existe mucha información desestructurada, que difícilmente puede ser analizada. Es por esto, que una de las tareas de Procesamiento del Lenguaje Natural es poder ser capaces de extraer las Entidades Nombradas en los textos, así como también ciertas relaciones que existen entre éstas, lo que facilita en gran medida el posterior análisis de los datos biomédicos. Para realizar estas tareas existen modelos avanzados, basados en modelos de lenguaje entrenados con grandes cantidades de datos. Lo que se propone en este trabajo, es utilizar modelos transformers junto con modelos de aprendizaje automático como SVM o Redes Neuronales para realizar la tarea de extracción de entidades, ya sea utilizando modelos previamente entrenados en grandes cantidades de texto biomédico en español, o bien realizando el entrenamiento del modelo a partir de estos modelos previamente entrenados. Esta última aproximación ha conseguido superar los resultados de otros sistemas del estado del arte para la tarea del reconocimiento de entidades. Respecto a la tarea de extracci ón de relaciones, se han utilizado también estos modelos transformers entrenados con texto biomédico en español junto con modelos de Redes Neuronales, además de utilizar técnicas de aumento de datos como SMOTE-NC y reducción de dimensionalidad como LDA, lo que ha dado como resultado sistemas comparables a los del estado del arte.
Abstract The analysis of medical documents is a considerable challenge nowadays. There is a lot of unstructured information. For this reason one of the tasks of Natural Language Processing is to be able to extract the Named Entities in the texts, as well as certain relationships that exist between them, which greatly facilitates the subsequent analysis of biomedical data. To perform these tasks, advanced models are available, based on language models trained on large amounts of data. In this work, we propose to use transformers models together with machine learning models such as SVM or Neural Networks to perform the task of entity extraction, either by using models previously trained on large amounts of biomedical text in Spanish, or by training the model from these previously trained models, which has managed to overcome the results of other state-of-the-art systems for the task of entity recognition. Regarding the relation extraction task, we have also used these F1Score models trained with biomedical text in Spanish together with Neural Network models, in addition to using data augmentation techniques such as SMOTE-NC and dimensionality reduction such as LDA, which has resulted in comparable state-of-the-art systems.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor Martínez Unanue, Raquel
Montalvo Herranz, Soto
Fecha 2023
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Avillaplana
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Avillaplana
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 50 Visitas, 19 Descargas  -  Estadísticas en detalle
Creado: Fri, 16 Feb 2024, 23:03:59 CET