Recognition of professions in medical documentation

Madrid García, Alfredo. (2023). Recognition of professions in medical documentation Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
MadridGarciaAlfredo_TFM.pdf MadridGarciaAlfredo_TFM.pdf application/pdf 10.99MB

Título Recognition of professions in medical documentation
Autor(es) Madrid García, Alfredo
Resumen El reconocimiento de entidades nombradas en historia clínica electrónica es un área del procesamiento del lenguaje natural que busca identificar y extraer información de datos médicos no estructurados para su posterior manejo. Actualmente, se estima que la mayor parte de la información relativa al paciente se encuentra almacenada de forma no estructurada. Bajo esta premisa, han surgido en los últimos años múltiples tareas colaborativas y modelos que facilitan la identificación de entidades de diversa índole como procedimientos médicos, enfermedades o información personal. Debido al desempeño de éstos, se ha planteado su uso en el contexto del brote pandémico producido por SARS-CoV-2, para la identificación de profesiones que puedan estar expuestas a un mayor riesgo de infección como el personal sanitario. Por lo tanto, en el presente trabajo, se propone un sistema capaz de identificar conceptos relacionados con las profesiones, a destacar, la ocupación, la situación laboral y las actividades de los distintos actores que intervienen en el proceso asistencial como los pacientes, familiares, personal sanitario, y otros. El sistema planteado hace uso de un corpus público, MEDDOPROF, y un corpus especialmente anotado para este trabajo, MOD, así como de modelos pre-entrenados de aprendizaje profundo basados en transformadores. Concretamente, se usan modelos pre-entrenados con textos en español de ámbitos diversos; BETO, ALBETO y DistilBETO; y un modelo pre-entrenado con textos en español pertenecientes al dominio clínico basado en RoBERTa. Tras la experimentación, se obtiene un valor de F1 de 0.664 en el reconocimiento de entidades relacionades con la ocupación, haciendo uso del modelo pre-entrenado con textos clínicos, y un valor de F1 de 0.742 en la identificación de los actores involucrados. Por último, el modelo con mejor rendimiento, el pre-entrenado con textos clínicos, se aplica para la detección de ocupaciones en historias clínicas electrónicas pertenecientes al Servicio de Reumatología del Hospital Clínico San Carlos (HCSC). Con este trabajo se concluye: a) la idoneidad de los transformadores en el reconocimiento de entidades; b) la necesidad de conjuntos de datos correctamente anotados; c) la utilidad en la práctica clínica que tienen estos modelos para el reconocimiento de entidades relacionadas con ocupaciones.
Abstract Named Entity Recognition (NER) in Electronic Health Record (EHR) is the area of Natural Language Processing (NLP) that seeks to identify and extract unstructured information in medical data for further management. Currently, it is estimated that most of the patient information is stored in an unstructured form. Under this premise, in recent years, multiple collaborative tasks and models have emerged to facilitate the identification of various types of entities such as medical procedures, diseases, or personal information. Due to their performance, the use of these models has been considered in the context of the SARS-CoV-2 pandemic outbreak, to identify professions that may be exposed to a higher risk of infection, such as healthcare workers. Therefore, in the present work, a system capable of identifying concepts related to professions is proposed, to highlight the occupation, the work situation, and the activities of the different actors involved in the care process, such as patients, relatives, health staff, and others. Such a system uses a public corpus, MEDDOPROF, and a corpus specially annotated for this work, MOD, as well as pre-trained language models based on transformers. BETO, ALBETO and DistilBETO Spanish general-domain pre-trained models, as well as a Spanish clinical and biomedical specific-domain pre-trained model based on RoBERTa, are used. After experimentation, an F1 value of 0.664 is obtained in the recognition of occupation-related concepts, using the Spanish clinical and biomedical specific-domain pre-trained model, and an F1 value of 0.742 in the identification of the actors involved in the care process. Finally, the bestperforming model (i.e., the one pre-trained with clinical documents) is applied to electronic medical records belonging to the Hospital Clínico San Carlos (HCSC) Rheumatology Unit. This work concludes: a) the suitability of transformers in named entity recognition problems; b) the need for correctly annotated datasets; c) the clinical usefulness of these models to recognise entities related to occupations.
Notas adicionales Trabajo de Fin de Máster Universitario en Ingeniería y Ciencia de Datos. UNED
Materia(s) Ingeniería Informática
Palabra clave detección de profesiones
procesamiento del lenguaje natural
historia clínica electrónica
inteligencia artificial
reconocimiento de entidades nombradas
aprendizaje automático
determinantes sociales de la salud
transformador
occupation detection
natural language processing
electronic health record
artificial intelligence
named entity recognition
machine learning
social determinants of health
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor Araujo Serna, Lourdes
Martínez Unanue, Raquel
Fecha 2023-06-01
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-ICD-Amadrid
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-ICD-Amadrid
Idioma eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 218 Visitas, 281 Descargas  -  Estadísticas en detalle
Creado: Mon, 10 Jul 2023, 18:19:56 CET