Publicación:
Recognition of professions in medical documentation

dc.contributor.authorMadrid García, Alfredo
dc.date.accessioned2024-05-20T12:37:18Z
dc.date.available2024-05-20T12:37:18Z
dc.date.issued2023-06-01
dc.description.abstractEl reconocimiento de entidades nombradas en historia clínica electrónica es un área del procesamiento del lenguaje natural que busca identificar y extraer información de datos médicos no estructurados para su posterior manejo. Actualmente, se estima que la mayor parte de la información relativa al paciente se encuentra almacenada de forma no estructurada. Bajo esta premisa, han surgido en los últimos años múltiples tareas colaborativas y modelos que facilitan la identificación de entidades de diversa índole como procedimientos médicos, enfermedades o información personal. Debido al desempeño de éstos, se ha planteado su uso en el contexto del brote pandémico producido por SARS-CoV-2, para la identificación de profesiones que puedan estar expuestas a un mayor riesgo de infección como el personal sanitario. Por lo tanto, en el presente trabajo, se propone un sistema capaz de identificar conceptos relacionados con las profesiones, a destacar, la ocupación, la situación laboral y las actividades de los distintos actores que intervienen en el proceso asistencial como los pacientes, familiares, personal sanitario, y otros. El sistema planteado hace uso de un corpus público, MEDDOPROF, y un corpus especialmente anotado para este trabajo, MOD, así como de modelos pre-entrenados de aprendizaje profundo basados en transformadores. Concretamente, se usan modelos pre-entrenados con textos en español de ámbitos diversos; BETO, ALBETO y DistilBETO; y un modelo pre-entrenado con textos en español pertenecientes al dominio clínico basado en RoBERTa. Tras la experimentación, se obtiene un valor de F1 de 0.664 en el reconocimiento de entidades relacionades con la ocupación, haciendo uso del modelo pre-entrenado con textos clínicos, y un valor de F1 de 0.742 en la identificación de los actores involucrados. Por último, el modelo con mejor rendimiento, el pre-entrenado con textos clínicos, se aplica para la detección de ocupaciones en historias clínicas electrónicas pertenecientes al Servicio de Reumatología del Hospital Clínico San Carlos (HCSC). Con este trabajo se concluye: a) la idoneidad de los transformadores en el reconocimiento de entidades; b) la necesidad de conjuntos de datos correctamente anotados; c) la utilidad en la práctica clínica que tienen estos modelos para el reconocimiento de entidades relacionadas con ocupaciones.es
dc.description.abstractNamed Entity Recognition (NER) in Electronic Health Record (EHR) is the area of Natural Language Processing (NLP) that seeks to identify and extract unstructured information in medical data for further management. Currently, it is estimated that most of the patient information is stored in an unstructured form. Under this premise, in recent years, multiple collaborative tasks and models have emerged to facilitate the identification of various types of entities such as medical procedures, diseases, or personal information. Due to their performance, the use of these models has been considered in the context of the SARS-CoV-2 pandemic outbreak, to identify professions that may be exposed to a higher risk of infection, such as healthcare workers. Therefore, in the present work, a system capable of identifying concepts related to professions is proposed, to highlight the occupation, the work situation, and the activities of the different actors involved in the care process, such as patients, relatives, health staff, and others. Such a system uses a public corpus, MEDDOPROF, and a corpus specially annotated for this work, MOD, as well as pre-trained language models based on transformers. BETO, ALBETO and DistilBETO Spanish general-domain pre-trained models, as well as a Spanish clinical and biomedical specific-domain pre-trained model based on RoBERTa, are used. After experimentation, an F1 value of 0.664 is obtained in the recognition of occupation-related concepts, using the Spanish clinical and biomedical specific-domain pre-trained model, and an F1 value of 0.742 in the identification of the actors involved in the care process. Finally, the bestperforming model (i.e., the one pre-trained with clinical documents) is applied to electronic medical records belonging to the Hospital Clínico San Carlos (HCSC) Rheumatology Unit. This work concludes: a) the suitability of transformers in named entity recognition problems; b) the need for correctly annotated datasets; c) the clinical usefulness of these models to recognise entities related to occupations.en
dc.description.versionversión final
dc.identifier.urihttps://hdl.handle.net/20.500.14468/14625
dc.language.isoen
dc.publisherUniversidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
dc.relation.centerFacultades y escuelas::E.T.S. de Ingeniería Informática
dc.relation.departmentInteligencia Artificial
dc.rightsAtribución-NoComercial-SinDerivadas 4.0 Internacional
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subject.keywordsdetección de profesiones
dc.subject.keywordsprocesamiento del lenguaje natural
dc.subject.keywordshistoria clínica electrónica
dc.subject.keywordsinteligencia artificial
dc.subject.keywordsreconocimiento de entidades nombradas
dc.subject.keywordsaprendizaje automático
dc.subject.keywordsdeterminantes sociales de la salud
dc.subject.keywordstransformador
dc.subject.keywordsoccupation detection
dc.subject.keywordsnatural language processing
dc.subject.keywordselectronic health record
dc.subject.keywordsartificial intelligence
dc.subject.keywordsnamed entity recognition
dc.subject.keywordsmachine learning
dc.subject.keywordssocial determinants of health
dc.titleRecognition of professions in medical documentationes
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
MadridGarciaAlfredo_TFM.pdf
Tamaño:
11 MB
Formato:
Adobe Portable Document Format