Madrid García, Alfredo2024-05-202024-05-202023-06-01https://hdl.handle.net/20.500.14468/14625El reconocimiento de entidades nombradas en historia clínica electrónica es un área del procesamiento del lenguaje natural que busca identificar y extraer información de datos médicos no estructurados para su posterior manejo. Actualmente, se estima que la mayor parte de la información relativa al paciente se encuentra almacenada de forma no estructurada. Bajo esta premisa, han surgido en los últimos años múltiples tareas colaborativas y modelos que facilitan la identificación de entidades de diversa índole como procedimientos médicos, enfermedades o información personal. Debido al desempeño de éstos, se ha planteado su uso en el contexto del brote pandémico producido por SARS-CoV-2, para la identificación de profesiones que puedan estar expuestas a un mayor riesgo de infección como el personal sanitario. Por lo tanto, en el presente trabajo, se propone un sistema capaz de identificar conceptos relacionados con las profesiones, a destacar, la ocupación, la situación laboral y las actividades de los distintos actores que intervienen en el proceso asistencial como los pacientes, familiares, personal sanitario, y otros. El sistema planteado hace uso de un corpus público, MEDDOPROF, y un corpus especialmente anotado para este trabajo, MOD, así como de modelos pre-entrenados de aprendizaje profundo basados en transformadores. Concretamente, se usan modelos pre-entrenados con textos en español de ámbitos diversos; BETO, ALBETO y DistilBETO; y un modelo pre-entrenado con textos en español pertenecientes al dominio clínico basado en RoBERTa. Tras la experimentación, se obtiene un valor de F1 de 0.664 en el reconocimiento de entidades relacionades con la ocupación, haciendo uso del modelo pre-entrenado con textos clínicos, y un valor de F1 de 0.742 en la identificación de los actores involucrados. Por último, el modelo con mejor rendimiento, el pre-entrenado con textos clínicos, se aplica para la detección de ocupaciones en historias clínicas electrónicas pertenecientes al Servicio de Reumatología del Hospital Clínico San Carlos (HCSC). Con este trabajo se concluye: a) la idoneidad de los transformadores en el reconocimiento de entidades; b) la necesidad de conjuntos de datos correctamente anotados; c) la utilidad en la práctica clínica que tienen estos modelos para el reconocimiento de entidades relacionadas con ocupaciones.Named Entity Recognition (NER) in Electronic Health Record (EHR) is the area of Natural Language Processing (NLP) that seeks to identify and extract unstructured information in medical data for further management. Currently, it is estimated that most of the patient information is stored in an unstructured form. Under this premise, in recent years, multiple collaborative tasks and models have emerged to facilitate the identification of various types of entities such as medical procedures, diseases, or personal information. Due to their performance, the use of these models has been considered in the context of the SARS-CoV-2 pandemic outbreak, to identify professions that may be exposed to a higher risk of infection, such as healthcare workers. Therefore, in the present work, a system capable of identifying concepts related to professions is proposed, to highlight the occupation, the work situation, and the activities of the different actors involved in the care process, such as patients, relatives, health staff, and others. Such a system uses a public corpus, MEDDOPROF, and a corpus specially annotated for this work, MOD, as well as pre-trained language models based on transformers. BETO, ALBETO and DistilBETO Spanish general-domain pre-trained models, as well as a Spanish clinical and biomedical specific-domain pre-trained model based on RoBERTa, are used. After experimentation, an F1 value of 0.664 is obtained in the recognition of occupation-related concepts, using the Spanish clinical and biomedical specific-domain pre-trained model, and an F1 value of 0.742 in the identification of the actors involved in the care process. Finally, the bestperforming model (i.e., the one pre-trained with clinical documents) is applied to electronic medical records belonging to the Hospital Clínico San Carlos (HCSC) Rheumatology Unit. This work concludes: a) the suitability of transformers in named entity recognition problems; b) the need for correctly annotated datasets; c) the clinical usefulness of these models to recognise entities related to occupations.eninfo:eu-repo/semantics/openAccessRecognition of professions in medical documentationtesis de maestríadetección de profesionesprocesamiento del lenguaje naturalhistoria clínica electrónicainteligencia artificialreconocimiento de entidades nombradasaprendizaje automáticodeterminantes sociales de la saludtransformadoroccupation detectionnatural language processingelectronic health recordartificial intelligencenamed entity recognitionmachine learningsocial determinants of health