Examinando por Autor "Montalvo Herranz, Soto"
Mostrando 1 - 5 de 5
Resultados por página
Opciones de ordenación
Publicación Desambiguación de acrónimos en literatura médica española(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2021-09-01) García García, María Elena; Martínez Unanue, Raquel; Montalvo Herranz, SotoLa literatura biomédica esta repleta de abreviaciones y acrónimos, los cuales en muchas ocasiones son ambiguos. En las tareas de Procesamiento del Lenguaje Natural en los que este tipo de textos están involucrados, supone un gran problema por parte del sistema, para poder identificar y comprender tanto el documento como este tipo de palabras. En la última década se han desarrollado muchas investigaciones para poder desambiguar los acrónimos en literatura médica según el contexto del documento. Sin embargo, el reto siempre ha estado en el coste computacional que supone entrenar un modelo con textos de un ámbito concreto. Recientemente ha habido avances en este tema gracias a modelos lingüísticos basados en mecanismos de atención llamados Transformers, especialmente aquellos preentrenados ya con grandes corpus, como BERT (Bidirectional Encoder Representations from Transformers). Estos novedosos modelos han sido usados en los últimos tres años para la desambiguación de acrónimos en literatura médica, especialmente inglesa. En este trabajo se propone adaptarlos para poder realizarlo en literatura médica española.Publicación Early diagnosis of HIV cases by means of text mining and machine learning models on clinical notes(ELSEVIER, 2024) Morales Sánchez, Rodrigo; Montalvo Herranz, Soto; Riaño Martínez, Adrián; Martínez Unanue, Raquel; Velasco Arribas, Maria; https://orcid.org/0000-0001-8158-7939; https://orcid.org/0009-0004-8755-255X; https://orcid.org/0000-0001-6554-2095Undiagnosed and untreated human immunodeficiency virus (HIV) infection increases morbidity in the HIV-positive person and allows onward transmission of the virus. Minimizing missed opportunities for HIV diagnosis when a patient visits a healthcare facility is essential in restraining the epidemic and working toward its eventual elimination. Most state-of-the-art proposals employ machine learning (ML) methods and structured data to enhance HIV diagnoses, however, there is a dearth of recent proposals utilizing unstructured textual data from Electronic Health Records (EHRs). In this work, we propose to use only the unstructured text of the clinical notes as evidence for the classification of patients as suspected or not suspected. For this purpose, we first compile a dataset of real clinical notes from a hospital with patients classified as suspects and non-suspects of having HIV. Then, we evaluate the effectiveness of two types of classification models to identify patients suspected of being infected with the virus: classical ML algorithms and two Large Language Models (LLMs) from the biomedical domain in Spanish. The results show that both LLMs outperform classical ML algorithms in the two settings we explore: one dataset version is balanced, containing an equal number of suspicious and non-suspicious patients, while the other reflects the real distribution of patients in the hospital, being unbalanced. We obtain F score figures of 94.7 with both LLMs in the unbalanced setting, while in the balance one, RoBERTa model outperforms the other one with a F score of 95.7. The findings indicate that leveraging unstructured text with LLMs in the biomedical domain yields promising outcomes in diminishing missed opportunities for HIV diagnosis. A tool based on our system could assist a doctor in deciding whether a patient in consultation should undergo a serological test.Publicación Improving Medical Entity Recognition in Spanish by Means of Biomedical Language Models(MDPI, 2023) Villaplana Moreno, Aitana; Martínez Unanue, Raquel; Montalvo Herranz, Soto; https://orcid.org/0000-0001-8158-7939Named Entity Recognition (NER) is an important task used to extract relevant information from biomedical texts. Recently, pre-trained language models have made great progress in this task, particularly in English language. However, the performance of pre-trained models in the Spanish biomedical domain has not been evaluated in an experimentation framework designed specifically for the task. We present an approach for named entity recognition in Spanish medical texts that makes use of pre-trained models from the Spanish biomedical domain. We also use data augmentation techniques to improve the identification of less frequent entities in the dataset. The domain-specific models have improved the recognition of name entities in the domain, beating all the systems that were evaluated in the eHealth-KD challenge 2021. Language models from the biomedical domain seem to be more effective in characterizing the specific terminology involved in this task of named entity recognition, where most entities correspond to the "concept" type involving a great number of medical concepts. Regarding data augmentation, only back translation has slightly improved the results. Clearly, the most frequent types of entities in the dataset are better identified. Although the domain-specific language models have outperformed most of the other models, the multilingual generalist model mBERT obtained competitive results.Publicación Reconocimiento de entidades y extracción de relaciones en texto biomédico(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2023) Villaplana Moreno, Aitana; Martínez Unanue, Raquel; Montalvo Herranz, SotoEl análisis de documentos médicos supone un gran reto a día de hoy. Existe mucha información desestructurada, que difícilmente puede ser analizada. Es por esto, que una de las tareas de Procesamiento del Lenguaje Natural es poder ser capaces de extraer las Entidades Nombradas en los textos, así como también ciertas relaciones que existen entre éstas, lo que facilita en gran medida el posterior análisis de los datos biomédicos. Para realizar estas tareas existen modelos avanzados, basados en modelos de lenguaje entrenados con grandes cantidades de datos. Lo que se propone en este trabajo, es utilizar modelos transformers junto con modelos de aprendizaje automático como SVM o Redes Neuronales para realizar la tarea de extracción de entidades, ya sea utilizando modelos previamente entrenados en grandes cantidades de texto biomédico en español, o bien realizando el entrenamiento del modelo a partir de estos modelos previamente entrenados. Esta última aproximación ha conseguido superar los resultados de otros sistemas del estado del arte para la tarea del reconocimiento de entidades. Respecto a la tarea de extracci ón de relaciones, se han utilizado también estos modelos transformers entrenados con texto biomédico en español junto con modelos de Redes Neuronales, además de utilizar técnicas de aumento de datos como SMOTE-NC y reducción de dimensionalidad como LDA, lo que ha dado como resultado sistemas comparables a los del estado del arte.Publicación Reducción del diagnóstico tardío de la infección por VIH aplicando técnicas de Procesamiento del Lenguaje Natural(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2023-09-01) Morales Sánchez, Rodrigo; Martínez Unanue, Raquel; Montalvo Herranz, SotoLa mejora en el diagnóstico de la infección por VIH es un tema vital para avanzar en el control de la epidemia. En España se estima que un 10% de pacientes infectados desconocen su estatus serológico. Además, alrededor del 50% de los nuevos diagnósticos cada año son detectados de manera tardía. Se han realizado varios estudios sobre estrategias de cribado y se reconoce como la mejor alternativa en relación coste-eficiencia, aquella basada en indicadores. Sin embargo, mientras el cribado en algunos ámbitos como las urgencias está bastante implantado, en otros como la hospitalización no ha recibido suficiente atención. Además, existen barreras por parte de los profesionales para la realización de serología de VIH como el tiempo o la falta de percepción de riesgo. En este trabajo se presentan dos propuestas para la ayuda en el diagnóstico basado en el uso de la información de la historia clínica electrónica de los pacientes, utilizando técnicas de aprendizaje automático y procesamiento del lenguaje natural. La primera consiste en una propuesta no supervisada basada en conocimiento experto a partir de una serie de indicadores. Y la segunda, una propuesta supervisada de clasificación binaria. No es mucha la literatura existente sobre la predicción de VIH utilizando técnicas de Procesamiento del Lenguaje Natural, por ello, este trabajo se postula como un enfoque novedoso en el que ambas propuestas consiguen unos resultados prometedores. La propuesta supervisada destaca por sus mejores resultados, mientras que la propuesta no supervisada tiene un interesante potencial por su mejor explicabilidad.