Publicación:
From Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatology

dc.contributor.advisorPeñas Padilla, Anselmo
dc.contributor.advisorRodríguez González, Alejandro
dc.contributor.authorMadrid García, Alfredo
dc.date.accessioned2024-09-05T11:26:32Z
dc.date.available2024-09-05T11:26:32Z
dc.date.issued2024
dc.description.abstractEste trabajo de fin de máster presenta RheumaLinguisticpack (RheumaLpack ), el primer corpus web lingüístico especializado y diseñado específicamente para el campo de la patología reumática y musculoesquelética. Al combinar técnicas de minería web (e.g., web scraping), de procesamiento de lenguaje natural (PLN), así como experiencia clínica; RheumaLpack recoge datos estructurados y no estructurados de distintas fuentes web, como plataformas de medios sociales (Reddit), bases de datos bibliográficas (PubMed), registros de ensayos clínicos (ClinicalTrials.gov), y prospectos de medicamentos de agencias médicas (CIMA, EMA), y de plataformas médicas acreditadas (MedlinePlus). Por lo tanto, RheumaLpack ofrece un conjunto de datos útil para i) el entrenamiento de algoritmos de inteligencia artificial (IA) y el desarrollo de soluciones de PLN; y para ii) el descubrimiento de conocimiento y la investigación en el contexto de las enfermedades reumáticas y musculoesqueléticas (ERMs). La motivación de este trabajo se basa en el reconocimiento de la gran cantidad de datos disponibles en la web, que, si se aprovechan adecuadamente, pueden proporcionar información muy valiosa en dominios específicos como las ERMs. Estas enfermedades, que constituyen la principal causa de discapacidad en todo el mundo, se caracterizan por su complejidad y por las diversas repercusiones que tienen en la vida de los pacientes. Por ello, disponer de herramientas de IA y promover la investigación con estas técnicas puede ayudar a minimizar el impacto de las enfermedades musculoesqueléticas en la calidad de vida de los pacientes. Para construir RheumaLpack, se aplica una metodología de seis pasos: identificación de la fuente de datos; caracterización de la fuente de datos; selección de datos; recopilación de datos, selección de características, preprocesamiento y convención de nomenclatura; procesamiento de datos; y construcción y descripción del corpus. Después de aplicar esta metodología, se crea un corpus no anotado, multilingüe (español/inglés) y dinámico (ya que está previsto añadir más datos) compuesto por casi 3 millones de registros, y con información comprendida entre los años 2000 y 2023. Para demostrar la utilidad de este nuevo recurso lingüístico, se muestra un caso de uso en el que se pretende ilustrar cómo utilizando RheumaLpack y aplicando novedosas técnicas de modelado de temas, BERTopic, basadas en transformadores, se puede caracterizar la evolución de los temas de investigación a lo largo de los años en las ERMs. En resumen, RheumaLpack constituye un esfuerzo pionero que busca conectar la amplia información disponible en Internet con las necesidades específicas de investigación en reumatología. Mediante la creación de este recurso lingüístico, se allana el camino para el desarrollo de herramientas y aplicaciones innovadoras de IA que puedan mejorar la atención al paciente y los resultados en esta área de la medicina. El código y los detalles sobre cómo construir RheumaLpack también se proporcionan, con el objetivo de facilitar la difusión de este recurso.es
dc.description.abstractThis Master’s thesis introduces RheumaLinguisticpack (RheumaLpack ), the first specialised linguistic web corpus designed for the field of musculoskeletal disorders. By combining web mining (i.e., web scraping), Natural Language Processing (NLP) techniques, as well as clinical expertise, RheumaLpack systematically captures and curates structured and unstructured data across different web sources including social media platforms (i.e., Reddit), bibliographic databases (i.e., PubMed), clinical trials registers (i.e., ClinicalTrials.gov) and drug leaflets from medical agencies and accredited medical platforms (i.e., Centro de Información de Medicamentos (CIMA), European Medicines Agency (EMA) and MedlinePlus). Therefore, this corpus offers a rich dataset for i) training Artificial Intelligence (AI) algorithms and developing NLP solutions; and for ii) knowledge discovery and research in the context of Rheumatic and Musculoskeletal diseases (RMDs). The motivation of this work is grounded in the recognition of the vast amount of data available on the web, which, if properly harnessed, can provide invaluable insights into specific domains such as RMDs. These diseases, which are the leading causes of disability worldwide, are characterised by their complexity and the diverse impact they have on patients’ lives. Therefore, having AI tools and promoting research with these techniques can help minimise the impact of musculoskeletal diseases on the quality of life of patients. To build RheumaLpack corpus, a six-step methodology is implemented: data source identification; data source characterisation; data selection; data collection, feature selection, pre-processing and naming convention; data processing; and corpus construction and description. After following this methodology, a non-annotated, multilingual (i.e., Spanish/English), and dynamic (as more data are planned to be added) corpus comprising almost 3 million records with information ranging from 2000 to 2023 was created. To demonstrate the usefulness of this new linguistic resource, a use case is shown. This use case is intended to illustrate how by using RheumaLpack and applying novel Topic Modeling (TM) techniques (i.e., BERTopic) based on transformers, the evolution of the research topics over the years in RMDs can be fully characterised. Put in short, RheumaLpack stands as a pioneering effort to bridge the gap between the wealth of web-based information and the specific research needs within rheumatology. By creating a targeted linguistic resource, this work not only contributes to the scientific community’s understanding of RMDs but also paves the way for the development of innovative AI-driven tools and applications that can improve patient care and outcomes in this critical area of medicine. The code and details on how to build RheumaLpack are also provided to facilitate the dissemination of this resource.en
dc.identifier.citationMadrid García, Alfredo (2024) From Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatology. Trabajo fin de máster. Universidad de Educación a Distancia (UNED)
dc.identifier.urihttps://hdl.handle.net/20.500.14468/23616
dc.language.isoes
dc.publisherUniversidad de Educación a Distancia (UNED)
dc.relation.centerFacultades y escuelas::E.T.S. de Ingeniería Informática
dc.relation.degreeMáster universitario en Tecnologías del Lenguaje
dc.relation.departmentLenguajes y Sistemas Informáticos
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject12 Matemáticas::1203 Ciencia de los ordenadores ::1203.17 Informática
dc.subject.keywordsBERTopices
dc.subject.keywordsEnsayo clínicoes
dc.subject.keywordsprospecto de medicamentoes
dc.subject.keywordsLatent Dirichlet allocationes
dc.subject.keywordsProcesamiento del lenguaje naturales
dc.subject.keywordsdatos generados por el pacientees
dc.subject.keywordsReddites
dc.subject.keywordsClinical triales
dc.subject.keywordsDrug leafleten
dc.subject.keywordsLatent dirichlet allocationen
dc.subject.keywordsNatural language processingen
dc.subject.keywordsPatient-generated dataen
dc.subject.keywordsRESTful APIen
dc.subject.keywordsSocial media analysisen
dc.subject.keywordsTopic modellingen
dc.subject.keywordsWeb corpusen
dc.subject.keywordsWeb scrapingen
dc.titleFrom Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatologyes
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Madrid_Alfredo_TFM.pdf
Tamaño:
17.15 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.62 KB
Formato:
Item-specific license agreed to upon submission
Descripción: