From Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatology

Madrid García, Alfredo

Publicación:
From Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatology

dc.contributor.advisor	Peñas Padilla, Anselmo
dc.contributor.advisor	Rodríguez González, Alejandro
dc.contributor.author	Madrid García, Alfredo
dc.date.accessioned	2024-09-05T11:26:32Z
dc.date.available	2024-09-05T11:26:32Z
dc.date.issued	2024
dc.description.abstract	Este trabajo de fin de máster presenta RheumaLinguisticpack (RheumaLpack ), el primer corpus web lingüístico especializado y diseñado específicamente para el campo de la patología reumática y musculoesquelética. Al combinar técnicas de minería web (e.g., web scraping), de procesamiento de lenguaje natural (PLN), así como experiencia clínica; RheumaLpack recoge datos estructurados y no estructurados de distintas fuentes web, como plataformas de medios sociales (Reddit), bases de datos bibliográficas (PubMed), registros de ensayos clínicos (ClinicalTrials.gov), y prospectos de medicamentos de agencias médicas (CIMA, EMA), y de plataformas médicas acreditadas (MedlinePlus). Por lo tanto, RheumaLpack ofrece un conjunto de datos útil para i) el entrenamiento de algoritmos de inteligencia artificial (IA) y el desarrollo de soluciones de PLN; y para ii) el descubrimiento de conocimiento y la investigación en el contexto de las enfermedades reumáticas y musculoesqueléticas (ERMs). La motivación de este trabajo se basa en el reconocimiento de la gran cantidad de datos disponibles en la web, que, si se aprovechan adecuadamente, pueden proporcionar información muy valiosa en dominios específicos como las ERMs. Estas enfermedades, que constituyen la principal causa de discapacidad en todo el mundo, se caracterizan por su complejidad y por las diversas repercusiones que tienen en la vida de los pacientes. Por ello, disponer de herramientas de IA y promover la investigación con estas técnicas puede ayudar a minimizar el impacto de las enfermedades musculoesqueléticas en la calidad de vida de los pacientes. Para construir RheumaLpack, se aplica una metodología de seis pasos: identificación de la fuente de datos; caracterización de la fuente de datos; selección de datos; recopilación de datos, selección de características, preprocesamiento y convención de nomenclatura; procesamiento de datos; y construcción y descripción del corpus. Después de aplicar esta metodología, se crea un corpus no anotado, multilingüe (español/inglés) y dinámico (ya que está previsto añadir más datos) compuesto por casi 3 millones de registros, y con información comprendida entre los años 2000 y 2023. Para demostrar la utilidad de este nuevo recurso lingüístico, se muestra un caso de uso en el que se pretende ilustrar cómo utilizando RheumaLpack y aplicando novedosas técnicas de modelado de temas, BERTopic, basadas en transformadores, se puede caracterizar la evolución de los temas de investigación a lo largo de los años en las ERMs. En resumen, RheumaLpack constituye un esfuerzo pionero que busca conectar la amplia información disponible en Internet con las necesidades específicas de investigación en reumatología. Mediante la creación de este recurso lingüístico, se allana el camino para el desarrollo de herramientas y aplicaciones innovadoras de IA que puedan mejorar la atención al paciente y los resultados en esta área de la medicina. El código y los detalles sobre cómo construir RheumaLpack también se proporcionan, con el objetivo de facilitar la difusión de este recurso.	es
dc.description.abstract	This Master’s thesis introduces RheumaLinguisticpack (RheumaLpack ), the first specialised linguistic web corpus designed for the field of musculoskeletal disorders. By combining web mining (i.e., web scraping), Natural Language Processing (NLP) techniques, as well as clinical expertise, RheumaLpack systematically captures and curates structured and unstructured data across different web sources including social media platforms (i.e., Reddit), bibliographic databases (i.e., PubMed), clinical trials registers (i.e., ClinicalTrials.gov) and drug leaflets from medical agencies and accredited medical platforms (i.e., Centro de Información de Medicamentos (CIMA), European Medicines Agency (EMA) and MedlinePlus). Therefore, this corpus offers a rich dataset for i) training Artificial Intelligence (AI) algorithms and developing NLP solutions; and for ii) knowledge discovery and research in the context of Rheumatic and Musculoskeletal diseases (RMDs). The motivation of this work is grounded in the recognition of the vast amount of data available on the web, which, if properly harnessed, can provide invaluable insights into specific domains such as RMDs. These diseases, which are the leading causes of disability worldwide, are characterised by their complexity and the diverse impact they have on patients’ lives. Therefore, having AI tools and promoting research with these techniques can help minimise the impact of musculoskeletal diseases on the quality of life of patients. To build RheumaLpack corpus, a six-step methodology is implemented: data source identification; data source characterisation; data selection; data collection, feature selection, pre-processing and naming convention; data processing; and corpus construction and description. After following this methodology, a non-annotated, multilingual (i.e., Spanish/English), and dynamic (as more data are planned to be added) corpus comprising almost 3 million records with information ranging from 2000 to 2023 was created. To demonstrate the usefulness of this new linguistic resource, a use case is shown. This use case is intended to illustrate how by using RheumaLpack and applying novel Topic Modeling (TM) techniques (i.e., BERTopic) based on transformers, the evolution of the research topics over the years in RMDs can be fully characterised. Put in short, RheumaLpack stands as a pioneering effort to bridge the gap between the wealth of web-based information and the specific research needs within rheumatology. By creating a targeted linguistic resource, this work not only contributes to the scientific community’s understanding of RMDs but also paves the way for the development of innovative AI-driven tools and applications that can improve patient care and outcomes in this critical area of medicine. The code and details on how to build RheumaLpack are also provided to facilitate the dissemination of this resource.	en
dc.identifier.citation	Madrid García, Alfredo (2024) From Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatology. Trabajo fin de máster. Universidad Nacional de Educación a Distancia (UNED)
dc.identifier.uri	https://hdl.handle.net/20.500.14468/23616
dc.language.iso	es
dc.publisher	Universidad Nacional de Educación a Distancia (UNED). Lenguajes y Sistemas Informáticos
dc.relation.center	E.T.S. de Ingeniería Informática
dc.relation.degree	Máster universitario en Tecnologías del Lenguaje
dc.relation.department	Lenguajes y Sistemas Informáticos
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject	1203.17 Informática
dc.subject.keywords	BERTopic	es
dc.subject.keywords	Ensayo clínico	es
dc.subject.keywords	prospecto de medicamento	es
dc.subject.keywords	Latent Dirichlet allocation	es
dc.subject.keywords	Procesamiento del lenguaje natural	es
dc.subject.keywords	datos generados por el paciente	es
dc.subject.keywords	Reddit	es
dc.subject.keywords	Clinical trial	es
dc.subject.keywords	Drug leaflet	en
dc.subject.keywords	Latent dirichlet allocation	en
dc.subject.keywords	Natural language processing	en
dc.subject.keywords	Patient-generated data	en
dc.subject.keywords	RESTful API	en
dc.subject.keywords	Social media analysis	en
dc.subject.keywords	Topic modelling	en
dc.subject.keywords	Web corpus	en
dc.subject.keywords	Web scraping	en
dc.title	From Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatology	es
dc.type	master thesis	en
dspace.entity.type	Publication

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Madrid_Alfredo_TFM.pdf
Tamaño:: 17.15 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.62 KB
Formato:: Item-specific license agreed to upon submission
Descripción:

Descargar

Colecciones

Trabajos de fin de máster (TFM)

Publicación: From Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatology

Archivos

Bloque original

Bloque de licencias

Colecciones

Publicación:
From Web to RheumaLpack: Creating a Linguistic Corpus for Exploitation and Knowledge Discovery in Rheumatology