Detección temprana de riesgos de salud a partir de minería de textos en Redes Sociales

Moñux Salvador, Samuel. (2022). Detección temprana de riesgos de salud a partir de minería de textos en Redes Sociales Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
MonuxSalvador_Samuel_TFM.pdf MonuxSalvador_Samuel_TFM.pdf application/pdf 9.86MB

Título Detección temprana de riesgos de salud a partir de minería de textos en Redes Sociales
Autor(es) Moñux Salvador, Samuel
Resumen La anorexia y los desordenes de la alimentación relacionados son un problema de salud pública con unos altos costes en términos de sufrimiento y de gasto sanitario. Esta condición es especialmente prevalente entre las mujeres jóvenes y adolescentes de países desarrollados. Este sector demográfico tiene una fuerte presencia en redes sociales, lo que unido al hecho de ser diagnosticable por rasgos conductuales, hace que la tarea de su detección sea una buena candidata para la aplicación de herramientas de rastreo en redes sociales que estén basadas en técnicas de Aprendizaje Automático. Esta es la base bajo la que se desarrollaron las ediciones de 2018 y 2019 del laboratorio CLEF eRisk, en el que una serie de equipos de distintas organizaciones de diferentes nacionalidades compitieron en el desarrollo del algoritmo más preciso y rápido (en términos de su capacidad de detección) sobre un conjunto de datos proporcionado por los organizadores. Los objetivos de este proyecto están relacionados con estas competiciones y con la tarea sobre la que se desarrollaron y comprenden: La selección de los enfoques más prometedores y la elaboración de un estudio del “estado del arte” en aquel momento. El diseño e implementación de un sistema similar a los reseñados, inspirado en las técnicas y metodologías empleadas por los mejores equipos pero que incorpore también características novedosas. La evaluación de la solución desarrollada, en comparación con los algoritmos mejor puntuados pero también en términos de su “interpretabilidad”. Este objetivo, sin ser uno de los enunciados explícitamente en la tarea del laboratorio, resulta crucial para cualquier herramienta que aspire a asistir en la toma de decisiones a los profesionales sanitarios de cualquier campo. Estos profesionales necesitan entender la lógica sobre la que se sustenta la predicción para confiar en ella, por lo que debe ser tenida en cuenta desde el principio. El sistema desarrollado demuestra ser competitivo con las mejores soluciones, situándose “virtualmente” entre la décima posición (de 51) en la métrica considerada más útil para evaluar el rendimiento del sistema (F1 ponderada por la rapidez de detección). Además, permite justificar las decisiones identificando los comentarios de los usuarios que más peso han tenido en la predicción, así cómo “describir” la temática de esos comentarios mediante palabras clave (que pueden estar o no en el texto pero que semánticamente están relacionadas con el contenido del mismo).
Abstract Anorexia and its related eating disorders is a public health problem which has high costs in terms of human suffering and healthcare spending. It is also specially prevalent among young females of developed nations. The high level of engagement of this demographic in social media and the fact that it can be diagnosed by behavioral traits makes it a good candidate for its early detection by Machine Learning-powered scanning tools. This is the basis assumption under which the CLEF eRisk lab was set up in its 2018 and 2019 editions. For the time it lasted an array of teams from different organizations and countries competed to develop the most accurate and quickest (in terms speed of detection) algorithm, which was evaluated against a curated dataset. This project goals are related to the lab and the underlying task. These are: Select the most promising approaches and conduct a study about the "state of the art" at that moment. Design and develop a Machine Learning-based system over the same dataset, inspired in the techniques and methodologies of the best performers but which also incorporates some novel ideas. Asses the results of the proposed system, in comparison with the highest scored algorithms but also in terms of its interpretability. This self-imposed goal, which wasn’t explicitly stated in the lab, is crucial for any tool which aims to assist healthcare professionals of any field. Those professionals will need to understand the rationale of the prediction in order to trust it, so it needs to be engineered upfront. The performance achieved by the proposal is shown to be competitive with the best solutions, reaching a “virtual” tenth place in the competition (of 51) if ranked by the most useful metric to asses the performance of the system (F1 weighted by speed). Furthermore, it is able to identify the most important comments and describe their topic by using keywords (which may be absent from the text but are semantically related to it).
Notas adicionales Trabajo de Fin de Máster Universitario en Ingeniería y Ciencia de Datos. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor Araujo Serna, Lourdes
Martínez Unanue, Raquel
Fecha 2022-06-27
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-ICD-Smonux
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-ICD-Smonux
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 300 Visitas, 140 Descargas  -  Estadísticas en detalle
Creado: Wed, 13 Jul 2022, 18:59:21 CET