Publicación:
MEDAID: Propuesta de modelo de clasificación híbrido ligero para MLP

dc.contributor.authorGarcía Gutiérrez, José Alberto
dc.date.accessioned2024-05-20T12:35:13Z
dc.date.available2024-05-20T12:35:13Z
dc.date.issued2020-06
dc.description.abstractEn el ecosistema médico moderno, el procesamiento y la indexación de datos de diferentes fuentes no estructuradas puede ser una tarea esencial en algunas aplicaciones como el triage de enfermos, la unificación de historias o la discriminación de la documentación clínica de un paciente de acuerdo con sus necesidades de atención o curso clínico. Esto puede tener beneficios sociales y económicos de importancia, e influir de forma determinante en la calidad de la atención al paciente. Los métodos tradicionales de PLN se basan en el mapeo de características construidas a mano o en el uso de métodos word embedding sobre corpus genéricos que requieren mucho tiempo y generalmente conducen a características sobreespecificadas e incompletas. Ha habido intentos exitosos de utilizar el aprendizaje profundo en el procesamiento del lenguaje natural en la literatura recuente, sin embargo, la interpretación correcta de un documento clínico presenta varias dificultades: uso de terminología muy específica y de glosarios técnicos y procedimentales complejos, gran dependencia contextual (donde el significado de unas partes del documento depende totalmente de otras), la dispersión espacial y temporal de la información y otras cuestiones menos importantes como el uso de abreviaturas, unidades de medida especializadas, dosificaciones o la inclusión de fragmentos escritos en lenguaje coloquial. Los modelos semánticos basados en el cálculo de representaciones distribuidas continuas de palabras simplemente son demasiado generalistas para ser efectivos. Para abordar estos inconvenientes, en este trabajo se elaboraron dos arquitecturas de red profundas: inicialmente, se trabajó en un sistema abierto pensado para que permitiera a un médico de emergencias tratar a un nuevo paciente al recopilar la información no estructurada disponible y proporcionar recomendaciones basadas en la aplicación de un modelo predictivo. Este enfoque resultó ser demasiado ambicioso obteniendo tasas de acierto del 60%, resultados en el promedio de otros estudios, pero nos permitió desarrollar un prototipo que nos sirvió como primera aproximación y detectar los principales problemas. Motivados por los buenos resultados iniciales, decidimos implementar nuestra propia arquitectura que aplicamos sobre el dataset MSKCC especializado en documentación oncológica, utilizando un enfoque híbrido donde incorporamos un modelo de dos etapas con una etapa convolucional enfocada en la semántica básica a nivel local, usando un modelo semántico FastText entrenado sobre un corpus extraído de los diferentes repositorios clínicos; y una red recurrente de tipo Bi-LSTM, esta etapa implementará también un mecanismo de atención básico que nos permitirá focalizar la búsqueda seleccionando únicamente aquellas características de alto nivel más prometedoras. Este conocido conjunto de datos fue elegido por los numerosos estudios basados en él preexistentes, lo que nos proporcionó un punto de referencia y una base sólida para realizar comparaciones cruzadas. Los resultados experimentales muestran que el modelo híbrido propuesto (CNN + Bidirectional LSTM + Context Attention) obtiene una precisión de clasificación entre 5% y 10% mejor que los métodos recopilados hasta ahora en el estado de la técnica llegando para algunas de las clases a tasas de reconocimiento superiores al 80%. Como resultado adicional se incluirá el envío de un artículo científico recogiendo los resultados más relevantes del trabajo para su admisión en una revista o boletín científico, con la finalidad de difundir a la comunidad internacional los resultados de nuestra investigación. Los estudios son elegidos por grupos de revisión especializados en el tema, mismos que determinarán su rigor científico para su publicación. Por último, para poder testar los modelos ya entrenados, así como explorar los diferentes catálogos y conjuntos de datos, se ha desarrollado un wrapper para llamar a las librerías implementadas desde un entorno Python, así como un demostrador web, los cuales se harán públicos en breve.es
dc.description.abstractIn the modern medical ecosystem, the processing and indexing of data from different unstructured sources may be an essential task in some applications. For example, this can be applied to pre-classifying or discriminating the clinical documentation of a patient according to their care needs or clinical course. This can have important social and economic benefits and have a decisive influence on the quality of patient care. Traditional NLP methods are based on mapping handmade features or using word embedding methods over generic corpus requiring lots of time and lead to over-specified and incomplete features. There have been successful attempts to use deep learning in natural language processing in recent literature, however, the correct interpretation of a clinical document presents several difficulties: use of very specific terminology and complex technical and procedural glossaries, high contextual dependence (where the meaning of some parts of the document depends entirely on others), the spatial and temporal dispersion of the information and other less important issues such as the use of abbreviations, specialized units of measurement, or the inclusion of fragments written in colloquial language. The semantic models based on computing continuous distributed representations of words are too generalist to solve this problem. To handle these drawbacks, two deep network architectures were elaborated: In one first approximation we work in an recommender system to supporting emergency physician to determine medical priority for patients by collecting available unstructured information and providing recommendations based on the application of CNN and word embedding methods. This approach turned out to be too ambitious, obtaining success rates of 60%, results in the average of other studies, but it allowed us to develop a prototype that served as a first approximation and detect the main problems. Motivated by the good initial results, we decided to implement our own architecture that we applied to the MSKCC dataset specialized in oncological documentation, using a hybrid approach where we incorporate a 3-stage model with a convolutional stage that focuses on basic semantics at the sentence level using a FastText word embedding semantic model trained on a specific corpus extracted from the different clinical repositories; and a recurrent Bi-LSTM-type network. The experimental results show that the proposed hybrid model (CNN + Bidirectional LSTM + Context Attention) has a classification accuracy between 5% and 10% higher than the methods collected so far in the state of the art reaching for some of the classes at rates recognition over 80%. This well-known data set was chosen for the many studies based on it, which provided us with a benchmark. As an additional result, publishing a scientific paper will be included, gathering the most relevant results of the work for admission to a scientific journal or bulletin, with the purpose of releasing our results of the research to the international scientific community. Although, in order to test the already trained models and explore the different catalogs and data sets, a wrapper class has been developed to call the libraries implemented from a Python environment and a web demonstrator, which will be made public shortly.en
dc.description.versionversión final
dc.identifier.urihttps://hdl.handle.net/20.500.14468/14563
dc.language.isoes
dc.publisherUniversidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial.
dc.relation.centerFacultades y escuelas::E.T.S. de Ingeniería Informática
dc.relation.degreeMáster Universitario en I.A. Avanzada: Fundamentos, Métodos y Aplicaciones
dc.relation.departmentInteligencia Artificial
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject.keywordsnatural language processing
dc.subject.keywordsunsupervised classification
dc.subject.keywords.convolutional neural networks
dc.subject.keywordsartificial intelligence
dc.subject.keywordsmachine learning
dc.subject.keywordse-health
dc.subject.keywordselectronic health records
dc.subject.keywordsnamed entity recognition
dc.titleMEDAID: Propuesta de modelo de clasificación híbrido ligero para MLPes
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Garcia_Gutierrez_JoseAlberto_TFM.pdf
Tamaño:
6.68 MB
Formato:
Adobe Portable Document Format