Examinando por Autor "Boticario, Jesus G."
Mostrando 1 - 1 de 1
Resultados por página
Opciones de ordenación
Publicación MEDAID: Propuesta de modelo de clasificación híbrido ligero para MLP(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial., 2020-06) García Gutiérrez, José Alberto; Boticario, Jesus G.En el ecosistema médico moderno, el procesamiento y la indexación de datos de diferentes fuentes no estructuradas puede ser una tarea esencial en algunas aplicaciones como el triage de enfermos, la unificación de historias o la discriminación de la documentación clínica de un paciente de acuerdo con sus necesidades de atención o curso clínico. Esto puede tener beneficios sociales y económicos de importancia, e influir de forma determinante en la calidad de la atención al paciente. Los métodos tradicionales de PLN se basan en el mapeo de características construidas a mano o en el uso de métodos word embedding sobre corpus genéricos que requieren mucho tiempo y generalmente conducen a características sobreespecificadas e incompletas. Ha habido intentos exitosos de utilizar el aprendizaje profundo en el procesamiento del lenguaje natural en la literatura recuente, sin embargo, la interpretación correcta de un documento clínico presenta varias dificultades: uso de terminología muy específica y de glosarios técnicos y procedimentales complejos, gran dependencia contextual (donde el significado de unas partes del documento depende totalmente de otras), la dispersión espacial y temporal de la información y otras cuestiones menos importantes como el uso de abreviaturas, unidades de medida especializadas, dosificaciones o la inclusión de fragmentos escritos en lenguaje coloquial. Los modelos semánticos basados en el cálculo de representaciones distribuidas continuas de palabras simplemente son demasiado generalistas para ser efectivos. Para abordar estos inconvenientes, en este trabajo se elaboraron dos arquitecturas de red profundas: inicialmente, se trabajó en un sistema abierto pensado para que permitiera a un médico de emergencias tratar a un nuevo paciente al recopilar la información no estructurada disponible y proporcionar recomendaciones basadas en la aplicación de un modelo predictivo. Este enfoque resultó ser demasiado ambicioso obteniendo tasas de acierto del 60%, resultados en el promedio de otros estudios, pero nos permitió desarrollar un prototipo que nos sirvió como primera aproximación y detectar los principales problemas. Motivados por los buenos resultados iniciales, decidimos implementar nuestra propia arquitectura que aplicamos sobre el dataset MSKCC especializado en documentación oncológica, utilizando un enfoque híbrido donde incorporamos un modelo de dos etapas con una etapa convolucional enfocada en la semántica básica a nivel local, usando un modelo semántico FastText entrenado sobre un corpus extraído de los diferentes repositorios clínicos; y una red recurrente de tipo Bi-LSTM, esta etapa implementará también un mecanismo de atención básico que nos permitirá focalizar la búsqueda seleccionando únicamente aquellas características de alto nivel más prometedoras. Este conocido conjunto de datos fue elegido por los numerosos estudios basados en él preexistentes, lo que nos proporcionó un punto de referencia y una base sólida para realizar comparaciones cruzadas. Los resultados experimentales muestran que el modelo híbrido propuesto (CNN + Bidirectional LSTM + Context Attention) obtiene una precisión de clasificación entre 5% y 10% mejor que los métodos recopilados hasta ahora en el estado de la técnica llegando para algunas de las clases a tasas de reconocimiento superiores al 80%. Como resultado adicional se incluirá el envío de un artículo científico recogiendo los resultados más relevantes del trabajo para su admisión en una revista o boletín científico, con la finalidad de difundir a la comunidad internacional los resultados de nuestra investigación. Los estudios son elegidos por grupos de revisión especializados en el tema, mismos que determinarán su rigor científico para su publicación. Por último, para poder testar los modelos ya entrenados, así como explorar los diferentes catálogos y conjuntos de datos, se ha desarrollado un wrapper para llamar a las librerías implementadas desde un entorno Python, así como un demostrador web, los cuales se harán públicos en breve.