Publicación: Anonimización de Informes Médicos
Cargando...
Archivos
Fecha
2021-09-15
Autores
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
Atribución-NoComercial-SinDerivadas 4.0 Internacional
info:eu-repo/semantics/openAccess
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Resumen
Con el objetivo de mejorar la salud y seguridad de los pacientes cada vez existe un mayor interés en gestionar eficientemente el contenido de los historiales clínicos electrónicos. Dichos informes médicos están escritos principalmente en lenguaje natural, por lo que contienen información no estructurada generalizadamente, haciéndose imprescindibles tecnologías de Minería de Textos y de PLN (Procesamiento de Lenguaje Natural) para su explotación. Con técnicas apropiadas de dichas tecnologías se ayuda en la toma de decisiones clínicas o se facilita la reutilización de medicamentos, entre muchas otras ventajas. Sin embargo, los registros clínicos con información de salud protegida (PHI o Protected Health Information) no pueden ser compartidos directamente debido a restricciones relacionadas con la protección de datos sobre dicha información privada de los pacientes. Es necesaria pues, una anonimización o disociación de dichos registros antes de poder ser usados externamente, debiéndose eliminar total o parcialmente toda información que permita identificar al paciente. La base del presente trabajo ha sido la tarea de evaluación MEDDOCAN (Medical Document Anonymization), a la que puede accederse en https://temu.bsc.es/meddocan , que forma parte de la iniciativa IberLEF 2019, y con la que se organizó un desafío para la comunidad hispano-hablante, con el objetivo de diseñar sistemas eficientes de anonimización de documentos médicos escritos en español. La tarea de MEDDOCAN se estructura en dos subtareas: Identificación y clasificación de entidades (nombres de paciente, teléfonos, etc.) Detección de texto sensible La evaluación oficial de la tarea, por tanto, engloba los resultados de ambas subtareas. El corpus está formado por 1.000 estudios de casos clínicos, y cada uno de ellos cuenta, de forma anexa, con expresiones PHI realizadas por profesionales. 4 Del total de 1.000 casos, se reservó el 50% (500 casos) para entrenamiento de la tarea, un 25% (250 casos) para labores de desarrollo, y el otro 25% (250 casos) para pruebas. En el desafío participaron 18 equipos, de un total de 8 nacionalidades distintas, y el mejor resultado, basado en la métrica F-score, fue de 0.9360 para la subtarea 1 (“Identificación y clasificación de entidades”) y de 0.9611 para la subtarea 2 (“Detección de texto sensible”). A lo largo del presente trabajo estudiaremos y compararemos los datos proporcionados por los organizadores de la tarea, y propondremos un sistema que implementa una solución simple mediante técnicas de Aprendizaje Automático y Minería de Textos. Finalmente analizaremos los resultados obtenidos con dicho sistema y serán comparados con los de los participantes en la tarea, exponiendo las ventajas e inconvenientes para la arquitectura escogida, respecto a las presentadas. En dichas conclusiones incorporaremos un listado de posibles mejoras o implementaciones futuras recomendadas para mejorar el rendimiento.
Descripción
Categorías UNESCO
Palabras clave
Citación
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Inteligencia Artificial