Publicación:
Desarrollo de un sistema de clasificación multi-etiqueta basado en Transformers para la clasificación de códigos eCIE-O-3.1

dc.contributor.authorValencia Gracia, Laura
dc.contributor.directorPlaza Morales, Laura
dc.date.accessioned2024-05-20T12:40:38Z
dc.date.available2024-05-20T12:40:38Z
dc.date.issued2021-10-01
dc.description.abstractEn el presente trabajo se proponen diferentes arquitecturas basadas en Tranformers que pretenden resolver un problema de clasificación multi-etiqueta de códigos morfológicos eCIE-O-3.1, que son los dedicados a las neoplasias. Para ello, se ha utilizado el conjunto de datos facilitados en la tarea competitiva CANTEMIST cuyo objetivo era presentar un sistema capaz de hacer una clasificación multi-etiqueta de códigos morfológicos eCIE-O-3.1 en informes médicos. Los datos de CANTEMIST se han utilizado para entrenar los diferentes modelos propuestos, junto con diferentes experimentos que se han realizado para tratar de mejorar el rendimiento de los modelos base. Los modelos base consisten en diferentes modelos BERT pre-entrenados con distintos conjuntos de datos y diferentes idiomas: algunos modelos son específicamente empleados en español mientras que otros son multi-idioma, algunos modelos han sido pre-entrenados con textos médicos y otros con textos de ámbito general. Se ha realizado un preprocesamiento de los textos médicos para que puedan ser entrenados por el modelo, ya que BERT necesita un tipo específico de datos de entrada. Finalmente, se ha realizado una evaluación exhaustiva del sistema de clasificación sobre el conjunto de test de CANTEMIST para determinar su rendimiento. Se han comparado los resultados obtenidos con los de los sistemas que presentaron los participantes de CANTEMIST en 2020. Los resultados obtenidos muestran que el procedimiento empleado es capaz de realizar una clasificación multi-etiqueta con un buen acierto, aunque con limitaciones y problemas debido a la aproximación empleada.es
dc.description.abstractThe present work proposes different architectures based on Tranformers that intend to solve a problem of multi-label classification of morphological codes eCIE-O-3.1, which are those dedicated to neoplasms. For this purpose, the dataset provided in the competitive task CANTEMIST was used. The objective was to present a system capable of making a multi-label classification of morphological codes eCIE-O-3.1 in medical reports. The different proposed models will be trained with this dataset, together with different experiments that have been carried out to try to improve the performance of the base models. The base models consist of different pre-trained BERT models with different data sets and different languages: some models are specifically used in Spanish while others are multi-language, some models have been pre-trained with medical texts and others with medical texts. general scope. Medical texts have been preprocessed so that they can be trained by the model, since BERT needs a specific type of input data. Finally, an extensive evaluation is performed on the CANTEMIST test set to determine the performance of our approach in the multi-label classification task. The results obtained have been compared with the systems presented by the CANTEMIST participants in 2020. The results obtained show that this procedure used is able to perform a multi-label classification with good results, although with limitations and problems due to the approach used.en
dc.description.versionversión final
dc.identifier.urihttps://hdl.handle.net/20.500.14468/14717
dc.language.isoes
dc.publisherUniversidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
dc.relation.centerFacultades y escuelas::E.T.S. de Ingeniería Informática
dc.relation.degreeMáster Universitario en Tecnologías del Lenguaje (UNED)
dc.relation.departmentLenguajes y Sistemas Informáticos
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.titleDesarrollo de un sistema de clasificación multi-etiqueta basado en Transformers para la clasificación de códigos eCIE-O-3.1es
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
ValenciaLaura_TFM.pdf
Tamaño:
1.18 MB
Formato:
Adobe Portable Document Format