Aproximaciones a la simplificación léxica mediante aprendizaje profundo

Sixto Cesteros, Juan. (2023). Aproximaciones a la simplificación léxica mediante aprendizaje profundo Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Sixto_Juan_TFM.pdf Sixto_Juan_TFM.pdf application/pdf 577.49KB

Título Aproximaciones a la simplificación léxica mediante aprendizaje profundo
Autor(es) Sixto Cesteros, Juan
Resumen Este trabajo aborda el problema de la simplificación automática de textos en español, con el propósito de transformar documentos de texto en versiones más accesibles, que faciliten su comprensión por diversos tipos de usuarios. Esta tarea implica retos tanto técnicos como conceptuales, con un potencial significativo para el bien social a través del acceso de muchas personas a la información. En este contexto, el presente trabajo aborda la tarea de simplificación centrándose en dos etapas especificas de la misma, la selección de términos sustitutos y la clasificación de los mismos, utilizando para ello enfoques basados en deep learning para la generación de soluciones múltiples de forma efectiva y versátil. La investigación se desarrolla en el ámbito de los textos en español, afrontando la tarea de generación de sustitutos a través de las herramientas más recientes en el ámbito del deep learning. Para lograrlo, se analizan y exploran los últimos avances y herramientas disponibles en el estado del arte. Luego, se llevan a cabo experimentos utilizando un conjunto de datos de referencia, que permite evaluar el rendimiento de los mismos con otros enfoques previamente publicados. La propuesta se basa en una aproximación a la tarea a partir de los trabajos de Aumiller y Gertz(Aumiller y Gertz, 2023), que obtienen los mejores resultados para el español en el marco de la tarea TSAR, incorporando los últimos modelos disponibles y explorando nuevas opciones de parametrización e ingeniería de instrucciones (prompt engineering). El trabajo concluye con un análisis de los resultados obtenidos y el futuro de las tecnologías empleadas. Se discuten las fortalezas identificadas en las soluciones propuestas y las debilidades encontradas. Además, se abordan posibles áreas de mejora para investigaciones futuras, proporcionando una visión de la dirección que podrían tomar las tecnologías de simplificación automática de textos.
Abstract This work addresses the problem of automatic text simplification in Spanish, with the purpose of transforming text documents into more accessible versions that facilitate their understanding by various types of users. This task involves both technical and conceptual challenges, with significant potential for social good through the access of many people to information. In this context, this paper addresses the simplification task by focusing on two specific steps of the task, substitute selection and substitute classification, using deep learning based approaches for generating multiple solutions in an effective and versatile way. The research is developed in the field of Spanish texts, facing the task of substitute generation through the most recent tools in the field of deep learning. To achieve this, the latest advances and tools available in the state of the art are analyzed and explored. Then, experiments are carried out using a benchmark dataset, which allows evaluating their performance with other previously published approaches. The proposal is based from the work of Aumiller and Gertz(Aumiller y Gertz, 2023), who obtain the best results for Spanish in the TSAR task framework, incorporating the latest available models and exploring new options for parameterization and instruction engineering (prompt engineering). The work concludes with an analysis of the results obtained and the future of the technologies employed. The strengths identified in the proposed solutions and the weaknesses found are discussed. In addition, possible areas of improvement for future research are addressed, providing a vision of the direction that automatic text simplification technologies could take.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor García Serrano, Ana
Fecha 2023-10-01
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Jsixto
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Jsixto
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 40 Visitas, 15 Descargas  -  Estadísticas en detalle
Creado: Fri, 16 Feb 2024, 22:23:50 CET