Aproximaciones a la simplificación léxica mediante aprendizaje profundo

Sixto Cesteros, Juan

Aproximaciones a la simplificación léxica mediante aprendizaje profundo

Sixto Cesteros, Juan. (2023). Aproximaciones a la simplificación léxica mediante aprendizaje profundo Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
Sixto_Juan_TFM.pdf			Sixto_Juan_TFM.pdf		application/pdf	577.49KB

Título	Aproximaciones a la simplificación léxica mediante aprendizaje profundo
Autor(es)	Sixto Cesteros, Juan
Resumen	Este trabajo aborda el problema de la simplificación automática de textos en español, con el propósito de transformar documentos de texto en versiones más accesibles, que faciliten su comprensión por diversos tipos de usuarios. Esta tarea implica retos tanto técnicos como conceptuales, con un potencial significativo para el bien social a través del acceso de muchas personas a la información. En este contexto, el presente trabajo aborda la tarea de simplificación centrándose en dos etapas especificas de la misma, la selección de términos sustitutos y la clasificación de los mismos, utilizando para ello enfoques basados en deep learning para la generación de soluciones múltiples de forma efectiva y versátil. La investigación se desarrolla en el ámbito de los textos en español, afrontando la tarea de generación de sustitutos a través de las herramientas más recientes en el ámbito del deep learning. Para lograrlo, se analizan y exploran los últimos avances y herramientas disponibles en el estado del arte. Luego, se llevan a cabo experimentos utilizando un conjunto de datos de referencia, que permite evaluar el rendimiento de los mismos con otros enfoques previamente publicados. La propuesta se basa en una aproximación a la tarea a partir de los trabajos de Aumiller y Gertz(Aumiller y Gertz, 2023), que obtienen los mejores resultados para el español en el marco de la tarea TSAR, incorporando los últimos modelos disponibles y explorando nuevas opciones de parametrización e ingeniería de instrucciones (prompt engineering). El trabajo concluye con un análisis de los resultados obtenidos y el futuro de las tecnologías empleadas. Se discuten las fortalezas identificadas en las soluciones propuestas y las debilidades encontradas. Además, se abordan posibles áreas de mejora para investigaciones futuras, proporcionando una visión de la dirección que podrían tomar las tecnologías de simplificación automática de textos.
Abstract	This work addresses the problem of automatic text simplification in Spanish, with the purpose of transforming text documents into more accessible versions that facilitate their understanding by various types of users. This task involves both technical and conceptual challenges, with significant potential for social good through the access of many people to information. In this context, this paper addresses the simplification task by focusing on two specific steps of the task, substitute selection and substitute classification, using deep learning based approaches for generating multiple solutions in an effective and versatile way. The research is developed in the field of Spanish texts, facing the task of substitute generation through the most recent tools in the field of deep learning. To achieve this, the latest advances and tools available in the state of the art are analyzed and explored. Then, experiments are carried out using a benchmark dataset, which allows evaluating their performance with other previously published approaches. The proposal is based from the work of Aumiller and Gertz(Aumiller y Gertz, 2023), who obtain the best results for Spanish in the TSAR task framework, incorporating the latest available models and exploring new options for parameterization and instruction engineering (prompt engineering). The work concludes with an analysis of the results obtained and the future of the technologies employed. The strengths identified in the proposed solutions and the weaknesses found are discussed. In addition, possible areas of improvement for future research are addressed, providing a vision of the direction that automatic text simplification technologies could take.
Notas adicionales	Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s)	Ingeniería Informática
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor	García Serrano, Ana
Fecha	2023-10-01
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-TL-Jsixto http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Jsixto
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en Tecnologías del Lenguaje (UNED) Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	40 Visitas, 15 Descargas - Estadísticas en detalle
Creado:	Fri, 16 Feb 2024, 22:23:50 CET

e-spacio

Aproximaciones a la simplificación léxica mediante aprendizaje profundo