Publicación: Aproximaciones a la simplificación léxica mediante aprendizaje profundo
Fecha
2023-10-01
Autores
Sixto Cesteros, Juan
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Resumen
Este trabajo aborda el problema de la simplificación automática de textos en español, con el propósito de transformar documentos de texto en versiones más accesibles, que faciliten su comprensión por diversos tipos de usuarios. Esta tarea implica retos tanto técnicos como conceptuales, con un potencial significativo para el bien social a través del acceso de muchas personas a la información. En este contexto, el presente trabajo aborda la tarea de simplificación centrándose en dos etapas especificas de la misma, la selección de términos sustitutos y la clasificación de los mismos, utilizando para ello enfoques basados en deep learning para la generación de soluciones múltiples de forma efectiva y versátil. La investigación se desarrolla en el ámbito de los textos en español, afrontando la tarea de generación de sustitutos a través de las herramientas más recientes en el ámbito del deep learning. Para lograrlo, se analizan y exploran los últimos avances y herramientas disponibles en el estado del arte. Luego, se llevan a cabo experimentos utilizando un conjunto de datos de referencia, que permite evaluar el rendimiento de los mismos con otros enfoques previamente publicados. La propuesta se basa en una aproximación a la tarea a partir de los trabajos de Aumiller y Gertz(Aumiller y Gertz, 2023), que obtienen los mejores resultados para el español en el marco de la tarea TSAR, incorporando los últimos modelos disponibles y explorando nuevas opciones de parametrización e ingeniería de instrucciones (prompt engineering). El trabajo concluye con un análisis de los resultados obtenidos y el futuro de las tecnologías empleadas. Se discuten las fortalezas identificadas en las soluciones propuestas y las debilidades encontradas. Además, se abordan posibles áreas de mejora para investigaciones futuras, proporcionando una visión de la dirección que podrían tomar las tecnologías de simplificación automática de textos.
This work addresses the problem of automatic text simplification in Spanish, with the purpose of transforming text documents into more accessible versions that facilitate their understanding by various types of users. This task involves both technical and conceptual challenges, with significant potential for social good through the access of many people to information. In this context, this paper addresses the simplification task by focusing on two specific steps of the task, substitute selection and substitute classification, using deep learning based approaches for generating multiple solutions in an effective and versatile way. The research is developed in the field of Spanish texts, facing the task of substitute generation through the most recent tools in the field of deep learning. To achieve this, the latest advances and tools available in the state of the art are analyzed and explored. Then, experiments are carried out using a benchmark dataset, which allows evaluating their performance with other previously published approaches. The proposal is based from the work of Aumiller and Gertz(Aumiller y Gertz, 2023), who obtain the best results for Spanish in the TSAR task framework, incorporating the latest available models and exploring new options for parameterization and instruction engineering (prompt engineering). The work concludes with an analysis of the results obtained and the future of the technologies employed. The strengths identified in the proposed solutions and the weaknesses found are discussed. In addition, possible areas of improvement for future research are addressed, providing a vision of the direction that automatic text simplification technologies could take.
This work addresses the problem of automatic text simplification in Spanish, with the purpose of transforming text documents into more accessible versions that facilitate their understanding by various types of users. This task involves both technical and conceptual challenges, with significant potential for social good through the access of many people to information. In this context, this paper addresses the simplification task by focusing on two specific steps of the task, substitute selection and substitute classification, using deep learning based approaches for generating multiple solutions in an effective and versatile way. The research is developed in the field of Spanish texts, facing the task of substitute generation through the most recent tools in the field of deep learning. To achieve this, the latest advances and tools available in the state of the art are analyzed and explored. Then, experiments are carried out using a benchmark dataset, which allows evaluating their performance with other previously published approaches. The proposal is based from the work of Aumiller and Gertz(Aumiller y Gertz, 2023), who obtain the best results for Spanish in the TSAR task framework, incorporating the latest available models and exploring new options for parameterization and instruction engineering (prompt engineering). The work concludes with an analysis of the results obtained and the future of the technologies employed. The strengths identified in the proposed solutions and the weaknesses found are discussed. In addition, possible areas of improvement for future research are addressed, providing a vision of the direction that automatic text simplification technologies could take.
Descripción
Categorías UNESCO
Palabras clave
Citación
Centro
E.T.S. de Ingeniería Informática
Departamento
Lenguajes y Sistemas Informáticos