Publicación:
Meaning aggregation functions

Cargando...
Miniatura
Fecha
2024-06-23
Editor/a
Director/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Educación a Distancia (UNED)
Proyectos de investigación
Unidades organizativas
Número de la revista
Resumen
In the contemporary landscape of artificial intelligence and computational linguistics, Natural Language Processing (NLP) systems play a crucial role in understanding, interpreting, and generating human language. This work addresses the significant challenge posed by the black-box nature of deep learning models and the complexity of natural language, particularly the issue of polysemy. To address this challenge, one promising avenue is the concept of semantic distributional representation, which maps texts into a multidimensional semantic space. This approach enhances the visibility and manipulability of linguistic representations. In this work we introduce two novel semantic functions, fspec(v1, v2) and fgen(v1, v2), designed to specialise and generalise the concepts encapsulated by word vectors, respectively. Our research involves defining these functions, characterising their properties, developing an evaluation benchmark, and conducting a comprehensive comparison of candidate functions. The results indicate that while the sum function is most effective for specialisation, polysemy remains a significant source of noise in both specialisation and generalisation tasks. We propose future research directions, including the exploration of multilingual datasets and more sophisticated models to handle polysemy. The advancements from this research hold practical implications for improving the accuracy and applicability of NLP systems in various domains.
En el panorama contemporáneo de la inteligencia artificial y la lingüística computacional, los sistemas de procesamiento del lenguaje natural (PLN) juegan un papel crucial en la comprensión, interpretación y generación del lenguaje humano. Este trabajo aborda el desafío significativo que representa la naturaleza de caja negra de los modelos de aprendizaje profundo y la complejidad del lenguaje natural, particularmente el problema de la polisemia. Para enfrentar este desafío, una vía prometedora es el concepto de representación semántica distribucional, que mapea los textos en un espacio semántico multidimensional. Este enfoque mejora la visibilidad y la manipulabilidad de las representaciones lingüísticas. En este trabajo, introducimos dos funciones semánticas novedosas, fspec(v1, v2) y fgen(v1, v2), diseñadas para especializar y generalizar los conceptos encapsulados por los vectores de palabras, respectivamente. Nuestra investigación implica definir estas funciones, caracterizar sus propiedades, desarrollar un punto de referencia para su evaluación y realizar una comparación exhaustiva de las funciones candidatas. Los resultados indican que, si bien la función suma es la más efectiva para la especialización, la polisemia sigue siendo una fuente significativa de ruido en las tareas de especialización y generalización. Proponemos futuras líneas de investigación, que incluyen la exploración de conjuntos de datos multilingües y modelos más sofisticados para manejar la polisemia. Los avances de esta investigación tienen implicaciones prácticas para mejorar la precisión y la aplicabilidad de los sistemas de PLN en diversos dominios.
Descripción
Categorías UNESCO
Palabras clave
Natural Language Processing, Distributional Semantics, Specialisation, Generalisation, Polysemy, Semantic space, Word embeddings, Meaning algebra, Computational Linguistics, Vector Space Models, Procesamiento del Lenguaje Natural, Semántica Distribucional, Especialización, Generalización, Polisemia, Espacio Semántico, Embeddings de palabras, Álgebra de significados, Lingüística Computacional, Modelos de Espacio Vectorial
Citación
Lucas Pérez, Gadea (2024) Meaning aggregation functions. Trabajo fin de máster. Universidad de Educación a Distancia (UNED)
Centro
E.T.S. de Ingeniería Informática
Departamento
Lenguajes y Sistemas Informáticos
Grupo de investigación
Grupo de innovación
Programa de doctorado
Cátedra
DOI