Examinando por Autor "Vilares Calvo, David"
Mostrando 1 - 1 de 1
Resultados por página
Opciones de ordenación
Publicación Dependency parsing as sequence labeling for low-resource languages(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2021-10-01) Muñoz Ortiz, Alberto; Araujo Serna, M. Lourdes ; Vilares Calvo, DavidEl procesamiento de lenguaje natural (PLN) ha experimentado claros avances en los últimos años. Sin embargo, la mayoría de mejoras y estudios se han centrado en un selecto grupo de idiomas, siendo el ingles su principal representante, ignorando como funcionan estos métodos en idiomas menos privilegiados, que normalmente reciben el nombre de idiomas con pocos recursos. Este trabajo trata sobre idiomas con pocos recursos, y se centra en una tarea central de PLN conocida como análisis sintáctico de dependencias; ésta consiste en analizar automáticamente la estructura sintáctica de dependencias de una oración, conectando sus palabras mediante relaciones asimétricas binarias entre una palabra gobernante y una palabra subordinada sintácticamente. En concreto, nuestra contribución se encuentra en la intersección entre la velocidad de análisis e idiomas con pocos recursos. En este contexto, recientemente se ha propuesto realizar el análisis de dependencias como una tarea de etiquetado de secuencias. Este enfoque computa un árbol linealizado de n etiquetas dada una frase de longitud n, y otorga una buena relación entre velocidad y precisión. Además, ofrece una forma sencilla de incorporar información sintáctica como una word embedding o característica de entrada. En primer lugar, comparamos el rendimiento de cinco linealizaciones para análisis de dependencias como etiquetado de secuencias en escenarios con pocos recursos. Estas linealizaciones pertenecen a diferentes familias y proponen formular el problema como: (i) seleccionar el gobernante sintáctico para cada palabra, (ii) encontrar una representación de los arcos entre tokens utilizando paréntesis equilibrados y (iii) asociar a cada token subsecuencias de transiciones de un analizador basado en transiciones. Sin embargo, aún existe poco conocimiento sobre cómo se comportan estas linealizaciones en cofiguraciones con pocos recursos. En este trabajo, primero estudiamos su nivel de eficiencia, simulando configuraciones con datos restringidos partiendo de un conjunto diverso de treebanks con muchos recursos. Los resultados muestran que las codificaciones de selección del gobernante sintáctico son más eficientes y obtienen mejores resultados en condiciones ideales (gold), pero que esta ventaja se desvanece en favor de las estrategias de paréntesis equilibrados cuando la configuración utilizada es más similar a una cofiguración realista, como la esperada en idiomas con realmente pocos recursos. En segundo lugar, proponemos un método basado en morfología combinado con aprendizaje translingüe para intentar mejorar el rendimiento del análisis de dependencias en idiomas con pocos recursos. Para ello, primero entrenamos un sistema de exón morfológica para idiomas objetivo con pocos recursos, y después lo aplicamos a treebanks con muchos recursos de idiomas similares para crear un treebank flexionado translingüe (o x-inected treebank) que se asemeje al idioma con pocos recursos objetivo. A continuación, utilizamos los treebanks flexionados para entrenar los analizadores sintácticos de etiquetado de secuencias en dos escenarios: (i) un escenario zero-shot (entrenando un modelo en el x-inected treebank y ejecutándolo sobre el idioma objetivo), y (ii) un escenario few-shot (entrenando un modelo utilizando un grupo compuesto por x-inected treebank junto con el treebank con pocos recursos y ejecutándolos sobre el idioma objetivo). Nuestro objetivo es comprobar la utilidad del método propuesto en situaciones con distinta disponibilidad de datos anotados. Los resultados muestran que el método propuesto puede ser de ayuda en algunas situaciones, pero se necesita estudiar más en profundidad para entender como los distintos factores pueden afectar a los resultados y comprobar si estas tendencias se mantienen usando otros paradigmas, como analizadores basados en transiciones y basados en grafos.