Publicación:
lmproving end-to-end ASR systems using prosody-based curriculum learning

dc.contributor.authorFrutos, Ariadna
dc.contributor.directorFarrús, Mireia
dc.contributor.directorCigarrán Recuero, Juan Manuel
dc.date.accessioned2024-05-20T12:39:55Z
dc.date.available2024-05-20T12:39:55Z
dc.date.issued2022-07-06
dc.description.abstractEl Aprendizaje curricular (o CL, del inglés Curriculum Learning) es una técnica de aprendizaje automático que ordena los ejemplos de entrenamiento según su grado de dificultad y los pasa al alumno de forma progresiva. En el campo del reconocimiento del inglés Automatic Speech Recognition) se ha aplicado con automática del habla (ASR, éxito siguiendo distintas aproximaciones, pero ninguna ha aprovechado efectos prosódicos para ponderar la dificultad de la señal vocal. En este trabajo presentamos el primer intento de mejorar el rendimiento de sistemas ASR de extremo a extremo utilizando una estrategia de CL basada en prosodia. Empezamos evaluando las transcripciones realizadas por un sistema ASR pre-entrenado para una colección de declaraciones, y comparamos la precisión alcanzada, en términos de WER, con 18 parámetros prosódicos extraídos de cada declaración. Los resultados muestran que las transcripciones de declaraciones que tienen un contorno de tono o intensidad más pronunciado tienen, en promedio, una WER menor. Es decir, este tipo de declaración es más fácil de transcribir. La desviación estándar de la frecuencia fundamental muestra el comportamiento opuesto: las transcripciones de declaraciones con una desviación estándar elevada tienen, en promedio, una WER mayor. En la segunda parte de la investigación entrenamos un nuevo sistema ASR desde cero utilizando un currículum basado en el contorno de tono. Los resultados obtenidos indican que la aplicación de una estrategia de CL basada en este parámetro prosódico ayuda al sistema a aprender, pero no es lo suficientemente potente como para compensar los efectos negativos que provoca el hecho de alimentar el sistema de forma gradual.es
dc.description.abstractCurriculum learning (CL) is a machine learning technique that sorts the training examples according to their difficulty and exposes them to the learner progressively. In the field of automatic speech recognition (ASR) it has been successfully applied using different approaches, but none of them has taken advantage of prosody effects to weight the difficulty of data. In this work we present the first attempt to improve performance of end-to-end ASR systems making use of a CL strategy based on prosody. We start by evaluating transcriptions made by a pre-trained ASR model from a collection of utterances and compare the accuracy achieved, in terms of WER, with 18 scalar prosodic features extracted from each utterance. We find that transcriptions of utterances having either a more pronounced pitch or intensity contour achieve, in average, a lower WER. That is, these utterances are easier to transcribe. The standard deviation of the fundamental frequency shows the reverse behaviour: transcriptions of utterances having a large standard deviation achieve, in average, a higher WER. Then we train a new ASR system from scratch using a curriculum based on pitch contour. Our results indicate that curriculum learning based on this prosodic feature does help the system to learn but is not powerful enough to compensate for the negative effects of feeding the system gradually.en
dc.description.versionversión final
dc.identifier.urihttps://hdl.handle.net/20.500.14468/14698
dc.language.isoen
dc.publisherUniversidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
dc.relation.centerFacultades y escuelas::E.T.S. de Ingeniería Informática
dc.relation.degreeMáster Universitario en Tecnologías del Lenguaje (UNED)
dc.relation.departmentLenguajes y Sistemas Informáticos
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.titlelmproving end-to-end ASR systems using prosody-based curriculum learninges
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Frutos_Ariadna_TFM.pdf
Tamaño:
3.75 MB
Formato:
Adobe Portable Document Format