lmproving end-to-end ASR systems using prosody-based curriculum learning

Frutos, Ariadna. (2022). lmproving end-to-end ASR systems using prosody-based curriculum learning Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Frutos_Ariadna_TFM.pdf Frutos Ariadna TFM.pdf application/pdf 3.75MB

Título lmproving end-to-end ASR systems using prosody-based curriculum learning
Autor(es) Frutos, Ariadna
Resumen El Aprendizaje curricular (o CL, del inglés Curriculum Learning) es una técnica de aprendizaje automático que ordena los ejemplos de entrenamiento según su grado de dificultad y los pasa al alumno de forma progresiva. En el campo del reconocimiento del inglés Automatic Speech Recognition) se ha aplicado con automática del habla (ASR, éxito siguiendo distintas aproximaciones, pero ninguna ha aprovechado efectos prosódicos para ponderar la dificultad de la señal vocal. En este trabajo presentamos el primer intento de mejorar el rendimiento de sistemas ASR de extremo a extremo utilizando una estrategia de CL basada en prosodia. Empezamos evaluando las transcripciones realizadas por un sistema ASR pre-entrenado para una colección de declaraciones, y comparamos la precisión alcanzada, en términos de WER, con 18 parámetros prosódicos extraídos de cada declaración. Los resultados muestran que las transcripciones de declaraciones que tienen un contorno de tono o intensidad más pronunciado tienen, en promedio, una WER menor. Es decir, este tipo de declaración es más fácil de transcribir. La desviación estándar de la frecuencia fundamental muestra el comportamiento opuesto: las transcripciones de declaraciones con una desviación estándar elevada tienen, en promedio, una WER mayor. En la segunda parte de la investigación entrenamos un nuevo sistema ASR desde cero utilizando un currículum basado en el contorno de tono. Los resultados obtenidos indican que la aplicación de una estrategia de CL basada en este parámetro prosódico ayuda al sistema a aprender, pero no es lo suficientemente potente como para compensar los efectos negativos que provoca el hecho de alimentar el sistema de forma gradual.
Abstract Curriculum learning (CL) is a machine learning technique that sorts the training examples according to their difficulty and exposes them to the learner progressively. In the field of automatic speech recognition (ASR) it has been successfully applied using different approaches, but none of them has taken advantage of prosody effects to weight the difficulty of data. In this work we present the first attempt to improve performance of end-to-end ASR systems making use of a CL strategy based on prosody. We start by evaluating transcriptions made by a pre-trained ASR model from a collection of utterances and compare the accuracy achieved, in terms of WER, with 18 scalar prosodic features extracted from each utterance. We find that transcriptions of utterances having either a more pronounced pitch or intensity contour achieve, in average, a lower WER. That is, these utterances are easier to transcribe. The standard deviation of the fundamental frequency shows the reverse behaviour: transcriptions of utterances having a large standard deviation achieve, in average, a higher WER. Then we train a new ASR system from scratch using a curriculum based on pitch contour. Our results indicate that curriculum learning based on this prosodic feature does help the system to learn but is not powerful enough to compensate for the negative effects of feeding the system gradually.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor Farrús, Mireia
Cigarrán, Juan Manuel
Fecha 2022-07-06
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Afrutos
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Afrutos
Idioma eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 102 Visitas, 17 Descargas  -  Estadísticas en detalle
Creado: Fri, 08 Dec 2023, 00:03:58 CET