Fecha
2025-06
Editor/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (UNED). E.T.S. de Ingeniería Informática

Citas

plumx
0 citas en WOS
0 citas en
Proyectos de investigación
Unidades organizativas
Número de la revista
Resumen
El reconocimiento automático del habla (ASR) ha demostrado ser una tecnología efectiva y ampliamente adoptada en múltiples aplicaciones, especialmente en entornos controlados o domésticos. Sin embargo, su implementación para el reconocimiento de instrucciones en entornos industriales presenta desafíos significativos debido a la severa degradación de la señal acústica y la escasez de conjuntos de datos específicos. El objetivo principal de este Trabajo de Fin de Máster es identificar y validar el motor ASR de código abierto más robusto y eficiente para un futuro sistema de reconocimiento de instrucciones. Para ello, se ha desarrollado una metodología que incluyó, en primer lugar, la creación de un dataset sintético anotado. Este dataset se generó combinando locuciones limpias con cuatro tipos de ruido (dos estacionarios y dos variables) a once niveles de Relación Señal- Ruido (SNR) distintos, desde 0 dB hasta 100 dB, resultando en 22 horas de audio ruidoso. Posteriormente, se realizó una evaluación comparativa exhaustiva de cuatro modelos ASR de código abierto (Wav2Vec2, Whisper, Faster Whisper y WhisperX), considerando dos tamaños representativos para cada uno. El análisis abarcó la eficiencia computacional, el rendimiento cuantitativo y un análisis cualitativo de errores. Los resultados experimentales demostraron la superioridad general de la familia de modelos Whisper sobre Wav2Vec2 en presencia de ruido, observándose además que el ruido de tipo variable resultó ser más perjudicial que el estacionario para la mayoría de los modelos. Las implementaciones optimizadas, Faster Whisper y WhisperX, mostraron mejoras sustanciales en eficiencia (velocidad y uso de memoria) respecto al modelo Whisper original. Aunque WhisperX ofreció un rendimiento cuantitativo comparable a Faster Whisper, el análisis cualitativo reveló en el primero una tendencia a la omisión de segmentos en ruido extremo, posiblemente atribuible a su componente VAD. Se concluye que el modelo Faster Whisper, en su configuración large, representa la opción más robusta, eficiente y equilibrada entre las evaluadas, constituyendo el candidato idóneo para el motor ASR del sistema de reconocimiento de instrucciones propuesto. Este trabajo no solo valida un modelo específico, sino que también aporta una metodología y un dataset para la evaluación de ASR en entornos industriales simulados, sentando una base sólida para futuros desarrollos en este ámbito.
Automatic Speech Recognition (ASR) has proven to be an effective and widely adopted technology across multiple applications, especially in controlled or domestic environments. However, its implementation for instruction recognition in industrial settings presents significant challenges due to severe acoustic signal degradation and the scarcity of specific datasets. The main objective of this Master’s Thesis is to identify and validate the most robust and efficient open-source ASR engine for a future instruction recognition system.. To achieve this, a methodology was developed that firstly included the creation of an annotated synthetic dataset. This dataset was generated by combining clean utterances with four types of noise (two stationary and two variable) at eleven distinct Signal-to-Noise Ratio (SNR) levels, ranging from 0 dB to 100 dB, resulting in 22 hours of noisy audio. Subsequently, an exhaustive comparative evaluation of four open-source ASR models (Wav2Vec2, Whisper, Faster Whisper, and WhisperX) was performed, considering two representative sizes for each. The analysis encompassed computational efficiency, quantitative performance, and a qualitative error analysis. Experimental results demonstrated the general superiority of the Whisper model family over Wav2Vec2 in the presence of noise, with variable noise types also observed to be more detrimental than stationary ones for most models. The optimized implementations, Faster Whisper and WhisperX, showed substantial improvements in efficiency (speed and memory usage) compared to the original Whisper model. Although WhisperX offered quantitative performance comparable to Faster Whisper, the qualitative analysis revealed a tendency in the former to omit segments in extreme noise, possibly attributable to its VAD component. It is concluded that the Faster Whisper model, in its large configuration, represents the most robust, efficient, and balanced option among those evaluated, constituting the ideal candidate for the ASR engine of the proposed instruction recognition system. This work not only validates a specific model but also contributes a methodology and a dataset for ASR evaluation in simulated industrial environments, laying a solid foundation for future developments in this field.
Descripción
Categorías UNESCO
Palabras clave
ASR, SNR, Wav2Vec2, Whisper, dataset sintético anotado, reconocimiento de instrucciones, nnotated synthetic dataset, nstruction recognition
Citación
Ramírez Faura, Antonio Francisco. Trabajo Fin de Máster: "Desarrollo y evaluación de un sistema de reconocimiento de voz robusto para entornos industriales". Universidad Nacional de Educación a Distancia (UNED) 2025
Centro
E.T.S. de Ingeniería Informática
Departamento
Inteligencia Artificial
Grupo de investigación
Grupo de innovación
Programa de doctorado
Cátedra
DOI