Fecha
2025
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (UNED)
Resumen
En una sociedad donde los contenidos digitales están cada vez más presentes, los sistemas de reconocimiento automático del habla (Automatic Speech Recognition, ASR) se posicionan como herramientas esenciales para garantizar el acceso universal a la información. Sin embargo, estos sistemas aún presentan errores que pueden comprometer la fiabilidad de sus transcripciones. Detectarlos, comprenderlos y corregirlos no es sólo un objetivo técnico, sino un paso necesario hacia una tecnología más inclusiva, precisa y fiable. Este trabajo aborda precisamente esa necesidad mediante el análisis del rendimiento de modelos de transcripción automática usando contenidos educativos. Para ello, se han diseñado y ejecutado varios experimentos utilizando los modelos Whisper y WhisperX, en los que se evaluó su comportamiento combinando varias métricas obtenidas de forma automática (WER, CER, BLEU y ROUGE) con un análisis cualitativo de los errores cometidos. Esta metodología ha permitido identificar patrones recurrentes, como dificultades en la transcripción de nombres propios o términos técnicos, y valorar el impacto de estrategias específicas, como la incorporación de contexto textual o la segmentación del audio. Más allá de los resultados cuantitativos, este trabajo pone de manifiesto que avanzar en la accesibilidad real requiere algo más que modelos de reconocimiento del habla funcionales. Es necesario que estos sistemas sean capaces de adaptarse a la diversidad lingüística de los usuarios y gestionar de forma eficaz los errores que cometen. El futuro del reconocimiento automático del habla pasa no sólo por mejorar la potencia de los modelos, sino también por desarrollar soluciones más robustas, precisas y capaces de responder ante las variaciones naturales del lenguaje.
In a society where digital content is increasingly prevalent, automatic speech recognition (ASR) systems have established themselves as essential tools to ensure universal access to information. However, these systems still produce errors that can compromise the reliabilityof their transcriptions. Detecting, understanding, and correcting these errors is not only a technical challenge but also a necessary step toward more inclusive, accurate, and trustworthy technology. This study addresses that need through an analysis of the performance of automatic transcription models using educational content. For this purpose, several experiments were designed and conducted using the Whisper and WhisperX models, evaluating their performance through a combination of automatic metrics (WER, CER, BLEU, and ROUGE) and a qualitative analysis of the errors produced. This methodology enabled the identification of recurring patterns, such as difficulties with proper names or technical terms, and the assessment of specific strategies, including the use of textual context and audio segmentation. Beyond quantitative results, this study highlights that achieving true accessibility requires more than just functional ASR systems. These technologies must also adapt to the linguistic diversity of users and effectively manage the errors they generate. The future of automatic speech recognition lies not only in improving model performance but also in developing more robust and accurate solutions capable of handling the natural variation in human language.
In a society where digital content is increasingly prevalent, automatic speech recognition (ASR) systems have established themselves as essential tools to ensure universal access to information. However, these systems still produce errors that can compromise the reliabilityof their transcriptions. Detecting, understanding, and correcting these errors is not only a technical challenge but also a necessary step toward more inclusive, accurate, and trustworthy technology. This study addresses that need through an analysis of the performance of automatic transcription models using educational content. For this purpose, several experiments were designed and conducted using the Whisper and WhisperX models, evaluating their performance through a combination of automatic metrics (WER, CER, BLEU, and ROUGE) and a qualitative analysis of the errors produced. This methodology enabled the identification of recurring patterns, such as difficulties with proper names or technical terms, and the assessment of specific strategies, including the use of textual context and audio segmentation. Beyond quantitative results, this study highlights that achieving true accessibility requires more than just functional ASR systems. These technologies must also adapt to the linguistic diversity of users and effectively manage the errors they generate. The future of automatic speech recognition lies not only in improving model performance but also in developing more robust and accurate solutions capable of handling the natural variation in human language.
Descripción
Categorías UNESCO
Palabras clave
reconocimiento automático del habla (ASR), subtítulos, análisis de errores, accesibilidad digital, automatic speech recognition (ASR), subtitles, error analysis, digital accessibility
Citación
Rodriguez Parrondo, Paula. Trabajo Fin de Máster: "Comparativa de algoritmos de reconocimiento de voz y subtitulado automático considerando la estructura y el contenido del texto". Universidad Nacional de Educación a Distancia (UNED) 2025
Centro
E.T.S. de Ingeniería Informática
Departamento
Inteligencia Artificial