Comparativa de algoritmos de reconocimiento de voz y subtitulado automático considerando la estructura y el contenido del texto

Rodriguez Parrondo, Paula

Fecha

2025

Director/a

Pérez Martín, Jorge
Rodrigo Yuste, Álvaro

Derechos de acceso

info:eu-repo/semantics/openAccess

Editor

Universidad Nacional de Educación a Distancia (UNED)

Citas

0 citas en

Resumen

En una sociedad donde los contenidos digitales están cada vez más presentes, los sistemas de reconocimiento automático del habla (Automatic Speech Recognition, ASR) se posicionan como herramientas esenciales para garantizar el acceso universal a la información. Sin embargo, estos sistemas aún presentan errores que pueden comprometer la fiabilidad de sus transcripciones. Detectarlos, comprenderlos y corregirlos no es sólo un objetivo técnico, sino un paso necesario hacia una tecnología más inclusiva, precisa y fiable. Este trabajo aborda precisamente esa necesidad mediante el análisis del rendimiento de modelos de transcripción automática usando contenidos educativos. Para ello, se han diseñado y ejecutado varios experimentos utilizando los modelos Whisper y WhisperX, en los que se evaluó su comportamiento combinando varias métricas obtenidas de forma automática (WER, CER, BLEU y ROUGE) con un análisis cualitativo de los errores cometidos. Esta metodología ha permitido identificar patrones recurrentes, como dificultades en la transcripción de nombres propios o términos técnicos, y valorar el impacto de estrategias específicas, como la incorporación de contexto textual o la segmentación del audio. Más allá de los resultados cuantitativos, este trabajo pone de manifiesto que avanzar en la accesibilidad real requiere algo más que modelos de reconocimiento del habla funcionales. Es necesario que estos sistemas sean capaces de adaptarse a la diversidad lingüística de los usuarios y gestionar de forma eficaz los errores que cometen. El futuro del reconocimiento automático del habla pasa no sólo por mejorar la potencia de los modelos, sino también por desarrollar soluciones más robustas, precisas y capaces de responder ante las variaciones naturales del lenguaje.
In a society where digital content is increasingly prevalent, automatic speech recognition (ASR) systems have established themselves as essential tools to ensure universal access to information. However, these systems still produce errors that can compromise the reliabilityof their transcriptions. Detecting, understanding, and correcting these errors is not only a technical challenge but also a necessary step toward more inclusive, accurate, and trustworthy technology. This study addresses that need through an analysis of the performance of automatic transcription models using educational content. For this purpose, several experiments were designed and conducted using the Whisper and WhisperX models, evaluating their performance through a combination of automatic metrics (WER, CER, BLEU, and ROUGE) and a qualitative analysis of the errors produced. This methodology enabled the identification of recurring patterns, such as difficulties with proper names or technical terms, and the assessment of specific strategies, including the use of textual context and audio segmentation. Beyond quantitative results, this study highlights that achieving true accessibility requires more than just functional ASR systems. These technologies must also adapt to the linguistic diversity of users and effectively manage the errors they generate. The future of automatic speech recognition lies not only in improving model performance but also in developing more robust and accurate solutions capable of handling the natural variation in human language.

Palabras clave

reconocimiento automático del habla (ASR), subtítulos, análisis de errores, accesibilidad digital, automatic speech recognition (ASR), subtitles, error analysis, digital accessibility

Citación

Rodriguez Parrondo, Paula. Trabajo Fin de Máster: "Comparativa de algoritmos de reconocimiento de voz y subtitulado automático considerando la estructura y el contenido del texto". Universidad Nacional de Educación a Distancia (UNED) 2025

Centro

E.T.S. de Ingeniería Informática

Departamento

Inteligencia Artificial

Handle

https://hdl.handle.net/20.500.14468/29344

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editor

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Handle

DOI

Colecciones