Publicación:
Comparativa de algoritmos de reconocimiento de voz y subtitulado automático considerando la estructura y el contenido del texto

dc.contributor.authorRodriguez Parrondo, Paula
dc.contributor.directorPérez Martín, Jorge
dc.contributor.directorRodrigo Yuste, Álvaro
dc.date.accessioned2025-07-09T13:48:48Z
dc.date.available2025-07-09T13:48:48Z
dc.date.issued2025
dc.description.abstractEn una sociedad donde los contenidos digitales están cada vez más presentes, los sistemas de reconocimiento automático del habla (Automatic Speech Recognition, ASR) se posicionan como herramientas esenciales para garantizar el acceso universal a la información. Sin embargo, estos sistemas aún presentan errores que pueden comprometer la fiabilidad de sus transcripciones. Detectarlos, comprenderlos y corregirlos no es sólo un objetivo técnico, sino un paso necesario hacia una tecnología más inclusiva, precisa y fiable. Este trabajo aborda precisamente esa necesidad mediante el análisis del rendimiento de modelos de transcripción automática usando contenidos educativos. Para ello, se han diseñado y ejecutado varios experimentos utilizando los modelos Whisper y WhisperX, en los que se evaluó su comportamiento combinando varias métricas obtenidas de forma automática (WER, CER, BLEU y ROUGE) con un análisis cualitativo de los errores cometidos. Esta metodología ha permitido identificar patrones recurrentes, como dificultades en la transcripción de nombres propios o términos técnicos, y valorar el impacto de estrategias específicas, como la incorporación de contexto textual o la segmentación del audio. Más allá de los resultados cuantitativos, este trabajo pone de manifiesto que avanzar en la accesibilidad real requiere algo más que modelos de reconocimiento del habla funcionales. Es necesario que estos sistemas sean capaces de adaptarse a la diversidad lingüística de los usuarios y gestionar de forma eficaz los errores que cometen. El futuro del reconocimiento automático del habla pasa no sólo por mejorar la potencia de los modelos, sino también por desarrollar soluciones más robustas, precisas y capaces de responder ante las variaciones naturales del lenguaje.es
dc.description.abstract In a society where digital content is increasingly prevalent, automatic speech recognition (ASR) systems have established themselves as essential tools to ensure universal access to information. However, these systems still produce errors that can compromise the reliabilityof their transcriptions. Detecting, understanding, and correcting these errors is not only a technical challenge but also a necessary step toward more inclusive, accurate, and trustworthy technology. This study addresses that need through an analysis of the performance of automatic transcription models using educational content. For this purpose, several experiments were designed and conducted using the Whisper and WhisperX models, evaluating their performance through a combination of automatic metrics (WER, CER, BLEU, and ROUGE) and a qualitative analysis of the errors produced. This methodology enabled the identification of recurring patterns, such as difficulties with proper names or technical terms, and the assessment of specific strategies, including the use of textual context and audio segmentation. Beyond quantitative results, this study highlights that achieving true accessibility requires more than just functional ASR systems. These technologies must also adapt to the linguistic diversity of users and effectively manage the errors they generate. The future of automatic speech recognition lies not only in improving model performance but also in developing more robust and accurate solutions capable of handling the natural variation in human language.en
dc.identifier.citationRodriguez Parrondo, Paula. Trabajo Fin de Máster: "Comparativa de algoritmos de reconocimiento de voz y subtitulado automático considerando la estructura y el contenido del texto". Universidad Nacional de Educación a Distancia (UNED) 2025
dc.identifier.urihttps://hdl.handle.net/20.500.14468/29344
dc.language.isoes
dc.publisherUniversidad Nacional de Educación a Distancia (UNED). E.T.S. de Ingeniería Informática
dc.relation.centerE.T.S. de Ingeniería Informática
dc.relation.degreeMáster universitario en Ingeniería y Ciencia de Datos
dc.relation.departmentInteligencia Artificial
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.uriAtribución-NoComercial-SinDerivadas 4.0 Internacional
dc.subject33 Ciencias Tecnológicas
dc.subject1203.04 Inteligencia artificial
dc.subject57 Lingüística
dc.subject.keywordsreconocimiento automático del habla (ASR)es
dc.subject.keywordssubtítuloses
dc.subject.keywordsanálisis de erroreses
dc.subject.keywordsaccesibilidad digitales
dc.subject.keywordsautomatic speech recognition (ASR)en
dc.subject.keywordssubtitlesen
dc.subject.keywordserror analysisen
dc.subject.keywordsdigital accessibilityen
dc.titleComparativa de algoritmos de reconocimiento de voz y subtitulado automático considerando la estructura y el contenido del textoes
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
RodriguezParrondo_Paula_TFM_JORGE PEREZ MARTIN.pdf
Tamaño:
797.62 KB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.62 KB
Formato:
Item-specific license agreed to upon submission
Descripción: