Publicación:
Detección automática de la categoría de reseñas en series de animación

dc.contributor.authorMellado Ordóñez, Álvaro
dc.contributor.directorMoreno Álvarez, Sergio
dc.date.accessioned2025-10-03T13:16:17Z
dc.date.available2025-10-03T13:16:17Z
dc.date.issued2025-09
dc.description.abstractEn este trabajo se ha evaluado el rendimiento que distintos modelos de clasificación (regresión logística, bosque aleatorio, SVM, XGBoost, LightGBM y BERT) tienen al detectar la categoría asociada a una reseña de una serie de animación alojada en la plataforma MyA-nimeList, las cuales están organizadas en tres grupos: Recommended, Mixed Feelings y Not Recommended. Con este fin, se diseñó un pipeline de ciencia de datos que inició con la recopilación de 36.177 reseñas a través de técnicas de web scraping, y continuó con una fase de preprocesado que incluyó tareas como la detección del idioma, la eliminación de duplicados o la normalización, entre otras actividades. En lo que respecta al desempeño de los algoritmos, los enfoques basados en gradient boosting (XGBoost y LightGBM) son los que obtuvieron un mejor resultado, con exactitudes del 71 %, seguidos de BERT y regresión logística con valores muy cercanos. En cambio, el bosque aleatorio mostró el rendimiento más bajo, marcado por un sesgo hacia la clase mayoritaria (Recommended). En general, los resultados demuestran que es posible utilizar métodos de aprendizaje automático y profundo para clasificar reseñas de anime, incluso con una escasa configuración de hiperparámetros. Por último, se proponen líneas futuras de trabajo como la optimización de los modelos o la expansión del corpus con nuevas fuentes de datos.es
dc.description.abstractIn this work, the performance of different classification models (logistic regression, random forest, SVM, XGBoost, LightGBM, and BERT) was evaluated in detecting the category associated with a review of an animated series hosted on the MyAnimeList platform. The reviews are organized into three groups: Recommended, Mixed Feelings, and Not Recommended. To this end, a data science pipeline was designed, starting with the collection of 36,177 reviews through web scraping techniques, followed by a preprocessing phase that included tasks such as language detection, duplicate removal, and text normalization, among others. Regarding algorithm performance, gradient boosting approaches (XGBoost and LightGBM) achieved the best results, with accuracies of 71 %, followed by BERT and logistic regression with very close values. In contrast, the random forest model showed the lowest performance, displaying a bias toward the majority class (Recommended). Overall, the results demonstrate that it is feasible to use machine learning and deep learning methods to classify anime reviews, even with minimal hyperparameter tuning. Finally, future work is proposed along the lines of model optimization and corpus expansion with new data sources.es
dc.identifier.citationMellado Ordóñez, Álvaro. Trabajo Fin de Máster: "Detección automática de la categoría de reseñas en series de animación". Universidad Nacional de Educación a Distancia (UNED), 2025
dc.identifier.urihttps://hdl.handle.net/20.500.14468/30325
dc.language.isoes
dc.relation.centerE.T.S. de Ingeniería Informática
dc.relation.degreeMáster universitario en Ingeniería y Ciencia de Datos
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.uriAtribución-NoComercial-SinDerivadas 4.0 Internacional
dc.subject1203.17 Informática
dc.subject.keywordsaprendizaje automáticoes
dc.subject.keywordsaprendizaje profundoes
dc.subject.keywordsclasificación de textoses
dc.subject.keywordsweb scrapinges
dc.subject.keywordsprocesamiento del lenguaje naturales
dc.subject.keywordsmachine learningen
dc.subject.keywordsdeep learningen
dc.subject.keywordstext classificationen
dc.subject.keywordsweb scrapingen
dc.subject.keywordsnatural language processingen
dc.titleDetección automática de la categoría de reseñas en series de animaciónes
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
MelladoOrdóñez_Álvaro_TFM_JORGE PEREZ MARTIN.pdf
Tamaño:
10.76 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.62 KB
Formato:
Item-specific license agreed to upon submission
Descripción: