Fecha
2025-09
Editor/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editorial

Citas

plumx
0 citas en WOS
0 citas en
Proyectos de investigación
Unidades organizativas
Número de la revista
Resumen
En este trabajo se ha evaluado el rendimiento que distintos modelos de clasificación (regresión logística, bosque aleatorio, SVM, XGBoost, LightGBM y BERT) tienen al detectar la categoría asociada a una reseña de una serie de animación alojada en la plataforma MyA-nimeList, las cuales están organizadas en tres grupos: Recommended, Mixed Feelings y Not Recommended. Con este fin, se diseñó un pipeline de ciencia de datos que inició con la recopilación de 36.177 reseñas a través de técnicas de web scraping, y continuó con una fase de preprocesado que incluyó tareas como la detección del idioma, la eliminación de duplicados o la normalización, entre otras actividades. En lo que respecta al desempeño de los algoritmos, los enfoques basados en gradient boosting (XGBoost y LightGBM) son los que obtuvieron un mejor resultado, con exactitudes del 71 %, seguidos de BERT y regresión logística con valores muy cercanos. En cambio, el bosque aleatorio mostró el rendimiento más bajo, marcado por un sesgo hacia la clase mayoritaria (Recommended). En general, los resultados demuestran que es posible utilizar métodos de aprendizaje automático y profundo para clasificar reseñas de anime, incluso con una escasa configuración de hiperparámetros. Por último, se proponen líneas futuras de trabajo como la optimización de los modelos o la expansión del corpus con nuevas fuentes de datos.
In this work, the performance of different classification models (logistic regression, random forest, SVM, XGBoost, LightGBM, and BERT) was evaluated in detecting the category associated with a review of an animated series hosted on the MyAnimeList platform. The reviews are organized into three groups: Recommended, Mixed Feelings, and Not Recommended. To this end, a data science pipeline was designed, starting with the collection of 36,177 reviews through web scraping techniques, followed by a preprocessing phase that included tasks such as language detection, duplicate removal, and text normalization, among others. Regarding algorithm performance, gradient boosting approaches (XGBoost and LightGBM) achieved the best results, with accuracies of 71 %, followed by BERT and logistic regression with very close values. In contrast, the random forest model showed the lowest performance, displaying a bias toward the majority class (Recommended). Overall, the results demonstrate that it is feasible to use machine learning and deep learning methods to classify anime reviews, even with minimal hyperparameter tuning. Finally, future work is proposed along the lines of model optimization and corpus expansion with new data sources.
Descripción
Categorías UNESCO
Palabras clave
aprendizaje automático, aprendizaje profundo, clasificación de textos, web scraping, procesamiento del lenguaje natural, machine learning, deep learning, text classification, web scraping, natural language processing
Citación
Mellado Ordóñez, Álvaro. Trabajo Fin de Máster: "Detección automática de la categoría de reseñas en series de animación". Universidad Nacional de Educación a Distancia (UNED), 2025
Centro
E.T.S. de Ingeniería Informática
Departamento
Grupo de investigación
Grupo de innovación
Programa de doctorado
Cátedra
Datos de investigación relacionados
DOI