Detección automática de la categoría de reseñas en series de animación

Mellado Ordóñez, Álvaro

Fecha

2025-09

Director/a

Moreno Álvarez, Sergio

Derechos de acceso

info:eu-repo/semantics/openAccess

Citas

0 citas en

Resumen

En este trabajo se ha evaluado el rendimiento que distintos modelos de clasificación (regresión logística, bosque aleatorio, SVM, XGBoost, LightGBM y BERT) tienen al detectar la categoría asociada a una reseña de una serie de animación alojada en la plataforma MyA-nimeList, las cuales están organizadas en tres grupos: Recommended, Mixed Feelings y Not Recommended. Con este fin, se diseñó un pipeline de ciencia de datos que inició con la recopilación de 36.177 reseñas a través de técnicas de web scraping, y continuó con una fase de preprocesado que incluyó tareas como la detección del idioma, la eliminación de duplicados o la normalización, entre otras actividades. En lo que respecta al desempeño de los algoritmos, los enfoques basados en gradient boosting (XGBoost y LightGBM) son los que obtuvieron un mejor resultado, con exactitudes del 71 %, seguidos de BERT y regresión logística con valores muy cercanos. En cambio, el bosque aleatorio mostró el rendimiento más bajo, marcado por un sesgo hacia la clase mayoritaria (Recommended). En general, los resultados demuestran que es posible utilizar métodos de aprendizaje automático y profundo para clasificar reseñas de anime, incluso con una escasa configuración de hiperparámetros. Por último, se proponen líneas futuras de trabajo como la optimización de los modelos o la expansión del corpus con nuevas fuentes de datos.
In this work, the performance of different classification models (logistic regression, random forest, SVM, XGBoost, LightGBM, and BERT) was evaluated in detecting the category associated with a review of an animated series hosted on the MyAnimeList platform. The reviews are organized into three groups: Recommended, Mixed Feelings, and Not Recommended. To this end, a data science pipeline was designed, starting with the collection of 36,177 reviews through web scraping techniques, followed by a preprocessing phase that included tasks such as language detection, duplicate removal, and text normalization, among others. Regarding algorithm performance, gradient boosting approaches (XGBoost and LightGBM) achieved the best results, with accuracies of 71 %, followed by BERT and logistic regression with very close values. In contrast, the random forest model showed the lowest performance, displaying a bias toward the majority class (Recommended). Overall, the results demonstrate that it is feasible to use machine learning and deep learning methods to classify anime reviews, even with minimal hyperparameter tuning. Finally, future work is proposed along the lines of model optimization and corpus expansion with new data sources.

Palabras clave

aprendizaje automático, aprendizaje profundo, clasificación de textos, web scraping, procesamiento del lenguaje natural, machine learning, deep learning, text classification, web scraping, natural language processing

Citación

Mellado Ordóñez, Álvaro. Trabajo Fin de Máster: "Detección automática de la categoría de reseñas en series de animación". Universidad Nacional de Educación a Distancia (UNED), 2025

Centro

E.T.S. de Ingeniería Informática

Handle

https://hdl.handle.net/20.500.14468/30325

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editorial

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Datos de investigación relacionados

Handle

DOI

Colecciones