Clasificación de ideología política en textos

Pérez González, Juan Carlos2024-05-202024-05-202022-09-01https://hdl.handle.net/20.500.14468/14617El presente trabajo nos permite explorar las posibilidades de clasificación de textos de forma automática, teniendo como objetivo principal detectar la ideología política de los autores a partir de sus textos (obtenidos de la red social Twitter). Partimos de los datos publicados en la competición “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology. La colección de la tarea recopila tweets publicados ....fueron recopilados durante 2020 y 2021 de las cuentas de Twitter de políticos y periodistas políticos en donde las menciones a cuentas de Twitter y a partidos políticos han sido anonimizadas. La tarea se aborda desde una perspectiva de procesamiento del lenguaje natural, donde llevamos a cabo una exploración inicial de los textos de entrada (analizando métricas, palabras empleadas, …), una normalización de los textos (eliminación de stopwords, lemmatizacion, ...) y a partir de los datos normalizados se entrenan y evalúan distintos modelos de clasificación (regresión logística, redes neuronales, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). Los mejores resultados se consiguen empleando redes neuronales para la clasificación de la ideología política tanto binaria como multiclase y LGBM Classifier para la profesión y el género y por lo general, obtenemos un f1-score promedio de 0.869236, bastante por encima de los alcanzados por el método baseline de la tarea original.This research allows us explore the possibilities of classifying texts automatically. The main target is detecting the political ideology of the authors from their texts (tweets from the social network Twitter), based on the data from challege “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology”. The dataset was collected during 2020 and 2021 from the Twitter accounts of politicians and political journalists in Spain, where the Twitter accounts of the politicians and political parties were anonymised. The task is approached from a natural language processing perspective. We carry out an initial exploration of the input texts (analyzing metrics, words,...), we normalize the texts (stopwords, lemmatization,...) and we train and evaluate different classification models using the normalized data (logistic regression, neural networks, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). The best results are achieved using neural networks for the classification of political ideology, both binary and multiclass, and LGBM Classifier for profession and gender. We obtain results well, average f1-score of 0.869236, above those achieved by the baseline method of the original task.esinfo:eu-repo/semantics/openAccessClasificación de ideología política en textostesis de maestríaprocesamiento del lenguaje naturalclasificación de textosalgoritmos de clasificaciónidentificación ideología políticaNatural Language Processingtext classificationclassification algorithmspolitical ideology identification