Publicación: Clasificación de ideología política en textos
Fecha
2022-09-01
Autores
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Resumen
El presente trabajo nos permite explorar las posibilidades de clasificación de textos de forma automática, teniendo como objetivo principal detectar la ideología política de los autores a partir de sus textos (obtenidos de la red social Twitter). Partimos de los datos publicados en la competición “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology. La colección de la tarea recopila tweets publicados ....fueron recopilados durante 2020 y 2021 de las cuentas de Twitter de políticos y periodistas políticos en donde las menciones a cuentas de Twitter y a partidos políticos han sido anonimizadas. La tarea se aborda desde una perspectiva de procesamiento del lenguaje natural, donde llevamos a cabo una exploración inicial de los textos de entrada (analizando métricas, palabras empleadas, …), una normalización de los textos (eliminación de stopwords, lemmatizacion, ...) y a partir de los datos normalizados se entrenan y evalúan distintos modelos de clasificación (regresión logística, redes neuronales, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). Los mejores resultados se consiguen empleando redes neuronales para la clasificación de la ideología política tanto binaria como multiclase y LGBM Classifier para la profesión y el género y por lo general, obtenemos un f1-score promedio de 0.869236, bastante por encima de los alcanzados por el método baseline de la tarea original.
This research allows us explore the possibilities of classifying texts automatically. The main target is detecting the political ideology of the authors from their texts (tweets from the social network Twitter), based on the data from challege “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology”. The dataset was collected during 2020 and 2021 from the Twitter accounts of politicians and political journalists in Spain, where the Twitter accounts of the politicians and political parties were anonymised. The task is approached from a natural language processing perspective. We carry out an initial exploration of the input texts (analyzing metrics, words,...), we normalize the texts (stopwords, lemmatization,...) and we train and evaluate different classification models using the normalized data (logistic regression, neural networks, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). The best results are achieved using neural networks for the classification of political ideology, both binary and multiclass, and LGBM Classifier for profession and gender. We obtain results well, average f1-score of 0.869236, above those achieved by the baseline method of the original task.
This research allows us explore the possibilities of classifying texts automatically. The main target is detecting the political ideology of the authors from their texts (tweets from the social network Twitter), based on the data from challege “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology”. The dataset was collected during 2020 and 2021 from the Twitter accounts of politicians and political journalists in Spain, where the Twitter accounts of the politicians and political parties were anonymised. The task is approached from a natural language processing perspective. We carry out an initial exploration of the input texts (analyzing metrics, words,...), we normalize the texts (stopwords, lemmatization,...) and we train and evaluate different classification models using the normalized data (logistic regression, neural networks, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). The best results are achieved using neural networks for the classification of political ideology, both binary and multiclass, and LGBM Classifier for profession and gender. We obtain results well, average f1-score of 0.869236, above those achieved by the baseline method of the original task.
Descripción
Categorías UNESCO
Palabras clave
procesamiento del lenguaje natural, clasificación de textos, algoritmos de clasificación, identificación ideología política, Natural Language Processing, text classification, classification algorithms, political ideology identification
Citación
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Inteligencia Artificial