Clasificación de ideología política en textos

Pérez González, Juan Carlos. (2022). Clasificación de ideología política en textos Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
PerezGonzalez_JuanCarlos_TFM.pdf PerezGonzalez_JuanCarlos_TFM.pdf application/pdf 2.79MB

Título Clasificación de ideología política en textos
Autor(es) Pérez González, Juan Carlos
Resumen El presente trabajo nos permite explorar las posibilidades de clasificación de textos de forma automática, teniendo como objetivo principal detectar la ideología política de los autores a partir de sus textos (obtenidos de la red social Twitter). Partimos de los datos publicados en la competición “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology. La colección de la tarea recopila tweets publicados ....fueron recopilados durante 2020 y 2021 de las cuentas de Twitter de políticos y periodistas políticos en donde las menciones a cuentas de Twitter y a partidos políticos han sido anonimizadas. La tarea se aborda desde una perspectiva de procesamiento del lenguaje natural, donde llevamos a cabo una exploración inicial de los textos de entrada (analizando métricas, palabras empleadas, …), una normalización de los textos (eliminación de stopwords, lemmatizacion, ...) y a partir de los datos normalizados se entrenan y evalúan distintos modelos de clasificación (regresión logística, redes neuronales, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). Los mejores resultados se consiguen empleando redes neuronales para la clasificación de la ideología política tanto binaria como multiclase y LGBM Classifier para la profesión y el género y por lo general, obtenemos un f1-score promedio de 0.869236, bastante por encima de los alcanzados por el método baseline de la tarea original.
Abstract This research allows us explore the possibilities of classifying texts automatically. The main target is detecting the political ideology of the authors from their texts (tweets from the social network Twitter), based on the data from challege “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology”. The dataset was collected during 2020 and 2021 from the Twitter accounts of politicians and political journalists in Spain, where the Twitter accounts of the politicians and political parties were anonymised. The task is approached from a natural language processing perspective. We carry out an initial exploration of the input texts (analyzing metrics, words,...), we normalize the texts (stopwords, lemmatization,...) and we train and evaluate different classification models using the normalized data (logistic regression, neural networks, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). The best results are achieved using neural networks for the classification of political ideology, both binary and multiclass, and LGBM Classifier for profession and gender. We obtain results well, average f1-score of 0.869236, above those achieved by the baseline method of the original task.
Notas adicionales Trabajo de Fin de Máster Universitario en Ingeniería y Ciencia de Datos. UNED
Materia(s) Ingeniería Informática
Palabra clave procesamiento del lenguaje natural
clasificación de textos
algoritmos de clasificación
identificación ideología política
Natural Language Processing
text classification
classification algorithms
political ideology identification
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor Rodrigo Yuste, Álvaro
Centeno Sanchez, Roberto
Fecha 2022-09-01
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-ICD-Jcperez
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-ICD-Jcperez
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 317 Visitas, 179 Descargas  -  Estadísticas en detalle
Creado: Mon, 24 Oct 2022, 22:34:58 CET