Publicación:
Clasificación de ideología política en textos

dc.contributor.authorPérez González, Juan Carlos
dc.date.accessioned2024-05-20T12:37:02Z
dc.date.available2024-05-20T12:37:02Z
dc.date.issued2022-09-01
dc.description.abstractEl presente trabajo nos permite explorar las posibilidades de clasificación de textos de forma automática, teniendo como objetivo principal detectar la ideología política de los autores a partir de sus textos (obtenidos de la red social Twitter). Partimos de los datos publicados en la competición “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology. La colección de la tarea recopila tweets publicados ....fueron recopilados durante 2020 y 2021 de las cuentas de Twitter de políticos y periodistas políticos en donde las menciones a cuentas de Twitter y a partidos políticos han sido anonimizadas. La tarea se aborda desde una perspectiva de procesamiento del lenguaje natural, donde llevamos a cabo una exploración inicial de los textos de entrada (analizando métricas, palabras empleadas, …), una normalización de los textos (eliminación de stopwords, lemmatizacion, ...) y a partir de los datos normalizados se entrenan y evalúan distintos modelos de clasificación (regresión logística, redes neuronales, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). Los mejores resultados se consiguen empleando redes neuronales para la clasificación de la ideología política tanto binaria como multiclase y LGBM Classifier para la profesión y el género y por lo general, obtenemos un f1-score promedio de 0.869236, bastante por encima de los alcanzados por el método baseline de la tarea original.es
dc.description.abstractThis research allows us explore the possibilities of classifying texts automatically. The main target is detecting the political ideology of the authors from their texts (tweets from the social network Twitter), based on the data from challege “IberLEF 2022 Task PoliticEs. Spanish Author Profiling for Political Ideology”. The dataset was collected during 2020 and 2021 from the Twitter accounts of politicians and political journalists in Spain, where the Twitter accounts of the politicians and political parties were anonymised. The task is approached from a natural language processing perspective. We carry out an initial exploration of the input texts (analyzing metrics, words,...), we normalize the texts (stopwords, lemmatization,...) and we train and evaluate different classification models using the normalized data (logistic regression, neural networks, SVM, Random Forest, LGBM Classifier, BERT, MLPClassifier). The best results are achieved using neural networks for the classification of political ideology, both binary and multiclass, and LGBM Classifier for profession and gender. We obtain results well, average f1-score of 0.869236, above those achieved by the baseline method of the original task.en
dc.description.versionversión final
dc.identifier.urihttps://hdl.handle.net/20.500.14468/14617
dc.language.isoes
dc.publisherUniversidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
dc.relation.centerE.T.S. de Ingeniería Informática
dc.relation.departmentInteligencia Artificial
dc.rightsAtribución-NoComercial-SinDerivadas 4.0 Internacional
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subject.keywordsprocesamiento del lenguaje natural
dc.subject.keywordsclasificación de textos
dc.subject.keywordsalgoritmos de clasificación
dc.subject.keywordsidentificación ideología política
dc.subject.keywordsNatural Language Processing
dc.subject.keywordstext classification
dc.subject.keywordsclassification algorithms
dc.subject.keywordspolitical ideology identification
dc.titleClasificación de ideología política en textoses
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
relation.isAuthorOfPublication4e68c35a-c79e-44cd-8efb-99bec46ae2e8
relation.isAuthorOfPublication.latestForDiscovery4e68c35a-c79e-44cd-8efb-99bec46ae2e8
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
PerezGonzalez_JuanCarlos_TFM.pdf
Tamaño:
2.79 MB
Formato:
Adobe Portable Document Format