Detection of toxicity in social media. A study on semantic orientation and linguistic structure

Nogués Graell, Jordina. (2022). Detection of toxicity in social media. A study on semantic orientation and linguistic structure Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
NoguesGraell_JordinaTFM.pdf NoguesGraell_JordinaTFM.pdf application/pdf 789.81KB

Título Detection of toxicity in social media. A study on semantic orientation and linguistic structure
Autor(es) Nogués Graell, Jordina
Resumen Las redes sociales han crecido mucho en popularidad recientemente y esto ha permitido a los usuarios estar conectados con sus amigos y familiares, además de permitirles encontrar nuevos contactos tanto en el área personal como en la académica o personal. No cabe duda de que los beneficios de las redes sociales durante la pandemia de COVID-19 fueron increíbles, ya que permitieron un entorno virtual para encuentros sociales. Sin embargo, las redes sociales tienen una cara oscura que se muestra en forma de contenido tóxico. Esta toxicidad que está presente en muchas redes sociales ha alarmado tanto a los usuarios como a los investigadores y las compañías y por ello se ha dado un incremento en los estudios y trabajos relacionados con la detección y prevención de la toxicidad en las redes sociales. Aunque no es fácil de describir qué se entiendo por tóxico, la comunidad científica ha trabajado según su propio entendimiento de lo que abarca el término o según sus necesidades a cubrir para definir lo que se entiende por tóxico y qué formas de contenido tóxico existen en línea, además de cómo detectar la toxicidad utilizando diferentes aproximaciones de machine learning. Este trabajo se basa en la detección de toxicidad en las redes sociales y se centra en el uso del sesgo en la orientación semántica y la estructura lingüística de los mensajes para detectar contenido tóxico. En concreto, nos basamos en el término anisotropía: el significado de los vectores de palabras se distribuye según una orientación particular en el espacio semántico. Por ello, utilizamos embeddings estáticos (Static Word Emgeddings), ya que permiten mantener las propiedades semánticas del significado de las palabras que representan. Siguiendo esta idea hemos realizado varios experimentos en proximidad vectorial y proximidad de orientación para determinar y predecir contenido tóxico. El segundo pilar de este trabajo se basa en explorar si la estructura lingüística influencia la detección de contenido tóxico. Es decir, si hay categorías gramaticales o estructuras lingüísticas que tienen un impacto en la detección de la toxicidad y cómo se pueden crear vectores de frase mediante composición para abordar este mismo proceso a nivel de frases. Para ello, hemos realizado iv diferentes experimentos para demostrar qué estructura lingüística era más relevante para tener en cuenta. A nivel de palabra, hemos seleccionado los sustantivos, además de excluir las stopwords (ya que presentan sesgos inherentes en la orientación semántica); a nivel de frase, hemos compuesto los vectores de las palabras de manera linear utilizando una función de promedio general (global average), que nos ha permitido calcular el vector promedio de los vectores de las palabras que componen la frase para obtener el vector de la frase. Los resultados obtenidos de esta investigación nos han permitido afirmar que el contenido tóxico presenta una orientación direccional en el espacio semántico, además de permitirnos demostrar que la estructura lingüística también juega un papel relevante en este tipo de contenido.
Abstract Social networks’ astonishing increase in popularity allowed users to be connected to their friends and family, in addition to being able to make new connections, either in the personal, in the academic or in the professional area. It is not to doubt the benefits that social media had during the COVID-19 pandemic, as it allowed a virtual environment for meetings and social interactions. However, social networks have a dark side which can be appreciated in forms of toxic content. This toxicity present in all kinds of social media platforms raised a warning for users, researchers, and companies, and that is why there has been an increase of studies and works related to detection and prevention of toxicity in social networks. Although the term toxic is not an easy one to describe, the research community worked based on their understanding or needs to define what we understand by toxic, what forms of toxic content are present online, and how to detect it using several Machine Learning approaches. This work is based on toxicity detection on social media and focuses on the use of semantic orientation bias and linguistic structure of the messages to detect toxic content. More particularly, it is based on the term anisotropy, meaning that the word vectors are distributed through the multidimensional space oriented in a particular direction. For this reason, we are using Static Word Embeddings, as they maintain the semantic properties of the meaning of the words they represent. We performed experiments on vector proximity and orientation proximity, which allowed us to check if we could predict new toxic messages using these factors. The second foundation of this work is to explore if linguistic structure influences in detecting toxic content. As say, if there are some words, categories or linguistic structure that have more impact in the process of toxicity detection, and how can we compound sentence vectors to address this same issue in sentence level. We performed several experiments that illustrated which linguistic content was more relevant to consider. At word level, we selected Nouns and excluded stopwords (as they present some inherent semantic orientation bias), and at sentence level we performed the Composition process in a linear way using a simple global average composition function, which calculated the average of all the vectors that compound the sentence to obtain a sentence vector. The results allowed us to confirm that toxic content indeed shows orientation direction bias towards the same semantic space and that linguistic structure plays a role in such content.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor Fresno Fernández, Víctor
Fecha 2022-09-01
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Jnogues
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Jnogues
Idioma eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 375 Visitas, 202 Descargas  -  Estadísticas en detalle
Creado: Fri, 13 Jan 2023, 21:29:33 CET