Publicación:
Detection of toxicity in social media. A study on semantic orientation and linguistic structure

Cargando...
Miniatura
Fecha
2022-09-01
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Proyectos de investigación
Unidades organizativas
Número de la revista
Resumen
Las redes sociales han crecido mucho en popularidad recientemente y esto ha permitido a los usuarios estar conectados con sus amigos y familiares, además de permitirles encontrar nuevos contactos tanto en el área personal como en la académica o personal. No cabe duda de que los beneficios de las redes sociales durante la pandemia de COVID-19 fueron increíbles, ya que permitieron un entorno virtual para encuentros sociales. Sin embargo, las redes sociales tienen una cara oscura que se muestra en forma de contenido tóxico. Esta toxicidad que está presente en muchas redes sociales ha alarmado tanto a los usuarios como a los investigadores y las compañías y por ello se ha dado un incremento en los estudios y trabajos relacionados con la detección y prevención de la toxicidad en las redes sociales. Aunque no es fácil de describir qué se entiendo por tóxico, la comunidad científica ha trabajado según su propio entendimiento de lo que abarca el término o según sus necesidades a cubrir para definir lo que se entiende por tóxico y qué formas de contenido tóxico existen en línea, además de cómo detectar la toxicidad utilizando diferentes aproximaciones de machine learning. Este trabajo se basa en la detección de toxicidad en las redes sociales y se centra en el uso del sesgo en la orientación semántica y la estructura lingüística de los mensajes para detectar contenido tóxico. En concreto, nos basamos en el término anisotropía: el significado de los vectores de palabras se distribuye según una orientación particular en el espacio semántico. Por ello, utilizamos embeddings estáticos (Static Word Emgeddings), ya que permiten mantener las propiedades semánticas del significado de las palabras que representan. Siguiendo esta idea hemos realizado varios experimentos en proximidad vectorial y proximidad de orientación para determinar y predecir contenido tóxico. El segundo pilar de este trabajo se basa en explorar si la estructura lingüística influencia la detección de contenido tóxico. Es decir, si hay categorías gramaticales o estructuras lingüísticas que tienen un impacto en la detección de la toxicidad y cómo se pueden crear vectores de frase mediante composición para abordar este mismo proceso a nivel de frases. Para ello, hemos realizado iv diferentes experimentos para demostrar qué estructura lingüística era más relevante para tener en cuenta. A nivel de palabra, hemos seleccionado los sustantivos, además de excluir las stopwords (ya que presentan sesgos inherentes en la orientación semántica); a nivel de frase, hemos compuesto los vectores de las palabras de manera linear utilizando una función de promedio general (global average), que nos ha permitido calcular el vector promedio de los vectores de las palabras que componen la frase para obtener el vector de la frase. Los resultados obtenidos de esta investigación nos han permitido afirmar que el contenido tóxico presenta una orientación direccional en el espacio semántico, además de permitirnos demostrar que la estructura lingüística también juega un papel relevante en este tipo de contenido.
Social networks’ astonishing increase in popularity allowed users to be connected to their friends and family, in addition to being able to make new connections, either in the personal, in the academic or in the professional area. It is not to doubt the benefits that social media had during the COVID-19 pandemic, as it allowed a virtual environment for meetings and social interactions. However, social networks have a dark side which can be appreciated in forms of toxic content. This toxicity present in all kinds of social media platforms raised a warning for users, researchers, and companies, and that is why there has been an increase of studies and works related to detection and prevention of toxicity in social networks. Although the term toxic is not an easy one to describe, the research community worked based on their understanding or needs to define what we understand by toxic, what forms of toxic content are present online, and how to detect it using several Machine Learning approaches. This work is based on toxicity detection on social media and focuses on the use of semantic orientation bias and linguistic structure of the messages to detect toxic content. More particularly, it is based on the term anisotropy, meaning that the word vectors are distributed through the multidimensional space oriented in a particular direction. For this reason, we are using Static Word Embeddings, as they maintain the semantic properties of the meaning of the words they represent. We performed experiments on vector proximity and orientation proximity, which allowed us to check if we could predict new toxic messages using these factors. The second foundation of this work is to explore if linguistic structure influences in detecting toxic content. As say, if there are some words, categories or linguistic structure that have more impact in the process of toxicity detection, and how can we compound sentence vectors to address this same issue in sentence level. We performed several experiments that illustrated which linguistic content was more relevant to consider. At word level, we selected Nouns and excluded stopwords (as they present some inherent semantic orientation bias), and at sentence level we performed the Composition process in a linear way using a simple global average composition function, which calculated the average of all the vectors that compound the sentence to obtain a sentence vector. The results allowed us to confirm that toxic content indeed shows orientation direction bias towards the same semantic space and that linguistic structure plays a role in such content.
Descripción
Categorías UNESCO
Palabras clave
Citación
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Lenguajes y Sistemas Informáticos
Grupo de investigación
Grupo de innovación
Programa de doctorado
Cátedra
DOI