Detección de autoría mediante word embeddings estáticos

Gutiérrez Gómez, Juan Bosco

Fecha

2024-02

Derechos de acceso

info:eu-repo/semantics/openAccess

Editorial

Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Citas

0 citas en

Resumen

Vivimos en la era de la información donde la conectividad, la tecnología y las redes sociales han ido moldeando la forma en que nos relacionamos con la información y el uso que hacemos de ella. Uno de los mayores peligros y dificultades es poder discernir la veracidad del contenido, así como la fuente de la información. En noviembre de 2022, Open AI lanza la aplicación oficial ChatGPT, un modelo de lenguaje generado por inteligencia artificial (IA) generativa, que es el detonante del uso de esta tecnología a nivel general, consiguiendo, según Forbes, más de 100 millones de usuarios en menos de de 2 meses. Esta tecnología abre multitud de posibilidades como mejoras de productividad y calidad, automatización de tareas rutinarias y generación de contenidos de texto, audio o imágenes. Su adopción masiva en ámbitos como el trabajo o la educación y sus capacidades creativas ha generado controversia y mucho debate sobre los peligros de su uso. Algunos de estos miedos entran dentro del ámbito de la educación y del uso que los estudiantes e investigadores pueden hacer de esta herramienta a la hora de generar contenidos para sus trabajos, artículos,. . . El correcto funcionamiento de estos programas hace que sea casi imposible distinguirlos del resultado producido por un ser humano, al menos sin el uso de ninguna herramienta de detección. Este ya no es un problema de detección de plagio para el que existían programas que localizaban el origen de los extractos de texto y sus autores, sino que se incluye dentro de la apropiación de la autoría, entendiendo al autor como la IA generativa que crea el contenido. Nosotros nos planteamos estudiar cómo la representación distribuida en un espacio vectorial nos permite caracterizar un tipo de texto en función de la amplitud y variedad de vocabulario y su especificidad. Estas características deberían ser particulares de cada autor, lo cual nos lleva a profundizar en este planteamiento por el que una IA generativa también podría tener su propio perfil y distinguirse de otros autores. Esta metodología no pretende ser una herramienta que caracterice un texto de manera inequívoca por sí misma, pero si que complemente desde una nueva perspectiva a las distintas técnicas ya existentes para dotarlas de una mayor fiabilidad y precisión. Este trabajo se basa en la detección de autoría en textos mediante el estudio de la orientación semántica de las palabras que lo conforman.
We live in the information age where connectivity, technology and social media have been shaping how we relate to information and how we use it. One of the greatest dangers and difficulties is to be able to discern the veracity of the content as well as the source of the information. In November 2022, Open AI launched the official ChatGPT application, a language model generated by generative artificial intelligence, which is the trigger for the use of this technology at a general level, achieving, according to Forbes, more than 100 million users in less than 2 months. This technology opens up many possibilities such as productivity and quality improvements, automation of routine tasks, and generation of text, audio, or image content. Its massive adoption in areas such as work or education and its creative capabilities such as generating text, audio or image content, it has generated controversy and much debate about the dangers of its use. Some of these fears are framed in the educational or academic field and in the use that students and researchers can make of this tool when generating content for their works and articles. The correct functioning of these programs makes it almost impossible to distinguish them from the result produced by a human being, at least without the use of any detection tools. This is no longer just a problem of plagiarism detection, but also of impersonation, such as generative AI that creates the content. The objective of authorship attribution is the identification and assignment of documents to a specific author or authors based on their syntactic, morphological, lexical and semantic style. Its application is very diverse such as plagiarism detection, authorship verification, author profiling and prevention of identity theft. We propose studying how the representation distributed in a vector space allows us to characterize a type of text according to the amplitude and variety of vocabulary and its specificity. These characteristics should be specific to each author, which leads us to deepen this approach by which a generative AI could also have its profile and distinguish itself from other authors. This methodology is not intended to be a tool that characterizes a text unequivocally by itself, but rather complements, from a new perspective, the various existing techniques to provide them with greater reliability and precision. This work is based on the detection of authorship in texts by studying the semantic orientation of the words that comprise it.

Citación

Gutiérrez Gómez, Juan Bosco (2024). Detección de autoría mediante word embeddings estáticos. Trabajo Fin de Máster. Universidad Nacional de Educación a Distancia (UNED)

Centro

E.T.S. de Ingeniería Informática

Departamento

Lenguajes y Sistemas Informáticos

Handle

https://hdl.handle.net/20.500.14468/22601

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editorial

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Datos de investigación relacionados

Handle

DOI

Colecciones