Detección de autoría mediante word embeddings estáticos

Gutiérrez Gómez, Juan Bosco. (2024). Detección de autoría mediante word embeddings estáticos Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Gutierrez_Gomez_Bosco_TFM.pdf Gutierrez Gomez_Bosco_TFM.pdf application/pdf 2.12MB

Título Detección de autoría mediante word embeddings estáticos
Autor(es) Gutiérrez Gómez, Juan Bosco
Resumen Vivimos en la era de la información donde la conectividad, la tecnología y las redes sociales han ido moldeando la forma en que nos relacionamos con la información y el uso que hacemos de ella. Uno de los mayores peligros y dificultades es poder discernir la veracidad del contenido, así como la fuente de la información. En noviembre de 2022, Open AI lanza la aplicación oficial ChatGPT, un modelo de lenguaje generado por inteligencia artificial (IA) generativa, que es el detonante del uso de esta tecnología a nivel general, consiguiendo, según Forbes, más de 100 millones de usuarios en menos de de 2 meses. Esta tecnología abre multitud de posibilidades como mejoras de productividad y calidad, automatización de tareas rutinarias y generación de contenidos de texto, audio o imágenes. Su adopción masiva en ámbitos como el trabajo o la educación y sus capacidades creativas ha generado controversia y mucho debate sobre los peligros de su uso. Algunos de estos miedos entran dentro del ámbito de la educación y del uso que los estudiantes e investigadores pueden hacer de esta herramienta a la hora de generar contenidos para sus trabajos, artículos,. . . El correcto funcionamiento de estos programas hace que sea casi imposible distinguirlos del resultado producido por un ser humano, al menos sin el uso de ninguna herramienta de detección. Este ya no es un problema de detección de plagio para el que existían programas que localizaban el origen de los extractos de texto y sus autores, sino que se incluye dentro de la apropiación de la autoría, entendiendo al autor como la IA generativa que crea el contenido. Nosotros nos planteamos estudiar cómo la representación distribuida en un espacio vectorial nos permite caracterizar un tipo de texto en función de la amplitud y variedad de vocabulario y su especificidad. Estas características deberían ser particulares de cada autor, lo cual nos lleva a profundizar en este planteamiento por el que una IA generativa también podría tener su propio perfil y distinguirse de otros autores. Esta metodología no pretende ser una herramienta que caracterice un texto de manera inequívoca por sí misma, pero si que complemente desde una nueva perspectiva a las distintas técnicas ya existentes para dotarlas de una mayor fiabilidad y precisión. Este trabajo se basa en la detección de autoría en textos mediante el estudio de la orientación semántica de las palabras que lo conforman.
Abstract We live in the information age where connectivity, technology and social media have been shaping how we relate to information and how we use it. One of the greatest dangers and difficulties is to be able to discern the veracity of the content as well as the source of the information. In November 2022, Open AI launched the official ChatGPT application, a language model generated by generative artificial intelligence, which is the trigger for the use of this technology at a general level, achieving, according to Forbes, more than 100 million users in less than 2 months. This technology opens up many possibilities such as productivity and quality improvements, automation of routine tasks, and generation of text, audio, or image content. Its massive adoption in areas such as work or education and its creative capabilities such as generating text, audio or image content, it has generated controversy and much debate about the dangers of its use. Some of these fears are framed in the educational or academic field and in the use that students and researchers can make of this tool when generating content for their works and articles. The correct functioning of these programs makes it almost impossible to distinguish them from the result produced by a human being, at least without the use of any detection tools. This is no longer just a problem of plagiarism detection, but also of impersonation, such as generative AI that creates the content. The objective of authorship attribution is the identification and assignment of documents to a specific author or authors based on their syntactic, morphological, lexical and semantic style. Its application is very diverse such as plagiarism detection, authorship verification, author profiling and prevention of identity theft. We propose studying how the representation distributed in a vector space allows us to characterize a type of text according to the amplitude and variety of vocabulary and its specificity. These characteristics should be specific to each author, which leads us to deepen this approach by which a generative AI could also have its profile and distinguish itself from other authors. This methodology is not intended to be a tool that characterizes a text unequivocally by itself, but rather complements, from a new perspective, the various existing techniques to provide them with greater reliability and precision. This work is based on the detection of authorship in texts by studying the semantic orientation of the words that comprise it.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor Fresno Fernández, Víctor
Rodrigo Yuste, Álvaro
Fecha 2024-02
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Bgutierrez
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Bgutierrez
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 72 Visitas, 36 Descargas  -  Estadísticas en detalle
Creado: Fri, 15 Mar 2024, 19:49:31 CET