Hutton, Alexander Richard2025-10-022025-10-022025-09Hutton, Alexander Richard. Trabajo Fin de Máster: "Detection of authorship in texts by multiple authors". Universidad Nacional de Educación a Distancia (UNED), 2025https://hdl.handle.net/20.500.14468/30315El objetivo de este trabajo de fin de máster es la identificación de autoría en artículos escritos por múltiples autores. Este trabajo establece un conjunto novedoso de características que son independientes del idioma y del tema tratado y que se obtienen, no del contenido sintáctico o léxico del documento, sino a partir de como un autor individual lo escribe utilizando el sistema de composición de textos LATEX. Como base de la investigación se crea una base de artículos científicos en la cual el contenido de cada artículo está disponible en forma de chero de código fuente de LATEXy también en una versión de texto simple sin los comandos de LATEX. Se implementa un algoritmo preexistente disponible en la literatura científica para la identificación de autoría en artículos escritos por múltiples autores que usa características léxicas y sintácticas y se adapta para usar las características basadas en LATEX . Primero se establece una referencia aplicando el algoritmo con características léxicas y sintácticas, y después el algoritmo se evalúa una segunda vez con características LATEX . Finalmente se comparan los resultados de los dos tipos de características. Los resultados muestran que las características basados en LATEX son eficaces en la identificación de los autores de tramos de texto dentro de un documento largo y que su uso en la identificación de autoría en artículos escritos por múltiples autores dan resultados comparables a los basados en características estilométricas tradicionales, aunque no alcanzan la misma precisión.The subject of this master's thesis is authorship identification in articles written by multiple authors. This work establishes an original set of features that are independent of language and topic, and which are not derived from the syntactic or lexical content of a document, but instead from how an individual author writes a document using the LaTeX typesetting system. To support the investigation, a dataset of scientific articles is created in which each article is available both in its LaTeX source files and in a plain text version with the markup removed. An existing framework published in the literature for multi-author authorship identification, which uses lexical and syntactic features, is implemented and adapted to use the LaTeX source-derived features. A baseline is first established by applying the framework using lexical and syntactic features. It is then evaluated a second time using the LaTeX-based features, and the results obtained from both types of features are compared. The results show that the LaTeX-based features are effective in identifying the author of sections of text within a large document, and that their use in multi-author authorship identification yields results comparable to those obtained using traditional stylometric features, although not quite reaching the same level of accuracy.esinfo:eu-repo/semantics/openAccess1203.17 InformáticaDetection of authorship in texts by multiple authorstesis de maestríadocumentos con múltiples autoríasidentificación de autoríaestilometríaLATEXgráfico de co-autoríamulti-author documentsauthorship identificationstylometryLATEXco-authorship graph