Aplicación de algoritmos predictivos para la diferenciación de muestras alimentarias en base a su perfil químico

Aguilera Castro, David. (2022). Aplicación de algoritmos predictivos para la diferenciación de muestras alimentarias en base a su perfil químico Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
AguileraCastro_David_TFM.pdf AguileraCastro_David_TFM.pdf application/pdf 12.27MB

Título Aplicación de algoritmos predictivos para la diferenciación de muestras alimentarias en base a su perfil químico
Autor(es) Aguilera Castro, David
Resumen La metabolómica es una rama de la ciencia que se basa en el estudio de las pequeñas moléculas orgánicas, denominadas metabolitos, que se hallan presentes en un organismo o muestra biológica. El estudio de la composición química de determinadas muestras biológicas permite establecer comparativas e identificar los compuestos representativos de cada una de ellas. Así, la metabolómica permite determinar los compuestos que diferencian las muestras y, de esta forma, establecer los más singulares (biomarcadores) para identificar una característica o expresión determinadas. Dado que los experimentos de metabolómica producen grandes cantidades de datos, se necesitan herramientas estadísticas avanzadas que puedan efectuar un procesamiento adecuado de los mismos, mediante un manejo eficiente que permita preservar la información biológicamente relevante. El objetivo del presente trabajo ha sido desarrollar una herramienta estadística en R que permita implementar de manera sencilla y ágil los principales pretratamientos y análisis estadísticos utilizados en datos de metabolómica. Con objeto de simplificar el uso de la herramienta, se definió un flujo basado en pasos de procesamiento que pueden encadenarse y que aportan flexibilidad a la programación de pretratamientos. Una vez creada esta herramienta, se aplicó sobre datos del perfil volátil de vinos espumosos de diferente tipología (Andaluz, Cavas y Champagnes). Mediante esta herramienta se consiguió establecer un flujo de pretratamiento óptimo, obteniendo una matriz final de datos a la que poder aplicar distintas técnicas de machine learning: proyección sobre estructuras latentes-análisis discriminante (PLS-DA), k vecinos más próximos (k-NN), Random Forest (RF) y análisis discriminante lineal (LDA). Los métodos de análisis multivariante permitieron reducir la complejidad de la matriz de datos y sintetizar la información de cara a poder realizar una interpretación más sencilla. Los modelos permitieron clasificar las muestras de vinos en base a su perfil volátil y se identificaron los principales compuestos marcadores de cada tipología de vino. A su vez, se aplicaron técnicas de selección de características, optimización de hiperparámetros y procesos de validación cruzada para obtener una comparativa de los resultados de las métricas obtenidos por los diferentes clasificadores.
Abstract Metabolomics is a branch of science based on the study of small organic molecules, called metabolites, present in an organism or biological sample. The study of the chemical composition of certain biological samples makes it possible to establish comparisons and to identify the representative compounds of each sample. Thus, metabolomics allows to determine the compounds that differentiate the samples and, in this way, to establish the most representative ones (biomarkers) to identify a given characteristic or expression. Since metabolomics experiments produce large amounts of data, there is a need for advanced statistical tools that can perform adequate data processing, through efficient handling to preserve biologically relevant information. The aim of the present work was to develop a statistical tool in R that allows to implement in a simple and agile way the main statistical pre-treatments and analyses used with metabolomics data. In order to simplify the use of the tool, a flow was defined based on processing steps that can be chained and provide flexibility in the programming of pre-treatments. Once this tool was created, it was applied to data on the volatile profile of sparkling wines of different types (Andalusian, Cavas and Champagnes). By means of this tool, it was possible to find an optimal pre-treatment flow, obtaining a final data matrix to which different multivariate machine learning techniques could be applied: projection on latent structures - discriminant analysis (PLSDA), k nearest neighbours (k-NN), Random Forest (RF) and linear discriminant analysis (LDA). Multivariate analysis methods made it possible to reduce the complexity of the data matrix and to synthesise information for easier interpretation. The models allowed the wine samples to be classified on the basis of their volatile profile and the main marker compounds for each wine typology were identified. At the same time, feature selection techniques, hyperparameter tuning and cross-validation processes were applied to compare the different classifiers’ performance.
Notas adicionales Trabajo de Fin de Máster Universitario en Ingeniería y Ciencia de Datos. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor Pastor Vargas, Rafael
Muñoz Redondo, José Manuel
Fecha 2022-09-01
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-ICD-Daguilera
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-ICD-Daguilera
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 281 Visitas, 315 Descargas  -  Estadísticas en detalle
Creado: Thu, 20 Oct 2022, 22:40:20 CET