Evaluación Comparativa de las Arquitecturas Mamba y Transformers

Trujillo Trujillo, Iván

Fecha

2024-09

Director/a

Pastor Vargas, Rafael
Cuadra Troncoso, José Manuel

Derechos de acceso

info:eu-repo/semantics/openAccess

Editorial

Universidad Nacional de Educación a Distancia (UNED). E.T.S. de Ingeniería Informática

Citas

0 citas en

Resumen

Este trabajo se enfoca en el estudio comparativo de las arquitecturas de redes neuronales basadas en Transformers, ampliamente utilizadas en la actualidad, y una nueva propuesta denominada Mamba, la cual promete mejorar las capacidades de las arquitecturas tradicionales. El objetivo es evaluar el rendimiento de Mamba en dos áreas principales: la clasificación de texto, específicamente en tuits sobre desastres naturales, y el aprendizaje por refuerzo en juegos de Atari. Se plantea una comparación teórica y práctica de las dos arquitecturas, analizando sus ventajas y desventajas, con el objetivo de determinar su viabilidad y utilidad en aplicaciones reales. Los experimentos llevados a cabo para evaluar Mamba en la tarea de clasificación de texto muestran que los modelos preentrenados disponibles actualmente carecen de la compresión de texto suficiente para rivalizar con modelos como GPT-3.5 o Llama-3. En el ámbito del aprendizaje por refuerzo, Mamba ha mostrado resultados prometedores, aunque todavía se encuentra por detrás de otras arquitecturas consolidadas. Aunque Mamba es una propuesta innovadora, aún requiere de más investigación y refinamiento para igualar o superar a las arquitecturas Transformer en tareas específicas.
This work focuses on the comparative study of neural network architectures based on Transformers, widely used today, and a new proposal called Mamba, which promises to enhance the capabilities of traditional architectures. The goal is to evaluate Mamba’s performance in two main areas: text classification, specifically in tweets about natural disasters, and reinforcement learning in Atari games. A theoretical and practical comparison of both architectures is proposed, analyzing their advantages and disadvantages to determine their feasibility and usefulness in real-world applications. The experiments conducted to evaluate Mamba in the text classification task show that the currently available pre-trained models lack sufficient text comprehension to rival models like GPT-3.5 or Llama-3. In the field of reinforcement learning, Mamba has shown promising results, although it still lags behind other established architectures. Although Mamba is an innovative proposal, it still requires further research and refinement to match or surpass Transformer architectures in specific tasks.

Palabras clave

redes neuronales, Mamba, Transformer, clasificación de texto, aprendizaje por refuerzo, neural networks, text classification, reinforcement learning

Citación

Trujillo Trujillo, Iván (2024) Evaluación Comparativa de las Arquitecturas Mamba y Transformers. Trabajo Fin de Máster. Universidad Nacional de Educación a Distancia (UNED)

Centro

E.T.S. de Ingeniería Informática

Departamento

Sistemas de Comunicación y Control

Handle

https://hdl.handle.net/20.500.14468/24144

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editorial

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Datos de investigación relacionados

Handle

DOI

Colecciones