Publicación: Evaluación Comparativa de las Arquitecturas Mamba y Transformers
Fecha
2024-09
Autores
Editor/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Educación a Distancia (UNED)
Resumen
Este trabajo se enfoca en el estudio comparativo de las arquitecturas de redes neuronales basadas en Transformers, ampliamente utilizadas en la actualidad, y una nueva propuesta denominada Mamba, la cual promete mejorar las capacidades de las arquitecturas tradicionales. El objetivo es evaluar el rendimiento de Mamba en dos áreas principales: la clasificación de texto, específicamente en tuits sobre desastres naturales, y el aprendizaje por refuerzo en juegos de Atari. Se plantea una comparación teórica y práctica de las dos arquitecturas, analizando sus ventajas y desventajas, con el objetivo de determinar su viabilidad y utilidad en aplicaciones reales. Los experimentos llevados a cabo para evaluar Mamba en la tarea de clasificación de texto muestran que los modelos preentrenados disponibles actualmente carecen de la compresión de texto suficiente para rivalizar con modelos como GPT-3.5 o Llama-3.
En el ámbito del aprendizaje por refuerzo, Mamba ha mostrado resultados prometedores, aunque todavía se encuentra por detrás de otras arquitecturas consolidadas. Aunque Mamba es una propuesta innovadora, aún requiere de más investigación y refinamiento para igualar o superar a las arquitecturas Transformer en tareas específicas.
This work focuses on the comparative study of neural network architectures based on Transformers, widely used today, and a new proposal called Mamba, which promises to enhance the capabilities of traditional architectures. The goal is to evaluate Mamba’s performance in two main areas: text classification, specifically in tweets about natural disasters, and reinforcement learning in Atari games. A theoretical and practical comparison of both architectures is proposed, analyzing their advantages and disadvantages to determine their feasibility and usefulness in real-world applications. The experiments conducted to evaluate Mamba in the text classification task show that the currently available pre-trained models lack sufficient text comprehension to rival models like GPT-3.5 or Llama-3. In the field of reinforcement learning, Mamba has shown promising results, although it still lags behind other established architectures. Although Mamba is an innovative proposal, it still requires further research and refinement to match or surpass Transformer architectures in specific tasks.
This work focuses on the comparative study of neural network architectures based on Transformers, widely used today, and a new proposal called Mamba, which promises to enhance the capabilities of traditional architectures. The goal is to evaluate Mamba’s performance in two main areas: text classification, specifically in tweets about natural disasters, and reinforcement learning in Atari games. A theoretical and practical comparison of both architectures is proposed, analyzing their advantages and disadvantages to determine their feasibility and usefulness in real-world applications. The experiments conducted to evaluate Mamba in the text classification task show that the currently available pre-trained models lack sufficient text comprehension to rival models like GPT-3.5 or Llama-3. In the field of reinforcement learning, Mamba has shown promising results, although it still lags behind other established architectures. Although Mamba is an innovative proposal, it still requires further research and refinement to match or surpass Transformer architectures in specific tasks.
Descripción
Categorías UNESCO
Palabras clave
redes neuronales, Mamba, Transformer, clasificación de texto, aprendizaje por refuerzo, neural networks, text classification, reinforcement learning
Citación
Trujillo Trujillo, Iván (2024) Evaluación Comparativa de las Arquitecturas Mamba y Transformers. Trabajo Fin de Máster. Universidad de Educación a Distancia (UNED)
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Sistemas de Comunicación y Control