Publicación:
Evaluación Comparativa de las Arquitecturas Mamba y Transformers

dc.contributor.authorTrujillo Trujillo, Iván
dc.contributor.directorPastor Vargas, Rafael
dc.contributor.directorCuadra Troncoso, Jose Manuel
dc.date.accessioned2024-10-28T12:45:02Z
dc.date.available2024-10-28T12:45:02Z
dc.date.issued2024-09
dc.description.abstractEste trabajo se enfoca en el estudio comparativo de las arquitecturas de redes neuronales basadas en Transformers, ampliamente utilizadas en la actualidad, y una nueva propuesta denominada Mamba, la cual promete mejorar las capacidades de las arquitecturas tradicionales. El objetivo es evaluar el rendimiento de Mamba en dos áreas principales: la clasificación de texto, específicamente en tuits sobre desastres naturales, y el aprendizaje por refuerzo en juegos de Atari. Se plantea una comparación teórica y práctica de las dos arquitecturas, analizando sus ventajas y desventajas, con el objetivo de determinar su viabilidad y utilidad en aplicaciones reales. Los experimentos llevados a cabo para evaluar Mamba en la tarea de clasificación de texto muestran que los modelos preentrenados disponibles actualmente carecen de la compresión de texto suficiente para rivalizar con modelos como GPT-3.5 o Llama-3. En el ámbito del aprendizaje por refuerzo, Mamba ha mostrado resultados prometedores, aunque todavía se encuentra por detrás de otras arquitecturas consolidadas. Aunque Mamba es una propuesta innovadora, aún requiere de más investigación y refinamiento para igualar o superar a las arquitecturas Transformer en tareas específicas.es
dc.description.abstractThis work focuses on the comparative study of neural network architectures based on Transformers, widely used today, and a new proposal called Mamba, which promises to enhance the capabilities of traditional architectures. The goal is to evaluate Mamba’s performance in two main areas: text classification, specifically in tweets about natural disasters, and reinforcement learning in Atari games. A theoretical and practical comparison of both architectures is proposed, analyzing their advantages and disadvantages to determine their feasibility and usefulness in real-world applications. The experiments conducted to evaluate Mamba in the text classification task show that the currently available pre-trained models lack sufficient text comprehension to rival models like GPT-3.5 or Llama-3. In the field of reinforcement learning, Mamba has shown promising results, although it still lags behind other established architectures. Although Mamba is an innovative proposal, it still requires further research and refinement to match or surpass Transformer architectures in specific tasks.en
dc.identifier.citationTrujillo Trujillo, Iván (2024) Evaluación Comparativa de las Arquitecturas Mamba y Transformers. Trabajo Fin de Máster. Universidad de Educación a Distancia (UNED)
dc.identifier.urihttps://hdl.handle.net/20.500.14468/24144
dc.language.isoes
dc.publisherUniversidad de Educación a Distancia (UNED)
dc.relation.centerFacultades y escuelas::E.T.S. de Ingeniería Informática
dc.relation.degreeMáster universitario en Ingeniería y Ciencia de Datos
dc.relation.departmentSistemas de Comunicación y Control
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject12 Matemáticas::1203 Ciencia de los ordenadores ::1203.17 Informática
dc.subject.keywordsredes neuronaleses
dc.subject.keywordsMambaes
dc.subject.keywordsTransformeren
dc.subject.keywordsclasificación de textoes
dc.subject.keywordsaprendizaje por refuerzoes
dc.subject.keywordsneural networksen
dc.subject.keywordstext classificationen
dc.subject.keywordsreinforcement learningen
dc.titleEvaluación Comparativa de las Arquitecturas Mamba y Transformerses
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
TrujilloTrujillo_Ivan_TFM.pdf
Tamaño:
1.6 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.62 KB
Formato:
Item-specific license agreed to upon submission
Descripción: