Moreno Álvarez, SergioPaoletti, Mercedes EugeniaHaut, Juan MarioRico Gallego, Juan AntonioPlaza, JavierDíaz Martín, Juan CarlosVega Rodriguez, Miguel ángelPlaza Miguel, Antonio J.2024-11-152024-11-152019Sergio Moreno Álvarez, Mercedes Eugenia Paoletti Ávila, Juan Mario Haut Hurtado, Juan Antonio Rico Gallego, Javier Plaza, Juan Carlos Díaz Martín. "Evaluación de Rendimiento del Entrenamiento Distribuido de Redes Neuronales Profundas en Plataformas Heterogéneas". Actas Jornadas Sarteco 2019, Universidad de Extremadura, (132-140 páginas).9788409121274https://hdl.handle.net/20.500.14468/24386Actas de Jornadas SARTECO, Cáceres, 18 a 20 de septiembre de 2019|Asynchronous stochastic gradient descent es una tecnica de optimizacion comunmente utilizada en el entrenamiento distribuido de redes neuronales profundas. En distribuciones basadas en particionamiento de datos, se entrena una replica del modelo en cada unidad de procesamiento de la plataforma, utilizando conjuntos de muestras denominados mini-batches. Este es un proceso iterativo en el que al nal de cada mini-batch, las replicas combinan los gradientes calculados para actualizar su copia local de los parametros. Sin embargo, al utilizar asincronismo, las diferencias en el tiempo de entrenamiento por iteracion entre replicas provocan la aparicion del staleness, esto es, las replicas progresan a diferente velocidad y en el entrenamiento de cada replica se utiliza una vers on no actualizada de los parametros. Un alto gradde staleness tiene un impacto negativo en la precision del modelo resultante. Ademas, las plataformas de computacion de alto rendimiento suelen ser heterogeneas, compuestas por CPUs y GPUs de diferentes capacidades, lo que agrava el problema de staleness. En este trabajo, se propone aplicar t ecnicas de equilibrio de carga computacional, bien conocidas en el campo de la Computaci on de Altas Prestaciones, al entrenamiento distribuido de modelos profundos. A cada r eplica se asignar a un n umero de mini-batches en proporci on a su velocidad relativa. Los resultados experimentales obtenidos en una plataforma hete-rog enea muestran que, si bien la precisi on se mantiene constante, el rendimiento del entrenamiento aumenta considerablemente, o desde otro punto de vista, en el mismo tiempo de entrenamiento, se alcanza una mayor precisi on en las estimaciones del modelo. Discutimos las causas de tal incremento en el rendimiento y proponemos los pr oximos pasos para futuras investigaciones.esinfo:eu-repo/semantics/openAccess12 Matemáticas::1203 Ciencia de los ordenadores ::1203.17 InformáticaEvaluación de Rendimiento del Entrenamiento Distribuido de Redes Neuronales Profundas en Plataformas Heterogéneasactas de congresoAprendizaje ProfundoComputación de Altas PrestacionesEntrenamiento DistribuidoPlataformas HeterogéneasRedes Neuronales