Publicación:
Evaluación del rendimiento de algoritmos sobre frameworks Hadoop y Spark

dc.contributor.authorCañada Rostro, Carlos
dc.contributor.directorPastor Vargas, Rafael
dc.contributor.directorHaut Hurtado, Juan Mario
dc.date.accessioned2024-10-25T12:00:02Z
dc.date.available2024-10-25T12:00:02Z
dc.date.issued2024-09
dc.description.abstractBig Data e inteligencia artificial son conceptos que están a la orden del día en la actualidad, pero cómo funcionan internamente es una incógnita para la mayoría de la sociedad, por ello en este documento se busca esclarecer dichos términos y como consecuencia entender y evaluar distintas metodologías que llevan a su utilización. Para ello, se cuenta con frameworks como Apache Hadoop o Apache Spark, los cuales brindan la posibilidad de procesar grandes cantidades de datos distribuyéndolos en diferentes máquinas para su procesamiento. Como parte del análisis, se comparará la eficiencia de ambos frameworks, no solo en términos de tiempo de ejecución, sino también en el uso de recursos como CPU, memoria y red, proporcionando una evaluación más exhaustiva de su rendimiento en un entorno distribuido. Como caso práctico en este trabajo, se utilizarán datos de imágenes por satélite, las cuales pueden alcanzar un tamaño considerable haciendo imposible siquiera su apertura en una configuración local, mucho menos su procesamiento. Estas imágenes, a diferencia de las que son utilizadas continuamente cuentan con más de tres bandas de color (RGB), es decir, son multibanda o multiespectrales, permitiendo realizar una serie de cálculos sobre ellas realmente útiles en el ámbito de la teledetección. Además, los resultados obtenidos tras el procesamiento de estas imágenes podrán ser visualizados y empleados para la toma de decisiones en áreas como la agricultura de precisión o el monitoreo ambiental, subrayando el valor práctico de la información extraída. La metodología a seguir será el desarrollo y puesta en marcha de una infraestructura capaz de cargar ingentes cantidades de datos, distribuirlos en un clúster compuesto por varias máquinas, realizar el cálculo pertinente de manera distribuida y recuperar el resultado final. Además de probar y evaluar los dos frameworks mencionados anteriormente, se utilizarán herramientas y plataformas extra como Apache Hive y Amazon Web Services, proporcionando un entorno robusto y escalable para manejar grandes volúmenes de datos.es
dc.description.abstractBig Data and artificial intelligence are concepts that are highly relevant today, but how they work internally remains a mystery to most of society. Therefore, this document seeks to clarify these terms and, as a result, understand and evaluate different methodologies that lead to their use. For this purpose, frameworks such as Apache Hadoop and Apache Spark will be utilized, which offer the possibility of processing large amounts of data by distributing them across different machines for processing. As part of the analysis, the efficiency of both frameworks will be compared, not only in terms of execution time but also in resource usage, such as CPU, memory, and network, providing a more comprehensive assessment of their performance in a distributed environment. As a practical case study in this work, satellite imagery data will be used, which can reach a considerable size, making it impossible to even open them in a local configuration, let alone process them. These images, unlike those commonly used, have more than three color bands (RGB), that is, they are multiband or multispectral, allowing a series of calculations to be performed on them that are highly useful in the field of remote sensing. Additionally, the results obtained after processing these images can be visualized and employed for decision-making in areas such as precision agriculture or environmental monitoring, highlighting the practical value of the extracted information. The methodology to be followed will involve the development and implementation of an infrastructure capable of loading vast amounts of data, distributing them across a cluster composed of several machines, performing the relevant calculations in a distributed manner, and retrieving the final result. In addition to testing and evaluating the two frameworks mentioned earlier, additional tools and platforms such as Apache Hive and Amazon Web Services will be used, providing a robust and scalable environment for handling large volumes of data.en
dc.identifier.citationCañada Rostro, Carlos (2024) Evaluación del rendimiento de algoritmos sobre frameworks Hadoop y Spark. Trabajo Fin de Máster. Universidad de Educación a Distancia (UNED)
dc.identifier.urihttps://hdl.handle.net/20.500.14468/24119
dc.language.isoes
dc.publisherUniversidad de Educación a Distancia (UNED)
dc.relation.centerFacultades y escuelas::E.T.S. de Ingeniería Informática
dc.relation.degreeMáster universitario en Ingeniería y Ciencia de Datos
dc.relation.departmentSistemas de Comunicación y Control
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject12 Matemáticas::1203 Ciencia de los ordenadores ::1203.17 Informática
dc.subject.keywordsApacheen
dc.subject.keywordsHadoopen
dc.subject.keywordsSparken
dc.subject.keywordsHiveen
dc.subject.keywordsAWSen
dc.titleEvaluación del rendimiento de algoritmos sobre frameworks Hadoop y Sparkes
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
CañadaRostro_Carlos_TFM.pdf
Tamaño:
2.52 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.62 KB
Formato:
Item-specific license agreed to upon submission
Descripción: