Big Data Clustering

Tizón Galisteo, Daniel

Fecha

2017-07-07

Director/a

Sarro Baro, Luis Manuel

Derechos de acceso

info:eu-repo/semantics/openAccess

Editor

Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Citas

0 citas en

Resumen

En este trabajo he realizado una investigación sobre algoritmos de clusterización que tienen órdenes de complejidad lineales o logarítmicos respecto al tiempo de ejecución, y que pueden ser paralelizables, y por tanto nos permitan trabajar con grandes cantidades de datos. Además, hay que tener en cuenta que puesto que utilizaré un cluster de Spark, los algoritmos que podremos utilizar estarán limitados por aquellos que se encuentran implementados en la librería MLlib de Apache Spark. También he llevado a cabo un estudio de distintos índices de validación interna y externa que podemos emplear para evaluar la calidad de los grupos o clusters creados por dichos algoritmos. Como caso de uso, he utilizado los datos astrométricos procedentes de millones de estrellas de nuestra galaxia proporcionados por la misión Gaia de la Agencia Espacial Europea para realizar una clusterización de dichas estrellas, con el objetivo de tratar de encontrar cúmulos estelares nuevos o recabar más información sobre los ya existentes. Para llevar a cabo el caso de estudio, dada la gran cantidad de datos a tratar, he utilizado la infraestructura facilitada por la DPAC (Data Processing and Analysis Consortium), consistente en un cluster de Apache Spark formado por 6 nodos con 16 cores y 64Gb de RAM cada uno.
In this work I have done an investigation about clustering algorithms with linear or logarithmic orders of complexity in execution time, and can work in a distributed way, so we can work with a lot of data. Furthermore, due to that I will use a cluster of Apache Spark, the choice of the algorithms will be limited by the clustering algorithms implemented in the machine learning library of Spark (MLlib). I have also carried out a study of some internal and external validation indexes used to evaluate the quality of the groups or clusters created by these algorithms. As a use case, I have used the astrometric data from millions of stars in our galaxy provided by the Gaia mission of the European Space Agency (ESA) to perform a clustering of these stars, the objective will be to find new star clusters or gather new information about existing ones. In order to carry out the case study, given the large amount of data to be processed, I had to make use of the infrastructure provided by the Data Processing and Analysis Consortium (DPAC), which consisted of 6 nodes with 16 cores and 64Gb of RAM each, which featured the distributed computing framework Apache Spark.

Centro

E.T.S. de Ingeniería Informática

Departamento

Inteligencia Artificial

Handle

https://hdl.handle.net/20.500.14468/14561

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editor

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Handle

DOI

Colecciones