Arquitectura lambda aplicada a clustering de documentos en contextos Big Data

Vallejo Martínez, Alberto

Arquitectura lambda aplicada a clustering de documentos en contextos Big Data

Vallejo Martínez, Alberto. (2015). Arquitectura lambda aplicada a clustering de documentos en contextos Big Data Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial.

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
Vallejo_Martinez_Alberto_TFM.pdf			Vallejo_Martinez_Alberto_TFM.pdf		application/pdf	1.68MB

Título	Arquitectura lambda aplicada a clustering de documentos en contextos Big Data
Autor(es)	Vallejo Martínez, Alberto
Resumen	La aplicación de técnicas de minería de datos, concretamente de clustering, sobre grandes volúmenes de datos (Big Data) supone un desafío en cuanto a la escalabilidad y al tiempo de respuesta, ya que cantidades crecientes de datos implican tiempos mayores de computación. La arquitectura lambda es un conjunto de recomendaciones de propósito general para diseñar una arquitectura en escenarios Big Data de forma que se resuelva el problema de la latencia y se puedan obtener resultados en tiempo real. En este trabajo se presenta un estudio aplicando la arquitectura lambda sobre el clustering de documentos en contextos Big Data. La problemática que se desea resolver es la elevada latencia que tiene lugar cuando se introducen nuevos documentos en el sistema que realiza clustering. Uno de los puntos clave sugeridos por esta arquitectura es la separación del procesamiento en tres capas: batch layer, speed layer y serving layer. Una problemática adicional al tratar documentos es su elevada dimensionalidad y este problema se soslaya mediante reducción de dimensionalidad con Latent Dirichlet Allocation. Los experimentos se han llevado a cabo utilizando el framework Apache Spark y demuestran que esta combinación de capas permite realizar clustering sobre grandes volúmenes de datos y disponer de resultados actualizados en tiempo real, con calidad del clustering comparable a trabajos similares sobre contextos no Big Data.
Abstract	The application of data mining techniques, specifically clustering on large volumes of data (such as Big Data), represents a challenge in terms of scalability and response time, given that a higher amount of data involves a higher computation time. The lambda architecture offers a set of general purpose recommendations to design an architecture in Big Data scenarios with the purpose of reducing latency and getting results in real time. This paper presents a study on applying the Lambda architecture on the clustering of documents in a Big Data environment. We focus on the problem of the high latency that occurs when new documents are ingested into the clustering system. One of the key points suggested by this architecture is a separation into three layers of processing: batch layer, serving layer and speed layer. An additional problem in dealing with documents is the high dimensionality when representing such documents, which is approached by means of dimensionality reduction using Latent Dirichlet Allocation. We have seen that the combination of layers proposed in the Lambda Architecture allows clustering of large data volumes and yields results updated in real-time, obtaining a clustering quality comparable to other approaches that do not work on Big Data.
Notas adicionales	Trabajo de Fin de Máster. Máster Universitario en I.A. Avanzada: Fundamentos, Métodos y Aplicaciones. UNED
Materia(s)	Ingeniería Informática
Palabra clave	arquitectura lambda clustering de documentos Big Data LDA streaming Apache Spark k-means Lambda architecture document clustering Big Data LDA streaming Apache Spark k-means
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial.
Director/Tutor	Martínez Unanue, Raquel Rodrigo Yuste, Álvaro
Fecha	2015-10-01
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-IAA-Avallejo http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-IAA-Avallejo
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en I.A. Avanzada: Fundamentos, Métodos y Aplicaciones (UNED) Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	53383 Visitas, 54835 Descargas - Estadísticas en detalle
Creado:	Thu, 15 Jul 2021, 18:34:00 CET

e-spacio

Arquitectura lambda aplicada a clustering de documentos en contextos Big Data