Nuevos criterios para la definición de índices de evaluación internos de clustering

Rojas Thomas, Juan Carlos

Nuevos criterios para la definición de índices de evaluación internos de clustering

Rojas Thomas, Juan Carlos. Nuevos criterios para la definición de índices de evaluación internos de clustering . 2019. Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Ingeniería de Sistemas y Control

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
ROJAS_THOMAS_Juan_Carlos_Tesis.pdf			ROJAS THOMAS Juan Carlos_Tesis.pdf		application/pdf	1.85MB

Título	Nuevos criterios para la definición de índices de evaluación internos de clustering
Autor(es)	Rojas Thomas, Juan Carlos
Resumen	Esta tesis presenta un conjunto de nuevas propuestas relacionadas con la validación interna del clustering de datos, tanto definiciones de índices como de metodologías. Estas propuestas se basan fundamentalmente en un conjunto de criterios definidos para capturar las geometrías de los clústeres de forma más precisa que los ya existentes en la literatura del área. En concreto, respecto a la definición de índices internos, se trabajó en tres niveles diferentes de acuerdo al grado de innovación aportado en la tesis. En un primer nivel se mejoraron índices ya existentes en la literatura. En particular, se construyeron dos nuevas versiones del conocido índice interno Davies-Bouldin usando nuevas estrategias para mejorar la estimación tanto de las dispersiones de los clústeres como de las distancias entre estos, combinando criterios geométricos y de densidades. En la primera versión del índice se definió una región geométrica denominada híper-cilindro, la cual fue utilizada para capturar las densidades de datos entre clústeres, para de esta forma mejorar la estimación de las distancias entre estos. En la segunda versión del índice se utilizó la extensión a “n” dimensiones de la forma geométrica rectangular, denominada híper-rectángulo, que fue utilizada para mejorar la estimación de las dispersiones de los clústeres. En un segundo nivel se construyeron dos nuevos índices internos. En ambos se definieron técnicas innovadoras para calcular tanto las dispersiones de los clústeres como las distancias entre estos. El primero de ellos, denominado RTI, se construyó combinando criterios de densidades y de grafos. Los grafos utilizados en este índice corresponden a árboles de extensión mínima construidos a partir de la subdivisión iterativa de los clústeres en subunidades más pequeñas. Se define el concepto de “cohesión” para representar el grado de conexión entre subunidades en términos de densidades de los datos. El segundo de ellos, denominado SG, se construyó basándose exclusivamente en criterios geométricos, donde el núcleo del enfoque utilizado en su definición consistió en el uso de figuras geométricas, tales como segmentos de recta e híper-esferas. En un tercer nivel se definió un nuevo paradigma de clustering de grafos en donde el concepto de densidad es el elemento diferenciador, y en este marco se definió un nuevo índice interno. El nuevo paradigma considera a los conjuntos de datos como una sola nube continua de puntos, dentro de la cual los clústeres se definen como las regiones dentro de esta nube que presentan un alto grado de uniformidad espacial. El nuevo índice propuesto se define con el objetivo de reconocer qué partición de los datos mejora más esta cualidad de uniformidad. Finalmente, este trabajo propone una nueva metodología de evaluación de los índices internos, la cual se centra en medir sus rendimientos respecto a una característica estructural específica de los datos. Un aspecto central de esta metodología es el poder contar con un índice que permita medir de manera objetiva la característica estructural de interés. Este trabajo presenta una implementación específica de esta metodología para los denominados “clústeres asimétricos”, para lo cual se define el índice respectivo. A diferencia de las metodologías tradicionales, esta metodología no genera un ranking lineal de índices, sino que los agrupa en categorías de acuerdo a su comportamiento en dos parámetros de rendimiento. Los resultados positivos obtenidos en las diferentes propuestas demuestran la viabilidad de los criterios utilizados y abren nuevas oportunidades para implementar posteriores mejoras y propuestas innovadoras, tanto en la problemática de la evaluación de los resultados del clustering de datos como en el proceso del clustering en sí, así como su extensión al área del clustering difuso.
Materia(s)	Ingeniería Informática
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Ingeniería de Sistemas y Control
Director de tesis	Santos Peñas, Matilde Mora Cofre, Marco
Fecha	2019
Formato	application/pdf
Identificador	tesisuned:ED-Pg-IngSisCon-Jcrojas http://e-spacio.uned.es/fez/view/tesisuned:ED-Pg-IngSisCon-Jcrojas
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	Doctoral Thesis
Collections:	Set de openaire Set de Tesis Doctorales de la UNED Escuela de Doctorado. Programa de doctorado en Ingeniería de Sistemas y Control (UNED)

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	520 Visitas, 444 Descargas - Estadísticas en detalle
Creado:	Thu, 30 Apr 2020, 18:37:26 CET

e-spacio

Nuevos criterios para la definición de índices de evaluación internos de clustering