Nuevos criterios para la definición de índices de evaluación internos de clustering

Rojas Thomas, Juan Carlos. Nuevos criterios para la definición de índices de evaluación internos de clustering . 2019. Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Ingeniería de Sistemas y Control

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
ROJAS_THOMAS_Juan_Carlos_Tesis.pdf ROJAS THOMAS Juan Carlos_Tesis.pdf application/pdf 1.85MB

Título Nuevos criterios para la definición de índices de evaluación internos de clustering
Autor(es) Rojas Thomas, Juan Carlos
Resumen Esta tesis presenta un conjunto de nuevas propuestas relacionadas con la validación interna del clustering de datos, tanto definiciones de índices como de metodologías. Estas propuestas se basan fundamentalmente en un conjunto de criterios definidos para capturar las geometrías de los clústeres de forma más precisa que los ya existentes en la literatura del área. En concreto, respecto a la definición de índices internos, se trabajó en tres niveles diferentes de acuerdo al grado de innovación aportado en la tesis. En un primer nivel se mejoraron índices ya existentes en la literatura. En particular, se construyeron dos nuevas versiones del conocido índice interno Davies-Bouldin usando nuevas estrategias para mejorar la estimación tanto de las dispersiones de los clústeres como de las distancias entre estos, combinando criterios geométricos y de densidades. En la primera versión del índice se definió una región geométrica denominada híper-cilindro, la cual fue utilizada para capturar las densidades de datos entre clústeres, para de esta forma mejorar la estimación de las distancias entre estos. En la segunda versión del índice se utilizó la extensión a “n” dimensiones de la forma geométrica rectangular, denominada híper-rectángulo, que fue utilizada para mejorar la estimación de las dispersiones de los clústeres. En un segundo nivel se construyeron dos nuevos índices internos. En ambos se definieron técnicas innovadoras para calcular tanto las dispersiones de los clústeres como las distancias entre estos. El primero de ellos, denominado RTI, se construyó combinando criterios de densidades y de grafos. Los grafos utilizados en este índice corresponden a árboles de extensión mínima construidos a partir de la subdivisión iterativa de los clústeres en subunidades más pequeñas. Se define el concepto de “cohesión” para representar el grado de conexión entre subunidades en términos de densidades de los datos. El segundo de ellos, denominado SG, se construyó basándose exclusivamente en criterios geométricos, donde el núcleo del enfoque utilizado en su definición consistió en el uso de figuras geométricas, tales como segmentos de recta e híper-esferas. En un tercer nivel se definió un nuevo paradigma de clustering de grafos en donde el concepto de densidad es el elemento diferenciador, y en este marco se definió un nuevo índice interno. El nuevo paradigma considera a los conjuntos de datos como una sola nube continua de puntos, dentro de la cual los clústeres se definen como las regiones dentro de esta nube que presentan un alto grado de uniformidad espacial. El nuevo índice propuesto se define con el objetivo de reconocer qué partición de los datos mejora más esta cualidad de uniformidad. Finalmente, este trabajo propone una nueva metodología de evaluación de los índices internos, la cual se centra en medir sus rendimientos respecto a una característica estructural específica de los datos. Un aspecto central de esta metodología es el poder contar con un índice que permita medir de manera objetiva la característica estructural de interés. Este trabajo presenta una implementación específica de esta metodología para los denominados “clústeres asimétricos”, para lo cual se define el índice respectivo. A diferencia de las metodologías tradicionales, esta metodología no genera un ranking lineal de índices, sino que los agrupa en categorías de acuerdo a su comportamiento en dos parámetros de rendimiento. Los resultados positivos obtenidos en las diferentes propuestas demuestran la viabilidad de los criterios utilizados y abren nuevas oportunidades para implementar posteriores mejoras y propuestas innovadoras, tanto en la problemática de la evaluación de los resultados del clustering de datos como en el proceso del clustering en sí, así como su extensión al área del clustering difuso.
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Ingeniería de Sistemas y Control
Director de tesis Santos Peñas, Matilde
Mora Cofre, Marco
Fecha 2019
Formato application/pdf
Identificador tesisuned:ED-Pg-IngSisCon-Jcrojas
http://e-spacio.uned.es/fez/view/tesisuned:ED-Pg-IngSisCon-Jcrojas
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 520 Visitas, 444 Descargas  -  Estadísticas en detalle
Creado: Thu, 30 Apr 2020, 18:37:26 CET