Recent Advances in Ontology-based Semantic Similarity Measures and Information Content Models based on WordNet

Lastra Díaz, Juan José. Recent Advances in Ontology-based Semantic Similarity Measures and Information Content Models based on WordNet . 2017. Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
LASTRA_DIAZ_JuanJose_Tesis.pdf Full text (open access) application/pdf 5.08MB

Título Recent Advances in Ontology-based Semantic Similarity Measures and Information Content Models based on WordNet
Autor(es) Lastra Díaz, Juan José
Resumen Los juicios de semejanza entre conceptos subyacen tras la mayoría de capacidades cognitivas, tales como la categorización, la memoria, la toma de decisiones y el razonamiento. Por lo tanto, la propuesta de modelos de semejanza conceptual para estimar el grado de semejanza entre pares de palabras y conceptos ha sido una línea muy activa de investigación, con muchas aplicaciones en los campos de las ciencias cognitivas, la inteligencia artificial, la recuperación de la información (RI) y la genómica, entre otros. El enfoque de mayor éxito para estimar juicios de semejanza es definido por la familia de medidas de semejanza semántica basadas en ontologías para dominios generales de aplicación basados en WordNet, o MeSH y SNOMED para aplicaciones biomédicas, así como la Ontología Génica (GO) para genómica. El advenimiento de la Web Semántica ha motivado la aparición de una nueva familia de modelos de recuperación de la información y sistemas de búsqueda semántica basados en ontologías. En este último escenario, las ontologías han sido extensivamente utilizadas como espacios conceptuales con el propósito de indexar y representar grandes colecciones de documentos y otros tipos de información anotada semánticamente. Esta tesis presenta dos nuevas familias de medidas de semejanza semántica basadas en ontologías y modelos de contenido de la información basados en WordNet, junto con los mayores estudios experimentales publicados. Nuestros experimentos se basan en nuestra propia implementación de la mayoría de métodos publicados. Adicionalmente, esta tesis presenta algunas contribuciones significativas en la reproducibilidad de estudios experimentales de semejanza entre palabras, medidas de semejanza semántica basadas en ontologías y modelos de contenido de la información, tales como: (1) un nuevo y eficiente modelo de representación para taxonomías, denominado PosetHERep, el cual es una adaptación de la estructura de datos "half-edge", utilizada comunmente para representar variedades discretas y grafos planos; (2) una nueva biblioteca de software en Java, denominada Half-Edge Semantic Measures Library (HESML), basada en PosetHERep, la cual implementa la mayoría de medidas de semejanza semántica basadas en ontologías y modelos de contenido de la información reportados en la literatura; (3) un conjunto de experimentos reproducibles de semejanza entre palabras basados en HESML y ReproZip, con el propósito de reproducir de manera exacta los experimentos publicados en todos nuestros trabajos anteriores; (4) un marco y conjunto de datos de replicación, denominado WNSimRep v1, cuyo objetivo es ayudar en la replicación exacta de la mayoría de métodos publicados; y por último, (5) un conjunto de estudios experimentales de rendimiento y escalabilidad para librerías de medidas semánticas. Nuestra nueva familia de medidas de semejanza basadas en ontologías está basada en dos nociones no consideradas con anterioridad: una generalización de la distancia clásica de Jiang-Conrath a cualquier tipo de taxonomía, la cual se basa en un grafo pesado basado en un modelo de contenido de la información derivado de las probabilidades condicionales entre conceptos padres e hijos, y una función de normalización no lineal que convierte las medidas de distancia semántica basadas en ontologías en funciones de semejanza. Asimismo, nuestra nueva familia de modelos de contenido de la información de tipo intrínseco y basados en corpus se basa en dos nociones no consideradas previamente: la preservación de la estructura probabilística de la taxonomía asociada a las probabilidades condicionales entre conceptos padre e hijos, y la consideración explícita de una noción de semejanza cognitiva en la definición del modelo de contenido de la información. Nuestras nuevas medidas de semejanza basadas en modelos de contenido de la información superan de manera estadísticamente significativa a las medidas estado del arte, mientras que nuestra nueva familia de modelos de contenido de la información obtiene resultados comparables con respecto a los métodos estado del arte y define un marco abierto para la derivación de nuevos modelos intrínsecos de contenido de la información basados en métodos alternativos para la estimación de las probabilidades condicionales entre conceptos padre e hijos. Por otra parte, PosetHERep propone un modelo eficiente de representación para taxonomías respecto al uso de memoria, el cual escala linealmente con el tamaño de la taxonomía y ofrece una implementación eficiente de la mayoría de algoritmos basados en taxonomías que son empleados por las medidas semánticas y los modelos de contenido de la información, mientras que HESML ofrece un marco abierto para ayudar en la investigación en el área ofreciendo una arquitectura de software más sencilla y eficiente que las bibliotecas de software actuales. HESML supera a las bibliotecas de medidas semánticas actuales por varios órdenes de magnitud y prueba que es posible mejorar significativamente su rendimiento y escalabilidad sin utilizar almacenamiento auxiliar mediate el uso de PosetHERep. Nuestros grandes estudios comparativos, incluyendo la mayoría de medidas de semejanza y modelos de contenido de la información publicados, también nos conducen a alertar sobre algunos problemas de reproducibilidad en la replicación de métodos y experimentos publicados previamente, así como al descubrimiento de resultados contradictorios. Asimismo, nuestros estudios experimentales nos permiten refutar dos creencias comunes mantenidas entre la comunidad científica: (1) una creencia errónea sobre la ventaja de rendimiento de los modelos de contenido de la información de tipo intrínseco sobre los basados en corpus que es refutada por nuestros resultados, y (2) otra creencia errónea sobre la ventaja global de las medidas clásicas de semejanza basadas en modelos de contenido de la información sobre la familia de medidas semánticas basadas en caminos, la cual es refutada por nuestra conclusión de que sólo un pequeño conjunto de medidas híbridas recientes de semejanza basadas en modelos de contenido de la información obtiene una correlación de Spearman de manera estadísticamente significativa mayor que la familia de medidas de semejanza basadas en caminos. Este último hecho explica algunos resultados inesperados en aplicaciones de recuperación de la información basadas en medidas de semejanza en las cuales algunos autores señalan que no existe una diferencia estadísticamente significativa entre el rendimiento obtenido por las familias de medidas de semejanza clásicas basadas en modelos de contenido de la información y otras medidas clásicas basadas en la longitud del camino más corto entre conceptos cuando se emplea la métrica de correlación de Spearman.
Abstract Human similarity judgments between concepts underlie most of cognitive capabilities, such as categorization, memory, decision-making and reasoning. Thus, the proposal for concept similarity models to estimate the degree of similarity between word and concept pairs has been a very active line of research with many applications in the fields of cognitive sciences, artifcial intelligence, Information Retrieval (IR) and genomics, among others. The most successful approach to estimate human similarity judgements is set by the family of ontology-based semantic similarity measures based on WordNet for general domain applications, or MeSH and SNOMED for biomedical applications, as well as the Gene Ontology (GO) for genomics. The advent of the Semantic Web has encouraged the emergence of a novel family of IR models and semantic search systems based on ontologies. In this latter scenario, the ontologies have also been extensively used as semantic conceptual spaces with the aim of indexing and representing large collections of documents and other types of semantically-annotated information. This thesis introduces two new families of ontology-based semantic similarity measures and Information Content (IC) models based on WordNet together with the largest experimental surveys reported in the literature. Our experiments are based on our software implementation of most methods reported in the literature. In addition, this thesis introduces several significant contributions into the reproducibility of word similarity benchmarks, ontology-based semantic similarity measures and IC models as follows: (1) a new and efficient representation model for taxonomies, called PosetHERep, which is an adaptation of the half-edge data structure commonly used to represent discrete manifolds and planar graphs; (2) a new Java software library called the Half-Edge Semantic Measures Library (HESML) based on PosetHERep, which implements most ontology-based semantic similarity measures and IC models reported in the literature; (3) a set of reproducible experiments on word similarity based on HESML and ReproZip with the aim of exactly reproducing the experimental surveys in all our previous works; (4) a replication framework and dataset, called WNSimRep v1, whose aim is to assist in the exact replication of most methods reported in the literature; and finally, (5) a set of scalability and performance benchmarks for semantic measure libraries. Our novel family of ontology-based semantic similarity measures is based on two previously unconsidered notions as follows: a generalization of the classic Jiang-Conrath (J&C) distance to any type of taxonomy which is based on an IC-based weighted graph derived from the conditional probabilities between child and parent concepts, and a non-linear normalization function that converts the ontology-based semantic distances into similarity functions. Likewise, our new family of intrinsic and corpus-based IC models is based on two previously unconsidered notions as follows: the preservation of the probabilistic structure of the taxonomy associated to the conditional probabilities between child and parent concepts, and the explicit consideration of a cognitive similarity notion in the definition of the IC model. Our new IC-based similarity measures outperform the state-of-the-art measures in a statistically significant manner, whilst our new family of IC models obtains rivaling results as regards the state-of-the-art methods and sets an open framework for the derivation of novel intrinsic IC models based on alternative methods for the estimation of the conditional probability between child and parent concepts. On the other hand, PosetHERep proposes a memory-efficient representation for taxonomies which linearly scales with the size of the taxonomy and provides an efficient implementation of most taxonomy-based algorithms used by the semantic measures and IC models, whilst HESML provides an open framework to aid research into the area by providing a simpler and more efficient software architecture than the current software libraries. HESML outperforms the state-of-the-art semantic measure libraries by several orders of magnitude and shows that it is possible to improving their performance and scalability significantly without caching using PosetHERep. Our large experimental surveys, including most similarity measures and IC models based on WordNet reported in the literature, also led us to be on the lookout for several reproducibility problems in the replication of methods and experiments previously reported in the literature, as well as the discovery of contradictory results. Likewise, our experimental surveys allow us to refute two common beliefs held among the research community: (1) a wrong belief about the outperformance of intrinsic IC models over those based on a corpus that is refuted by our results, and (2) another wrong belief about the overall outperformance of the classic IC-based similarity measures on the family of path-based semantic measures, which is refuted by our conclusion that only a small set of similarity measures based on recent hybrid IC-based measures obtain a statistically significant higher Spearman correlation value than the family of path-based similarity measures. This latter fact explains some unexpected results in information retrieval applications based on similarity measures in which several authors point out that there is no a statistically signicant difference between the performance obtained by the families of classic semantic similarity measures based on IC models and other classic measures based on the length of the shortest path between concepts when the Spearman correlation metric is used.
Materia(s) Ingeniería Informática
Palabras clave ontology-based semantic similarity measures
intrinsic and corpus-based Information Content models
WordNet-based semantic similarity measures
ontology-based IR models
HESML
PosetHERep
semantic measures library
reproducible experiments on word similarity
WNSimRep v1 dataset
ReproZip
replication datasets for ontology-based semantic similarity models
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes
Director de tesis García Serrano, Ana
Fecha 2017
Formato application/pdf
Identificador tesisuned:ED-Pg-SisInt-Jjlastra
http://e-spacio.uned.es/fez/view/tesisuned:ED-Pg-SisInt-Jjlastra
Idioma eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 123 Visitas, 108 Descargas  -  Estadísticas en detalle
Creado: Tue, 29 May 2018, 18:15:03 CET