Intrinsic Semantic Spaces for the representation of documents and semantic annotated data

Lastra Díaz, Juan José. (2014). Intrinsic Semantic Spaces for the representation of documents and semantic annotated data Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
LastraJuan_TFM.pdf Full text (open access) application/pdf 1.43MB

Título Intrinsic Semantic Spaces for the representation of documents and semantic annotated data
Autor(es) Lastra Díaz, Juan José
Resumen This thesis introduces two novel semantic representation spaces for text documents and semantically annotated data, which are based in an intrinsic geometry approach,as well as other results, among which we have: (1) a novel ontology-based semantic distance, that we call weighted Jiang-Conrath, and (2) generalized normal distribution on differential manifolds, called geodesic normal distribution, what lead us to the de…finition of the geodesic Mahalanobis distance. By last, we prove that any Bayes classfi…er on a manifold defi…nes a dual Voronoi diagram on it. The ontology-based IR model looks promising, but it has not been evaluated experimentally yet. By other hand, the text document classif…er yielded a fi…rst discouraging result due to the difficulties for the training of the model. The common thread of our research is the use of notions of intrinsic differential geometry and geometric invariance, as means to bridge some gaps in the literature. The ontology-based IR model, as well as the text classifi…er proposed in this thesis, is inspired by a geometric approach, whose core idea is the integration of the geometric structures of the problem in the semantic representation spaces of the information. In summary, our approach attempts to build better models of semantic spaces by incorporating the properties and constraints of the mathematical objects involved in its defi…nition. The …first part of the thesis introduces a novel ontology-based IR model based in a structure-preserving embedding of a populated ontology into a metric space that we call Intrinsic Ontological Spaces. The second part of the thesis introduces a novel text classifi…er, called Intrinsic Bayes-Voronoi, which is based in the representation of the document vectors by a manifold-based generative model, where the distribution function is defi…ned on the unit hypersphere, instead of the euclidean ambient space. The Intrinsic Ontological Spaces introduces a novel theoretical IR model that looks promising, although it has not even been evaluated experimentally. The pro- posed IR model is described in depth and validated with regard to our design axioms. The motivation behind of our model is the fi…nding of a set of geometric inconsistencies in some ontology-based IR models in the literature, which are derived from certain overlooked properties in their adaptations of the Vector Space Model (VSM). In essence, our model refutes the unrefl‡ective use of the VSM model in the …fields of natural language processing (NLP) and information retrieval (IR). Despite that the theoretical approach is interesting by itself, our main hypothesis is that the structure-preserving approach proposed by our model, should lead us to improve the quality of the ranking, as well as the measures of precision and recall in the semantic information retrieval systems. The Intrinsic Ontological Spaces are, up to our knowledge, the fi…rst ontology-based IR model to build a whole ontology-based structure-preserving representation for any sort of semantically annotated data in a populated ontology. In our model, every component has been designed with the aim to preserve the intrinsic geometry of any base ontology. The intrinsic geometry of any ontology is defi…ned by three algebraic structures: (1) the order relation of the taxonomy, (2) the set inclusion relation, and (3) its intrinsic semantic metric. In this way, the methods for the representation of the queries, information units, weighting, ranking and retrieval, have been designed from geometric principled-based axioms, with the aim to capture all the semantic knowledge encoded in the base ontology. Using the language of the theory of categories, our model builds a natural equivalence, or morphism, among the input populated ontology and the representation space for the indexed information units. Finally, the classifi…er of Bayes-Voronoi, introduced in the second part of the thesis, uses a manifold-based generative model to represent documents which is defi…ned by a vector normal distribution on the unit hypershere, and we have called geodesic normal distribution. The distribution is defi…ned on the unit hypershere, considered as a manifold, instead of the ambient space. The core idea is the ob- servation that the normalized vectors are defi…ned on the unit hypersphere, instead of the whole euclidean ambient space, and the proposed model explicitly integrates this constraint. The model removes one dimension to the normalized vectors, which corresponds to the projection of the data vectors on the unit hypershere (normalization). The geodesic normal distribution lead us to the defi…nition of the Mahalanobis distance on a differential manifold, distance that we call geodesic Mahalanobis distance. We also prove that any Bayes classifi…er on a manifold defi…nes a dual Voronoi diagram on it.
Abstract Esta tésis presenta dos nuevos espacios de representación semántica para doc- umentos de texto y datos anotados semánticamente, los cuales se basan en un en- foque de geometría intrínseca, así como otros resultados, entre los cuales tenemos: una nueva distancia semántica sobre ontologías denominada distancia ponderada de Jiang-Conrath, una distribución normal generalizada sobre variades diferenciables que denominamos distribución normal geodésica, la cual nos conduce a la defi…nición de la distancia geodésica de Mahalanobis. Por último, probamos que cualquier clasifi…cador de Bayes sobre una variedad induce un diagrama de Voronoi dual sobre su dominio. El modelo de recuperación de la información (RI) basado en ontologías parece prometedor, a pesar de aún no haber sido evaluado experimentalmente. Por otro lado, el clasifi…cador de texto ha arrojado un primer resultado desesperanzador debido a ciertas di…cultades en el entrenamiento del modelo. El hilo conductor de nuestra investigación es el uso de nociones de geometría diferencial e invarianza geométrica como medio para cubrir algunas oprtunidades de mejora y problemas encontrados en los modelos actuales encontrados en la bib- liografía. Tanto el modelo RI basado en ontologías, como el clasifi…cador de texto propuestos en esta tésis, son inspirados por un enfoque geométrico, cuya principal idea es la integración de las estructuras geométricas del problema en los espacios de representación semántica de la información. En suma, nuestro enfoque intenta construir mejores modelos de espacios semánticos mediante la incorporación de las propiedades y restricciones de los objetos matemáticos involucrados en su de…finición. La primera parte de la tésis presenta un nuevo modelo RI basado en ontologías que defi…ne una inmersión de una ontología poblada en un espacio métrico, la cual es denominada Espacios Intrínsecos Ontológicos y tiene como principal propiedad la preservación de las estructuras codi…cadas en las ontologías. En la segunda parte, presentamos un nuevo clasifi…cador de documentos de texto, denominado Clasifi…cador Intrínseco de Bayes-Voronoi, el cual se basa en la representación de los vectores de documento mediante un modelo generativo expresado sobre una variedad diferen- ciable, cuya función de distribución es defi…nida sobre la hiperesfera unitaria, en vez de sobre el espacio euclídeo ambiente. Los Espacios Intrínsecos Ontológicos introducen un nuevo modelo téorico de recuperación de la información que parece prometedor, si bien, como ya hemos señalado, éste aún no ha sido evaluado experimentalmente. El modelo propuesto es descrito en profundidad y validado con respecto a nuestros axiomas de diseño. La motivación detrás de nuestro modelo es el descubrimiento de un conjunto de inconsistencias geométricas en algunos modelos RI basados en ontologías, las cuales se derivan de ciertas propiedades pasadas por alto en sus adaptaciones del modelo de espacio vectorial (VSM). En esencia, nuestro modelo refuta el uso irrefl‡exivo del modelo VSM en toda clase de tareas semánticas en el ámbito del procesamiento natural del lenguaje. A pesar de que el enfoque teórico es interesante por sí mismo, nuestra principal hipótesis es que el enfoque invariante que proponemos en el modelo, debería con- ducirnos a mejorar la calidad de clasifi…cación, así como las medidas de precisión y cobertura en los sistemas de recuperación de información de tipo semántico. Los Espacios Intrínsecos Ontológicos son, hasta donde alcanza nuestro conoci- miento, el primer modelo de recuperación de la información basado en ontologías donde cada componente del sistema ha sido diseñado basado en la ontología base para preservar todas las estructuras intrínsecas presentes. La geometría intrínseca de una ontología es defi…nida por tres estructuras algebraicas: (1) la relación de orden de la taxonomía, (2) la relación de inclusión de conjuntos, y (3) su métrica semántica intrínseca. De esta forma, los métodos para la representación de las consultas, unidades de información, funciones de pesado, clasifi…cación por relevancia y recuperación, han sido diseñados a partir de axiomas fundamentados en principios geométricos, con el objetivo de capturar todo el conocimiento codifi…cado en la ontología base. Empleando el lenguaje de la teoría de categorías, nuestro modelo construye una equivalencia natural, o morfi…smo, entre la ontología poblada de entrada y el espacio de representación para las unidades de información indexadas. Finally, ell clasi…cador de Bayes-Voronoi, introducido en la segunda parte de la tésis, emplea un modelo generativo para representar documentos de texto, el cual es defi…nido por una distribución normal vectorial sobre la hiperesfera unitaria, la cual denominamos distribución normal geodésica. Dicha distribución es defi…nida sobre la hiperesfera unitaria, vista como una variedad diferenciable, en vez de sobre el espacio euclídeo ambiente. La idea clave es la observación de que los vectores normalizados están contenidos en la hiperesfera unitaria, en de vez de sobre el espacio euclídeo ambiente, y el modelo propuesto integra de forma explícita dicha propiedad. El modelo reduce una unidad la dimensión de los vectores normalizados, la cual corresponde a la proyección de los vectores de datos sobre la hiperesfera unitaria (normalización). Asimismo, la distribución normal geodésica nos conduce a la defi…nición de la dis- tancia de Mahalanobis sobre una variedad diferenciable, distancia que denominamos distancia geodésica de Mahalanobis. Por último, probamos que cualquier clasifi…cador de Bayes sobre una variedad induce un diagrama de Voronoi dual sobre su dominio.
Notas adicionales Trabajo final de Máster Universitario en Lenguajes y Sistemas Informáticos Especialidad de “Tecnologías del Lenguaje en la Web”
Materia(s) Informática
Palabra clave ontology-based IR models
ontology-based semantic distances
semantic information retrieval
taxonomic semantic spaces
vector semantic spaces
semantic distances
Jiang-Conrath distance
valuation metrics
geodesic Mahalanobis distance
Hausdorff distance
semantic metric spaces
manifold-based distribution
text classifi…er
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor García Serrano, Ana (Tutora)
Fecha 2014-09-29
Formato application/pdf
Identificador bibliuned:master-ETSIInformatica-LSI-Jlastra
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSIInformatica-LSI-Jlastra
Idioma eng
Versión de la publicación submittedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso submittedVersion

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 367 Visitas, 314 Descargas  -  Estadísticas en detalle
Creado: Sat, 21 Mar 2015, 02:41:39 CET