Desambiguación de nombres de persona en la web en un contexto multilingüe

Delgado Muñoz, Agustín Daniel

Desambiguación de nombres de persona en la web en un contexto multilingüe

Delgado Muñoz, Agustín Daniel. Desambiguación de nombres de persona en la web en un contexto multilingüe . 2017. Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
DELGADO_MUNOZ_Agustin_Tesis.pdf			Full text (open access)		application/pdf	3.63MB

Título	Desambiguación de nombres de persona en la web en un contexto multilingüe
Autor(es)	Delgado Muñoz, Agustín Daniel
Resumen	Esta tesis doctoral trata la desambiguación de nombres de personas en la Web. Este problema puede describirse de la siguiente manera: dado el ranking de resultados devuelto por un motor de búsqueda tras consultar un nombre de persona,el objetivo consiste en agrupar los resultados de búsqueda de manera que cada grupo esté formado por las páginas web que hablan de un mismo individuo. Los motores de búsqueda más populares ofrecen pocas herramientas de desambiguación de este tipo de consultas, aunque sus estadísticas de uso reflejan que son muy frecuentes. Por este motivo,en los últimos años han surgido varias start-ups que ofrecen un servicio especializado de búsqueda de personas en Internet. Además,la comunidad científica ha mostrado interés en este problema por varias razones. Por un lado,los nombres de persona son un tipo de entidades nombradas especialmente ambiguo y,por este motivo, su desambiguación ha sido estudiada en diferentes contextos. Por otro lado, el escenario de búsqueda en la Web presenta varios retos:(i) las páginas web no tratan una temática determinada debido a su naturaleza heterogénea;(ii) la Web alberga cada vez más contenido en distintos idiomas debido a su naturaleza multilingüe; y (iii) la búsqueda en la Web requiere métodos poco costosos debido a que los usuarios de los motores de búsquedas esperan resolver sus consultas en muy poco tiempo. Por tanto, nos encontramos ante un problema real que ha suscitado el interés de la comunidad científica. La desambiguación de nombres de personas en la Web ha sido tratada en el estado del arte como un problema de clustering compuesto por dos fases principales.El objetivo de la primera fase consiste en representar los resultados de búsqueda mediante rasgos adecuados que sean de utilidad a la hora de identificar y distinguir a distintos individuos con el mismo nombre. Por otro lado,la segunda fase consiste en aplicar un algoritmo de clustering para agrupar las páginas web de acuerdo al individuo que mencionan. En particular,los mejores sistemas del estado del arte emplean una representación de los resultados de búsqueda consistente en una rica selección de rasgos de distinto tipo y agrupan las páginas web mediante un algoritmo de agrupamiento jerárquico aglomerativo tras haber aprendido previamente el valor de un cierto umbral de similitud mediante datos de entrenamiento.
Abstract	This thesis addresses person name disambiguation on the Web. This problem can be described as follows: given a web pages ranking retrieved by a search engine when looking for a person name,the goal is to group properly the search results, so each group contains all the search results which refer to the same individual. The most popular search engines provide little disambiguation tools for this kind of queries, although their usage statistics show that they are very frequent. Because of this, several start- ups offer specialized services in people search on the Web. In addition, the scientific community has shown interest in this problem for several reasons. On the one hand, person name disambiguation has been studied in several contexts due to person names are an especially ambiguous kind of name identities. On the other hand, the search scenario on the Web presents several challenges:(i) web pages do not treat a specific topic because of its heterogeneous nature;(ii) the Web increasingly hosts web pages written in different languages because of its multilingual nature; and(iii) the Web search scenario requires efficient methods due to users expect quick responses. Therefore, this is a real problem that has aroused the interest of the scientific community due to its characteristics. Person name disambiguation has been dealt as a clustering problem composed by two main phases. The goal of the first phase is to represent the search results by means of suitable features to identify and distinguish different individual with the same name.On the other hand, the goal of the second phase is to apply a clustering algorithm to group the web pages according to the individual they refer to. In particular,the best systems of the state-of-the-art represent the search results by means of a rich selection of features of different kind, while they employ the hierarchical agglomerative clustering algorithm to group the web pages after having previously learned the value of a similarity thereshold by means of training data.
Materia(s)	Ingeniería Informática
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes
Director de tesis	Martínez Unanue, Raquel Montalvo Herranz, María del Soto
Fecha	2017
Formato	application/pdf
Identificador	tesisuned:ED-Pg-SisInt-Addelgado http://e-spacio.uned.es/fez/view/tesisuned:ED-Pg-SisInt-Addelgado
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	Doctoral Thesis
Collections:	Set de openaire Set de Tesis Doctorales de la UNED Escuela de Doctorado. Programa de doctorado en Sistemas Inteligentes (UNED)

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	641 Visitas, 714 Descargas - Estadísticas en detalle
Creado:	Tue, 29 May 2018, 18:01:39 CET

e-spacio

Desambiguación de nombres de persona en la web en un contexto multilingüe