Predicción del rendimiento de consultas basado en rankings de documentos y nuevo marco de evaluación

Pérez Iglesias, Joaquín. Predicción del rendimiento de consultas basado en rankings de documentos y nuevo marco de evaluación . 2012. Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Documento_1.pdf Pdf del documento application/pdf
Documento_2.pdf Pdf del documento (english) application/pdf

Título Predicción del rendimiento de consultas basado en rankings de documentos y nuevo marco de evaluación
Autor(es) Pérez Iglesias, Joaquín
Resumen El trabajo desarrollado en esta tesis aborda un aspecto fundamental de la recuperación de información que es la predicción de la calidad de las consultas. Tener información sobre la fiabilidad esperada de los documentos recuperados a partir de una consulta permite al sistema o al usuario reaccionar en consecuencia, confiando en los resultados obtenidos, reformulando la consulta, etc. Las funciones de ranking utilizadas por los motores de búsqueda asignar un valor de relevancia o score a cada uno de los documentos recuperado. En esta tesis se ha investigado una nueva aproximación a la predicción del rendimiento de consultas basada en la dispersión de valores asignados por una función de ranking al conjunto de documentos de una colección a partir de de un consulta. Este nuevo predictor se enmarca en la categoría de los post-retrieval, es decir, de los que basan la predicción en información extraída de los documentos recuperados con la consulta. En esta categoría se enmarcan los predictores de mayor fiabilidad, aunque son los mas costosos computacionalmente. Otro aspecto tratado en esta tesis ha sido el marco de evaluación de los predictores. Se ha realizado un profundo análisis del marco de evaluación actual , que utiliza distintos coeficientes de correlación, con el objetivo de proponer nuevos métodos de evaluación mas informativos y que superan algunas de las limitaciones que existen en la actualidad. Ademas de los problemas inherentes a la evaluación basada en correlación se ha detectado su inadecuación a escenarios específicos, como grupos de consultas de distinta dificultad. En esta tesis se ha propuesto un nuevo marco de evaluación con el objetivo principal de evaluar el rendimiento que muestran los métodos de predicción para distintos tipos de consultas según su calidad. De esta forma y con el marco propuesto se hacen explicitas las principales diferencias entre aquellos métodos que predicen con mayor acierto cuando una consulta obtendra un respuesta de calidad, respecto de los métodos que muestran un mayor acierto al detectar consultas con un pobre rendimiento. Como consecuencia se facilita en gran medida la selección del método mas adecuado para el marco de aplicación deseado. El marco de evaluación propuesto se basa en suponer que cada una de las consultas pertenece a un tipo único en base a una medida de calidad de los documentos recuperados, como por ejemplo la Precision Media. De esta forma el problema de evaluación de los métodos de predicción se transforma en un problema de clasificación, lo que hace posible el uso de las medidas de evaluación aplicas habitualmente en el campo de la clasificación, como precisión,cobertura o medida. Entre las aportaciones de la tesis destacan: - El método de predicción propuesto muestra un rendimiento similar o superior a los de los mejores métodos, como Clarity Score, pero con un coste computacional mucho menor. - La nueva metodología de evaluación propuesta permite evaluar tanto a grupos específicos de consultas, en base a su calidad, como de forma global- - Como extensión a las medidas de evaluación clásicas en el campo de la clasificación se ha propuesto una nueva medida (DBEM) especifica para el caso de la predicción. Esta medida no se centra en el ratio de acierto en la clasificación, como ocurre con los coeficientes de correlación, sino en una penalización que varia con la distancia entre el grupo asignado y el correcto. - Se ha analizado también un caso de uso típico dentro del campo de la predicción de la calidad de consultas como es la expansión automática selectiva, que no depende del método de predicción utilizado.
Materia(s) Ingeniería Informática
Palabras clave calidad
World Wide Web (sistema de recuperación de la información)
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director de tesis Araujo Serna, Lourdes (Directora de Tesis)
Fecha 2012-04-13
Formato application/pdf
Identificador tesisuned:IngInf-Jperez
http://e-spacio.uned.es/fez/view/tesisuned:IngInf-Jperez
Idioma spa eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 247 Visitas, 346 Descargas  -  Estadísticas en detalle
Creado: Tue, 20 Nov 2012, 12:19:53 CET