Browsing by Author "Gonzalo Arroyo, Julio Antonio"
Now showing 1 - 16 of 16
Results Per Page
Sort Options
Publication A comparison of extrinsic clustering evaluation metrics based on formal constraints(Springer, 2009-05-11) Artiles, Javier; Verdejo, Felisa; Amigo Cabrera, Enrique; Gonzalo Arroyo, Julio AntonioThere is a wide set of evaluation metrics available to compare the quality of text clustering algorithms. In this article, we define a few intuitive formal constraints on such metrics which shed light on which aspects of the quality of a clustering are captured by different metric families. These formal constraints are validated in an experiment involving human assessments, and compared with other constraints proposed in the literature. Our analysis of a wide range of metrics shows that only BCubed satisfies all formal constraints. We also extend the analysis to the problem of overlapping clustering, where items can simultaneously belong to more than one cluster. As Bcubed cannot be directly applied to this task, we propose a modified version of Bcubed that avoids the problems found with other metrics.Publication Anotación semántica no supervisada(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2004-11-29) Fernández Amoros, David José; Gonzalo Arroyo, Julio AntonioEn esta tesis se trata el problema de la desambiguación del sentido de las palabras (i.e. dados un diccionario, una palabra y un contexto, decidir en qué sentido del diccionario se está usando la palabra en el contexto). Las diferentes fuentes de información utilizadas son : 1. La información de origen taxonómico basada en la relación es-un, por ejemplo, un águila es-un pájaro. 2. La información de coocurrencias. Tomando como punto de partida un corpus de casi 300 millones de palabras provinientes de libros en formato electrónico (Proyecto Gutenberg) estudiaremos pares de palabras cuyas apariciones en contextos cortos son estadísticamente dependientes. Utilizaremos varias medidas para calibrar ese grado de dependencia y emplearemos dicha información para desambiguar. 3. Información extraída de la WWW. La información de la glosas del inventario de sentidos serán complementadas con información extraída de la Web. Esta información ha sido extraída de un sistema de clasificación de documentos realizado por voluntarios (Open Directory Project) por Celina Santamaría. 4. Información proviniente de corpora bilingüe comparable. Partiendo de un corpus en inglés y otro en español se han buscado patrones sintácticos superficiales correspondientes a sintagmas nominales en ambos idiomas. A partir de este trabajo realizado por Anselmo Peñas y Fernando López Ostenero estudiaremos si es posible aprovechar las diferencias entre ambos idiomas para detectar estos sintagmas y desambiguar mediante las capacidades translingües de una base de conocimiento léxica (EuroWordNet). Se demostrará que la anotación semántica no supervisada puede lograr buenos resultados, y que hay lineas de investigación, con un importante potencial de mejora, que merecen exploradas.Publication Authority and Priority Signals in Automatic Summary Generation for Online Reputation Management(Wiley, 2021-05-01) Rodríguez Vidal, Javier; Carrillo de Albornoz Cuadrado, Jorge Amando; Gonzalo Arroyo, Julio Antonio; Plaza Morales, LauraOnline reputation management (ORM) comprises the collection of techniques that help monitoring and improving the public image of an entity (companies, products, institutions) on the Internet. The ORM experts try to minimize the negative impact of the information about an entity while maximizing the positive material for being more trustworthy to the customers. Due to the huge amount of information that is published on the Internet every day, there is a need to summarize the entire flow of information to obtain only those data that are relevant to the entities. Traditionally the automatic summarization task in the ORM scenario takes some in-domain signals into account such as popularity, polarity for reputation and novelty but exists other feature to be considered, the authority of the people. This authority depends on the ability to convince others and therefore to influence opinions. In this work, we propose the use of authority signals that measures the influence of a user jointly with (a) priority signals related to the ORM domain and (b) information regarding the different topics that influential people is talking about. Our results indicate that the use of authority signals may significantly improve the quality of the summaries that are automatically generated.Publication Authority and priority signals in Online Reputation Monitoring(Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes, 2019) Rodríguez Vidal, Javier; Gonzalo Arroyo, Julio Antonio; Plaza Morales, LauraPublication Automatic Detection of Influencers in Social Networks: Authority versus Domain signals(Wiley, 2019-01-07) Rodríguez Vidal, Javier; Anaya Sánchez, Henry; Gonzalo Arroyo, Julio Antonio; Plaza Morales, LauraGiven the task of finding influencers (opinion makers) for a given domain in a social network, we investigate (a) what is the relative importance of domain and authority signals, (b) what is the most effective way of combining signals (voting, classification, learning to rank, etc.) and how best to model the vocabulary signal, and (c) how large is the gap between supervised and unsupervised methods and what are the practical consequences. Our best results on the RepLab dataset (which improves the state of the art) uses language models to learn the domain-specific vocabulary used by influencers and combines domain and authority models using a Learning to Rank algorithm. Our experiments show that (a) both authority and domain evidence can be trained from the vocabulary of influencers; (b) once the language of influencers is modeled as a likelihood signal, further supervised learning and additional network-based signals only provide marginal improvements; and (c) the availability of training data sets is crucial to obtain competitive results in the task. Our most remarkable finding is that influencers do use a distinctive vocabulary, which is a more reliable signal than nontextual network indicators such as the number of followers, retweets, and so on.Publication Automatic Generation of Entity-Oriented Summaries for Reputation Management(Springer, 2020-04-01) Rodríguez Vidal, Javier; Verdejo, Julia; Carrillo de Albornoz Cuadrado, Jorge Amando; Amigo Cabrera, Enrique; Plaza Morales, Laura; Gonzalo Arroyo, Julio AntonioProducing online reputation summaries for an entity (company, brand, etc.) is a focused summarization task with a distinctive feature: issues that may affect the reputation of the entity take priority in the summary. In this paper we (i) present a new test collection of manually created (abstractive and extractive) reputation reports which summarize tweet streams for 31 companies in the banking and automobile domains; (ii) propose a novel methodology to evaluate summaries in the context of online reputation monitoring, which profits from an analogy between reputation reports and the problem of diversity in search; and (iii) provide empirical evidence that producing reputation reports is different from a standard summarization problem, and incorporating priority signals is essential to address the task effectively.Publication Collaboratively authored web contents as resources for word sense disambiguation and discovery(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2010-07-09) Santamaría Recio, María Celina; Gonzalo Arroyo, Julio Antonio; Verdejo, María FelisaEn esta tesis, hemos abordado el uso de contenidos de la Red creados colaborativamente, considerándolos fuentes de información léxica, para realizar desambiguación y descubrimiento de sentidos. Nos hemos centrado en dos recursos, el Open Directory Project (ODP) y Wikipedia, ambos colaborativos pero con planteamientos diferentes: ODP organiza jerárquicamente sitios Web por dominios (información implícita); Wikipedia es un repositorio enciclopédico de conocimiento explícito asociado a un lexicón, de amplia cobertura y continuamente actualizado.Publication Combining evaluation metrics via the unanimous improvement ratio and its application in weps clustering task(Association for the Advancement of Artificial Intelligence, 2011-12-01) Artiles, Javier; Verdejo, Felisa; Amigo Cabrera, Enrique; Gonzalo Arroyo, Julio AntonioMany Artificial Intelligence tasks cannot be evaluated with a single quality criterion and some sort of weighted combination is needed to provide system rankings. A problem of weighted combination measures is that slight changes in the relative weights may produce substantial changes in the system rankings. This paper introduces the Unanimous Improvement Ratio (UIR), a measure that complements standard metric combination criteria (such as van Rijsbergen's F-measure) and indicates how robust the measured differences are to changes in the relative weights of the individual metrics. UIR is meant to elucidate whether a perceived difference between two systems is an artifact of how individual metrics are weighted. Besides discussing the theoretical foundations of UIR, this paper presents empirical results that confirm the validity and usefulness of the metric for the Text Clustering problem, where there is a tradeoff between precision and recall based metrics and results are particularly sensitive to the weighting scheme used to combine them. Remarkably, our experiments show that UIR can be used as a predictor of how well differences between systems measured on a given test bed will also hold in a different test bed.Publication Detectando Influencers en Medios Sociales utilizando la información de sus seguidores(Sociedad Española para el Procesamiento del Lenguaje Natural, 2020-03) Rodríguez Vidal, Javier; Gonzalo Arroyo, Julio Antonio; Plaza Morales, LauraDada la tarea de encontrar influencers en un dominio dado (i.e. banking) en una red social, en este artículo investigamos (i) la importancia de caracterizar a los seguidores para la detección automática de influencers; (ii) la manera más efectiva de combinar señales obtenidas de los seguidores y de los perfiles principales para la detección automática de influencers. En este trabajo, hemos modelado el discurso usado por los usuarios en dos dominios, automotive y banking, así como el lenguaje utilizado por los influencers en dichos dominios y por sus seguidores, y utilizamos estos Modelos de Lenguaje para estimar la probabilidad de ser un influencer. Nuestro mayor descubrimiento es que los influencers no sólo dependen de su conocimiento sobre el dominio sino del de sus seguidores; por lo tanto, cuanto mayor conocimiento y número de expertos haya entre sus seguidores, mayor será la probabilidad que el perfil sea de un influencer.Publication Entity-based filtering and topic detection For online reputation monitoring in Twitter(Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes, 2014-01-01) Spina Valentin, Damiano; Gonzalo Arroyo, Julio Antonio; Amigo Cabrera, EnriqueCon el crecimiento de los medios sociales de comunicación en línea como Twitter (el servicio más popular de microblogging), los usuarios y consumidores han pasado a tener el control de lo que se dice acerca de una entidad (p.e., una compañía, un personaje público o una marca) en la Web. Este fenómeno ha creado la necesidad de monitorizar la reputación de dichas entidades en línea. En este ámbito, es esperable un aumento de la demanda de software de minería de textos para la monitorización de la reputación en línea (en inglés, Online Reputation Monitoring): herramientas automáticas que ayudan a procesar, analizar y agregar grandes flujos de menciones acerca de una compañía, organización o personaje público. A pesar de la gran variedad de herramientas disponibles en el mercado, no existe aún un marco de evaluación estándar (es decir, un conjunto de tareas bien definidas, métricas de evaluación y colecciones reutilizables ampliamente aceptados) que permita abordar este problema desde un punto de vista científico. En un marco de esfuerzo colectivo para identificar y formalizar los principales desafíos en el proceso de gestión de reputación en Twitter, hemos participado en la definición de tareas de acceso a la información, así como en la creación de colecciones de test (utilizadas en las campañas de evaluación WePS-3, RepLab 2012 y RepLab 2013) y hemos estudiado en profundidad dos de los desafíos identificados: filtrado de contenido no relevante (¿está relacionado un tweet dado con la entidad de interés?), modelado como una tarea de clasificación binaria, y detección de temas (¿qué se dice de la entidad en un flujo de tweets dado?), donde los sistemas deben agrupar los tweets en función de los temas tratados. En comparación con otros estudios sobre Twitter, nuestro problema se encuentra en su cola larga: salvando algunas excepciones, el volumen de información relacionado con una entidad dada (organización o compañía) en un determinado intervalo de tiempo es varios órdenes de magnitud más pequeño que los trending topics de Twitter, aumentando así su complejidad respecto a la identificación de los temas más populares en Twitter. En esta tesis nos basamos en tres conceptos para proponer distintas aproximaciones para abordar estas dos tareas: el uso de términos clave filtro (filter keywords), el uso de recursos externos (como Wikipedia, páginas web representativas de la entidad, etc.) y el uso de datos de entrenamiento específicos de la entidad (cuando éstos estén disponibles). Nuestros experimentos revelan que la noción de términos clave filtro (palabras que indican una alta probabilidad de que el tweet en el que aparecen esté relacionado o no con la entidad de interés) puede eficazmente ser utilizada para resolver la tarea de filtrado. En concreto, (a) la especificidad de un término con respecto al flujo de tweets de la entidad es un rasgo útil para identificar términos clave; y (b) la asociación entre el término y la página de la entidad en Wikipedia es útil para distinguir entre términos filtro positivos y negativos, especialmente cuando se calcula su valor medio teniendo en cuenta los términos más co-ocurrentes. Además, estudiando la naturaleza de los términos filtro hemos llegado a la conclusión de que existe una brecha terminológica entre el vocabulario que caracteriza la entidad en Twitter y el vocabulario asociado a la entidad en su página principal, Wikipedia o en la Web en general. Por otro lado, hemos hallado que, cuando se dispone de material de entrenamiento para la entidad en cuestión , es más efectivo el uso de un simple clasificador basado en bolsa de palabras. Existiendo suficientes datos de entrenamiento (unos 700 tweets por entidad), estos clasificadores pueden ser utilizados eficazmente para resolver la tarea de filtrado. Además, pueden utilizarse con éxito en un escenario de aprendizaje activo (active learning), en el que el sistema va actualizando su modelo de clasificación en función del flujo de anotaciones realizadas por el experto de reputación durante el proceso de monitorización. En este contexto, seleccionado los tweets en los que el clasificador tiene menos confianza (muestreo basado en márgenes) como aquellos que deben ser etiquetados por el experto, el coste de crear el conjunto inicial de entrenamiento puede llegar a reducirse en un 90% sólo inspeccionando el 10% de los datos de test. A diferencia de otras tareas de Procesamiento del Lenguaje Natural, el muestreo basado en márgenes funciona mejor que un muestreo aleatorio. Con respecto a la tarea de detección de temas, hemos considerado principalmente dos estrategias: la primera, inspirada en la noción de palabras término filtro, consiste en agrupar términos como un paso intermedio para la agrupación de tweets. La segunda, más exitosa, se basa en aprender una función de similitud entre pares de tweets a partir de datos previamente anotados, utilizando tanto rasgos basados en contenido como el resto de señales proporcionadas por Twitter; luego se aplica un algoritmo de agrupación sobre la función de similitud aprendida previamente. Nuestros experimentos revelan que (a) las señales Twitter pueden usarse para mejorar el proceso de detección de temas con respecto a utilizar sólo señales basadas en contenido; (b) aprender una función de similitud a partir de datos previamente anotados es una forma flexible y eficiente de introducir supervisión en el proceso de detección de temas. El rendimiento de nuestro mejor sistema es sustancialmente mejor que las aproximaciones del estado del arte, y se acerca al grado de acuerdo entre anotadores en las anotaciones de detección de temas incluidas en la colección RepLab 2013 (a nuestro conocimiento, la colección más grande para la monitorización de la reputación en línea). Una inspección cualitativa de los datos muestra que existen dos tipos de temas detectados por los expertos de reputación: alertas o incidentes de reputación (que normalmente sobresalen en el tiempo) y temas organizacionales (que, en cambio, suelen ser estables en el tiempo). Junto con nuestra contribución para crear un marco estándar de evaluación para el estudio del problema de la monitorización de la reputación en línea desde una perspectiva científica, creemos que el resultado de nuestra investigación tiene implicaciones prácticas que pueden servir para beneficiar el desarrollo de herramientas semi-automáticas que asistan a los expertos en reputación en su trabajo diario de monitorización.Publication Estimación de la polaridad reputacional mediante contextual word embeddings(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2020-06-01) Fernández Orallo, Eduardo Aarón; Gonzalo Arroyo, Julio AntonioPublication EvALL: Open Access Evaluation for Information Access Systems(Association for Computing Machinery (ACM), 2017) Almagro Cádiz, Mario; Rodríguez Vidal, Javier; Verdejo, Felisa; Amigo Cabrera, Enrique; Carrillo de Albornoz Cuadrado, Jorge Amando; Gonzalo Arroyo, Julio AntonioThe EvALL online evaluation service aims to provide a unified evaluation framework for Information Access systems that makes results completely comparable and publicly available for the whole research community. For researchers working on a given test collection, the framework allows to: (i) evaluate results in a way compliant with measurement theory and with state-of-the-art evaluation practices in the field; (ii) quantitatively and qualitatively compare their results with the state of the art; (iii) provide their results as reusable data to the scientific community; (iv) automatically generate evaluation figures and (low-level) interpretation of the results, both as a pdf report and as a latex source. For researchers running a challenge (a comparative evaluation campaign on shared data), the framework helps them to manage, store and evaluate submissions, and to preserve ground truth and system output data for future use by the research community. EvALL can be tested at http://evall.uned.es.Publication MT Evaluation : human-like vs. human acceptable(2006-07-17) Giménez, Jesús; Màrquez, Lluís; Amigo Cabrera, Enrique; Gonzalo Arroyo, Julio AntonioWe present a comparative study on Machine Translation Evaluation according to two different criteria: Human Likeness and Human Acceptability. We provide empirical evidence that there is a relationship between these two kinds of evaluation: Human Likeness implies Human Acceptability but the reverse is not true. From the point of view of automatic evaluation this implies that metrics based on Human Likeness are more reliable for system tuning. Our results also show that current evaluation metrics are not always able to distinguish between automatic and human translations. In order to improve the descriptive power of current metrics we propose the use of additional syntax-based metrics, and metric combinations inside the QARLA Framework.Publication Organización de resultados de búsqueda mediante análisis formal de conceptos(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informaticos, 2008-06-12) Cigarrán Recuero, Juan Manuel; Gonzalo Arroyo, Julio Antonio; Peñas Padilla, AnselmoEn este trabajo se presenta una aproximación para la organización de resultados de búsqueda mediante Análisis Formal de Conceptos (AFC), aplicable a escenarios de Recuperación de Información (RI) tales como la búsqueda web. Este trabajo aborda cuatro aspectos principales: La definición de un modelo de clustering basado en AFC. La aplicación de esta teoría presenta las ventajas de permitir herencia múltiple sobre los clusters obtenidos y de realizar la descripción de los mismos de manera automática. Además, incluimos la noción de nodo de información con el fin de obtener estructuras de clustering que consideren una aproximación basada en un Universo Abierto para los documentos agrupados La definición de una metodología orientada a la aplicación del modelo sobre escenarios de RI reales. Para cada uno de los procesos involucrados en la construcción del clustering proponemos una serie de alternativas. Debemos destacar el uso de n-gramas para la descripción de los clusters, el uso de un algoritmo balanceado en el proceso de selección de descriptores para minimizar la población de documentos en el cluster raíz o la aplicación de Latent Semantic Indexing (LSI) para detectar relaciones descriptor-documento no explícitas. La definición de paradigmas para la visualización e interacción sobre las estructuras de clustering. El uso de retículos para representar la información agrupada complica el proceso de visualización ya que los paradigmas habitualmente utilizados para representar estructuras de clustering no resultan adecuados. En este trabajo se presentan dos aproximaciones al problema de la visualización cuya característica principal es la de explotar la estructura intrínseca de los retículos obtenidos. La visualización basada en retículos toma como punto de partida los diagramas de Hasse pero reduce el número de clusters visualizados por el usuario en cada momento. De este modo, únicamente se muestran aquellos clusters que, por ser más próximos al cluster que se está inspeccionando, podrían resultar útiles para refinarlo o generalizarlo. En segundo lugar, se propone una visualización basada en directorios web que, aprovechando un paradigma sobradamente conocido por los usuarios, permite mapear la estructura de un retículo de manera sencilla. La definición de un conjunto de medidas de evaluación orientadas a evaluar automaticamente la calidad, en una tarea de RI, de un sistema de clustering basado en retículos. Estas medidas están basadas en los conceptos de área de navegación mínima (MBA) y de coste cognitivo. El primero representa el conjunto mínimo de clusters y enlaces que el usuario debe recorrer para acceder a toda la información relevante recuperada. El coste cognitivo permite introducir en las medidas de evaluación una estimación del esfuerzo que el usuario debe realizar para considerar como relevante un determinado item (un cluster o un documento) en base a su descripci ón. El factor de destilación (DF) únicamente tiene en cuenta el coste cognitivo asociado a la exploración de los documentos y, por lo tanto, no refleja el esfuerzo asociado a explorar el clustering. Esta medida informa acerca del grado de mejora de precisión del retículo con respecto a la lista ordenada de documentos. La calidad del clustering (CQ), sin embargo, extiende la medida anterior al incluir el coste cognitivo asociado a considerar las descripciones de los clusters, lo que permite evaluar de manera mucho más precisa la influencia de la estructura de clustering en el proceso de RI. Finalmente, y con el objeto de demostrar la viabilidad de nuestra propuesta, así como de las medidas de evaluación, hemos desarrollado cuatro prototipos de los que tres de ellos han sido evaluados automáticamente. Los tres prototipos realizan el proceso de clustering sobre la colección de noticias EFE94. Esta colección ha sido utilizada en distintas campañas CLEF (Cross Language Evaluation Forum) y dispone de un amplio conjunto consultas con juicios de relevancia asignados manualmente por expertos. Debemos destacar que, en todos los experimentos realizados, los resultados obtenidos generaron estructuras de clustering cuyos valores de calidad (que mejoraban notablemente la precisión inicial de la lista de documentos recuperada) justificaban la realización del proceso de clustering. El primero de los prototipos describe los clusters utilizando unigramas y lleva a cabo su selección mediante las aproximaciones tf-idf y terminológica. Debemos destacar como resultado relevante que el hecho de aumentar el número de descriptores no mejora proporcionalmente la calidad del clustering. En el segundo prototipo experimenta con sintagmas terminológicos para describir los clusters y utiliza un algoritmo balanceado como estrategia de selección. Como resultados destacables debemos remarcar la mejora sustancial del algoritmo de selección balanceado frente al algoritmo terminol ógico (204.3% para la medida DF), así como capacidad para concentrar una gran cantidad de documentos no relevantes en el cluster raíz. El tercer prototipo utiliza n-gramas para describir los clusters y aplica la estrategia de selección balanceada. Los resultados obtenidos demuestran que la aplicación de LSI mejora la calidad del clustering, aunque no de manera significativa (un 9.5% con respecto a la misma aproximación sin considerar LSI). El uso de snippets, por otro lado, disminuye levemente la calidad de las estructuras de clustering generadas, aunque su capacidad para agrupar correctamente la información relevante (mejora la precisión con respecto a la lista inicial de documentos en un factor 3;48) nos permite concluir que es una aproximación adecuada. De hecho, este resultado permite mostrar la validez de toda nuestra propuesta para ser implementada en sistemas on-line que obtengan los resultados de búsqueda de sistemas comerciales, generando de manera efectiva las estructuras de clustering. El sistema Jbraindead, presentado como prototipo final de este trabajo, lo demuestra.Publication The contribution of linguistic features to automatic machine translation evaluation(2009-08-02) Giménez, Jesús; Verdejo, Felisa; Amigo Cabrera, Enrique; Gonzalo Arroyo, Julio AntonioA number of approaches to Automatic MT Evaluation based on deep linguistic knowledge have been suggested. However, n-gram based metrics are still today the dominant approach. The main reason is that the advantages of employing deeper linguistic information have not been clarified yet. In this work, we propose a novel approach for meta-evaluation of MT evaluation metrics, since correlation cofficient against human judges do not reveal details about the advantages and disadvantages of particular metrics. We then use this approach to investigate the benefits of introducing linguistic features into evaluation metrics. Overall, our experiments show that (i) both lexical and linguistic metrics present complementary advantages and (ii) combining both kinds of metrics yields the most robust metaevaluation performance.Publication Web people search(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2009-10-09) Artiles Picón, Javier; Gonzalo Arroyo, Julio Antonio; Amigo Cabrera, EnriqueIn this thesis we have addressed the problem of name ambiguity while searching for people on the Web. At the beginning of our work, in 2004, there were very few research papers on this topic, and no commercial web search engine would provide this type of facility. For this reason, our research methodology initially focused on the design and organisation (together with Prof. Sekine from New York University) of a competitive evaluation campaign for Web People Search systems. Once the campaign had been run for two years, we used the standard test suites built to perform our own empirical studies on the nature and challenges of the task. The evaluation campaign, WePS, was organized in 2007 (as a SemEval 2007 task) and in 2009 (as a WWW 2009 workshop). WePS was crucial in the process to lay the foundations of a proper scientific study of the Web People Search problem. These were the main accomplishments: • Standardisation of the problem: now a majority of researchers focus on the problem as a search results mining task (clustering and information extraction), as it has been defined in WePS. • Creation of standard benchmarks for the task: since the first WePS campaign in 2007, the number of publications related to Web People Search has grown substantially, and most of them use the WePS test suites as a de-facto standard benchmark. As of summer 2009, there were already more than 70 research papers citing WePS overviews; this not only suggests that WePS has indeed become a standard reference for the task, but also that it has contributed to arouse the interest in this kind of research problems. • Design of evaluation metrics for the task: 1. We have performed a careful formal analysis of several extrinsic clustering evaluation metrics based on formal constraints, to conclude that BCubed metrics are the most suitable for the task. We have also extended the original BCubed definition to allow for overlapping clusters, which is a practical requirement of the task. Our results are general enough to be employed in other clustering tasks. 2. We have introduced a new metric combination function, Unanimous Improvement Ratio (UIR), which, unlike Van Rijsbergen’s F, does not require an a-priori weighting of metrics (in our case, BCubed Precision and Recall). In an extensive empirical study we have shown that UIR provides rich information to compare the performance of systems, which was impossible with previous existing metric combinations functions (most prominently F). Using the results of the WePS-2 campaign, we have shown that F and UIR provide complementary information and, altogether, constitute a powerful analytical tool to compare systems. Although we have tested UIR only in the context of our task, it could be potentially useful in any task where several evaluation metrics are needed to capture the quality of a system, as it happens in several Natural Language Processing problems. Using the test suites produced in the two WePS evaluation campaigns, we have then performed a number of empirical studies in order to enhance a better understanding and comprehension of both the nature of the task involved and the way to solve it: • First, we have studied the potential effects of using (interactive) query re- finements to perform the Web People Search task. We have discovered that, although in most occasions there is an expression that can be used as a nearperfect refinement to retrieve all and only those documents referring to an individual, the nature of these ideal refinements is unpredictable and very unlikely to be hypothesized by the user. This confirms the need for search results clustering, and also suggests that looking for an optimal refinement may be a strategy of automatic systems to accomplish the task (and one that has not been used by any participant in the WePS campaigns). • Second, we have studied the usefulness of linguistic (computationally intensive) features as compared to word n-grams and other cheap features to solve our clustering problem. Notably, named entities, which are the most popular feature immediately after bag-of-words approaches, does not seem to provide a direct competitive advantage to solve the task. We have reached this conclusion abstracting from a particular choice of Machine Learning and Text Clustering algorithms, by using a Maximal Pairwise Accuracy estimator introduced in this thesis. • As a side effect of our empirical study, we have built a system which, using the confidence of a binary classifier (whether two pages are coreferent or not) as a similarity metric between document pairs to feed a Hierarchical Agglomerative Clustering algorithm, provides the best results for the task known to us (F0.5 = 0.83 vs. 0.82 for the best WePS-2 system), without using computationally intensive linguistic features.