Examinando por Autor "Plaza Morales, Laura"
Mostrando 1 - 14 de 14
Resultados por página
Opciones de ordenación
Publicación Authority and Priority Signals in Automatic Summary Generation for Online Reputation Management(Wiley, 2021-05-01) Rodríguez Vidal, Javier; Carrillo de Albornoz Cuadrado, Jorge Amando; Gonzalo Arroyo, Julio Antonio; Plaza Morales, LauraOnline reputation management (ORM) comprises the collection of techniques that help monitoring and improving the public image of an entity (companies, products, institutions) on the Internet. The ORM experts try to minimize the negative impact of the information about an entity while maximizing the positive material for being more trustworthy to the customers. Due to the huge amount of information that is published on the Internet every day, there is a need to summarize the entire flow of information to obtain only those data that are relevant to the entities. Traditionally the automatic summarization task in the ORM scenario takes some in-domain signals into account such as popularity, polarity for reputation and novelty but exists other feature to be considered, the authority of the people. This authority depends on the ability to convince others and therefore to influence opinions. In this work, we propose the use of authority signals that measures the influence of a user jointly with (a) priority signals related to the ORM domain and (b) information regarding the different topics that influential people is talking about. Our results indicate that the use of authority signals may significantly improve the quality of the summaries that are automatically generated.Publicación Authority and priority signals in Online Reputation Monitoring(Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes, 2019) Rodríguez Vidal, Javier; Gonzalo Arroyo, Julio Antonio; Plaza Morales, LauraPublicación Automatic classification of sexism in social networks(Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes, 2025) Rodríguez Sánchez, Francisco Miguel; Carrillo de Albornoz Cuadrado, Jorge Amando; Plaza Morales, LauraPublicación Automatic Detection of Influencers in Social Networks: Authority versus Domain signals(Wiley, 2019-01-07) Rodríguez Vidal, Javier; Anaya Sánchez, Henry; Gonzalo Arroyo, Julio Antonio; Plaza Morales, LauraGiven the task of finding influencers (opinion makers) for a given domain in a social network, we investigate (a) what is the relative importance of domain and authority signals, (b) what is the most effective way of combining signals (voting, classification, learning to rank, etc.) and how best to model the vocabulary signal, and (c) how large is the gap between supervised and unsupervised methods and what are the practical consequences. Our best results on the RepLab dataset (which improves the state of the art) uses language models to learn the domain-specific vocabulary used by influencers and combines domain and authority models using a Learning to Rank algorithm. Our experiments show that (a) both authority and domain evidence can be trained from the vocabulary of influencers; (b) once the language of influencers is modeled as a likelihood signal, further supervised learning and additional network-based signals only provide marginal improvements; and (c) the availability of training data sets is crucial to obtain competitive results in the task. Our most remarkable finding is that influencers do use a distinctive vocabulary, which is a more reliable signal than nontextual network indicators such as the number of followers, retweets, and so on.Publicación Automatic Generation of Entity-Oriented Summaries for Reputation Management(Springer, 2020-04-01) Rodríguez Vidal, Javier; Verdejo, Julia; Carrillo de Albornoz Cuadrado, Jorge Amando; Amigo Cabrera, Enrique; Plaza Morales, Laura; Gonzalo Arroyo, Julio AntonioProducing online reputation summaries for an entity (company, brand, etc.) is a focused summarization task with a distinctive feature: issues that may affect the reputation of the entity take priority in the summary. In this paper we (i) present a new test collection of manually created (abstractive and extractive) reputation reports which summarize tweet streams for 31 companies in the banking and automobile domains; (ii) propose a novel methodology to evaluate summaries in the context of online reputation monitoring, which profits from an analogy between reputation reports and the problem of diversity in search; and (iii) provide empirical evidence that producing reputation reports is different from a standard summarization problem, and incorporating priority signals is essential to address the task effectively.Publicación Automatic Recommendation of Forum Threads and Reinforcement Activities in a Data Structure and Programming Course(MDPI, 2023-09-21) Plaza Morales, Laura; Araujo Serna, M. Lourdes; López Ostenero, Fernando; Martínez Romo, JuanOnline learning is quickly becoming a popular choice instead of traditional education. One of its key advantages lies in the flexibility it offers, allowing individuals to tailor their learning experiences to their unique schedules and commitments. Moreover, online learning enhances accessibility to education, breaking down geographical and economical boundaries. In this study, we propose the use of advanced natural language processing techniques to design and implement a recommender that supports e-learning students by tailoring materials and reinforcement activities to students’ needs. When a student posts a query in the course forum, our recommender system provides links to other discussion threads where related questions have been raised and additional activities to reinforce the study of topics that have been challenging. We have developed a content-based recommender that utilizes an algorithm capable of extracting key phrases, terms, and embeddings that describe the concepts in the student query and those present in other conversations and reinforcement activities with high precision. The recommender considers the similarity of the concepts extracted from the query and those covered in the course discussion forum and the exercise database to recommend the most relevant content for the student. Our results indicate that we can recommend both posts and activities with high precision (above 80%) using key phrases to represent the textual content. The primary contributions of this research are three. Firstly, it centers on a remarkably specialized and novel domain; secondly, it introduces an effective recommendation approach exclusively guided by the student’s query. Thirdly, the recommendations not only provide answers to immediate questions, but also encourage further learning through the recommendation of supplementary activities.Publicación Deep-Learning Approach to Educational Text Mining and Application to the Analysis of Topics’ Difficulty(Institute of Electrical and Electronics Engineers, 2020-12-02) Araujo Serna, M. Lourdes; López Ostenero, Fernando; Martínez Romo, Juan; Plaza Morales, LauraLearning analytics has emerged as a promising tool for optimizing the learning experience and results, especially in online educational environments. An important challenge in this area is identifying the most difficult topics for students in a subject, which is of great use to improve the quality of teaching by devoting more effort to those topics of greater difficulty, assigning them more time, resources and materials. We have approached the problem by means of natural language processing techniques. In particular, we propose a solution based on a deep learning model that automatically extracts the main topics that are covered in educational documents. This model is next applied to the problem of identifying the most difficult topics for students in a subject related to the study of algorithms and data structures in a Computer Science degree. Our results show that our topic identification model presents very high accuracy (around 90 percent) and may be efficiently used in learning analytics applications, such as the identification and understanding of what makes the learning of a subject difficult. An exhaustive analysis of the case study has also revealed that there are indeed topics that are consistently more difficult for most students, and also that the perception of difficulty in students and teachers does not always coincide with the actual difficulty indicated by the data, preventing to pay adequate attention to the most challenging topics.Publicación Desarrollo de un sistema de clasificación multi-etiqueta basado en Transformers para la clasificación de códigos eCIE-O-3.1(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2021-10-01) Valencia Gracia, Laura; Plaza Morales, LauraEn el presente trabajo se proponen diferentes arquitecturas basadas en Tranformers que pretenden resolver un problema de clasificación multi-etiqueta de códigos morfológicos eCIE-O-3.1, que son los dedicados a las neoplasias. Para ello, se ha utilizado el conjunto de datos facilitados en la tarea competitiva CANTEMIST cuyo objetivo era presentar un sistema capaz de hacer una clasificación multi-etiqueta de códigos morfológicos eCIE-O-3.1 en informes médicos. Los datos de CANTEMIST se han utilizado para entrenar los diferentes modelos propuestos, junto con diferentes experimentos que se han realizado para tratar de mejorar el rendimiento de los modelos base. Los modelos base consisten en diferentes modelos BERT pre-entrenados con distintos conjuntos de datos y diferentes idiomas: algunos modelos son específicamente empleados en español mientras que otros son multi-idioma, algunos modelos han sido pre-entrenados con textos médicos y otros con textos de ámbito general. Se ha realizado un preprocesamiento de los textos médicos para que puedan ser entrenados por el modelo, ya que BERT necesita un tipo específico de datos de entrada. Finalmente, se ha realizado una evaluación exhaustiva del sistema de clasificación sobre el conjunto de test de CANTEMIST para determinar su rendimiento. Se han comparado los resultados obtenidos con los de los sistemas que presentaron los participantes de CANTEMIST en 2020. Los resultados obtenidos muestran que el procedimiento empleado es capaz de realizar una clasificación multi-etiqueta con un buen acierto, aunque con limitaciones y problemas debido a la aproximación empleada.Publicación Detectando Influencers en Medios Sociales utilizando la información de sus seguidores(Sociedad Española para el Procesamiento del Lenguaje Natural, 2020-03) Rodríguez Vidal, Javier; Gonzalo Arroyo, Julio Antonio; Plaza Morales, LauraDada la tarea de encontrar influencers en un dominio dado (i.e. banking) en una red social, en este artículo investigamos (i) la importancia de caracterizar a los seguidores para la detección automática de influencers; (ii) la manera más efectiva de combinar señales obtenidas de los seguidores y de los perfiles principales para la detección automática de influencers. En este trabajo, hemos modelado el discurso usado por los usuarios en dos dominios, automotive y banking, así como el lenguaje utilizado por los influencers en dichos dominios y por sus seguidores, y utilizamos estos Modelos de Lenguaje para estimar la probabilidad de ser un influencer. Nuestro mayor descubrimiento es que los influencers no sólo dependen de su conocimiento sobre el dominio sino del de sus seguidores; por lo tanto, cuanto mayor conocimiento y número de expertos haya entre sus seguidores, mayor será la probabilidad que el perfil sea de un influencer.Publicación Feature engineering for sentiment analysis in e-health forums(Public Library of Science, 2018-11-29) Rodríguez Vidal, Javier; Carrillo de Albornoz Cuadrado, Jorge Amando; Plaza Morales, Laura; Teomiro García, Ismael IvánIntroduction Exploiting information in health-related social media services is of great interest for patients, researchers and medical companies. The challenge is, however, to provide easy, quick and relevant access to the vast amount of information that is available. One step towards facilitating information access to online health data is opinion mining. Even though the classification of patient opinions into positive and negative has been previously tackled, most works make use of machine learning methods and bags of words. Our first contribution is an extensive evaluation of different features, including lexical, syntactic, semantic, network-based, sentiment-based and word embeddings features to represent patient-authored texts for polarity classification. The second contribution of this work is the study of polar facts (i.e. objective information with polar connotations). Traditionally, the presence of polar facts has been neglected and research in polarity classification has been bounded to opinionated texts. We demonstrate the existence and importance of polar facts for the polarity classification of health information. Material and methods We annotate a set of more than 3500 posts to online health forums of breast cancer, crohn and different allergies, respectively. Each sentence in a post is manually labeled as “experience”, “fact” or “opinion”, and as “positive”, “negative” and “neutral”. Using this data, we train different machine learning algorithms and compare traditional bags of words representations with word embeddings in combination with lexical, syntactic, semantic, network-based and emotional properties of texts to automatically classify patient-authored contents into positive, negative and neutral. Beside, we experiment with a combination of textual and semantic representations by generating concept embeddings using the UMLS Metathesaurus. Results We reach two main results: first, we find that it is possible to predict polarity of patient-authored contents with a very high accuracy (≈ 70 percent) using word embeddings, and that this considerably outperforms more traditional representations like bags of words; and second, when dealing with medical information, negative and positive facts (i.e. objective information) are nearly as frequent as negative and positive opinions and experiences (i.e. subjective information), and their importance for polarity classification is crucial.Publicación Leveraging Unsupervised Task Adaptation and Semi-Supervised Learning With Semantic-Enriched Representations for Online Sexism Detection(Wiley, 2024-10-25) Rodríguez-Sánchez, Francisco; Carrillo de Albornoz Cuadrado, Jorge Amando; Plaza Morales, Laura; https://orcid.org/0000-0002-4669-5261Over the past decade, the proliferation of hateful and sexist content targeting women on social media has become a concerning issue, adversely affecting women's lives and freedom of expression. Previous efforts to detect online sexism have utilized monolingual ensemble transformers combined with data augmentation techniques that incorporate related-domain data, such as hate speech. However, these approaches often struggle to capture the full diversity and complexity of sexism due to limitations in the size and quality of training data. In this study, we introduce a novel sexism detection system that employs in-domain unlabeled data through unsupervised task-adaptation techniques and semi-supervised learning, using an efficient single multilingual transformer model. Additionally, we incorporate a Sentence-BERT layer to enhance our system with semantically meaningful sentence embeddings. Our proposed system outperforms existing state-of-the-art methods across all tasks and datasets, demonstrating its effectiveness in detecting and addressing sexism in social media text. These results underscore the potential of our approach, providing a foundation for further research and practical applications.Publicación Un Método para la Detección de Controversia en Textos y su Aplicación al Caso de Comentarios sobre Fármacos en Foros de Salud(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2020-09-01) López López, Ezequiel; Albornoz Cuadrado, Jorge Carrillo de; Plaza Morales, LauraLa controversia, como fenomeno social y ling ustico, consiste en la discusion o debate reiterado de individuos con posiciones enfrentadas. En la actualidad, goza de una especial visibilidad gracias a las condiciones idoneas de una sociedad hiperconectada, que han permitido registrar y potenciar la interaccion de usuarios online, a menudo anonima, as como la creacion y consumo de contenido nunca antes visto. Analizar las propiedades y caractersticas propias de este fenomeno puede permitirnos extraer diferentes insights sobre el tema que es objeto de controversia: un mejor entendimiento del porque de su controversia, su percepcion en la comunidad, si el fenomeno de controversia es equivalente para diferentes dominios y facilitar el desarrollo de herramientas que mejoren el acceso y consumo de la informacion para los usuarios, entre otros aspectos de interes. Sin embargo, debido a su sutileza y dependencia del contexto, su denicion y deteccion es aun un paradigma sin resolver. En este trabajo se ha realizado un estudio del problema de la deteccion de controversia en textos, identicando cuales son los desafos de las metodologas existentes en el estado del arte para este problema. Entre estos desafos, encontramos una falta de denicion explcita y ampliamente aceptada y aplicada, as como una metodologa para su deteccion acordemente amplia e independiente del dominio y caso de uso. Para afrontar dichos desafos, hemos desarrollado una propuesta para una denicion amplia de controversia, independiente del dominio, y una aproximaci on tecnica para su deteccion, ademas de su implementacion y evaluacion en un caso de estudio concreto: el de comentarios de usuarios en foros del ambito medico (corpus Drug Review Dataset). Dicha propuesta se ha basado, por un lado, en la novedosa aplicacion formal de deteccion de argumentacion como base para la deteccion de controversia, y por otro lado, incluyendo otros aspectos presentes en el estado del arte, como son la formacion de grupos de opinion y la confrontacion de dichos grupos respecto al tema de controversia. Se ha desarrollado un sistema modular de deteccion basado en dicha denicion, consistente en un detector de argumentos, un componente de clustering de argumentos, un clasicador de polaridad y un estimador de controversia, de propuesta propia. Para dicho componente, se han conseguido resultados de clasicacion de argumentos que superan los encontrados en el estado del arte para el mismo problema y conguracion. Finalmente, hemos evaluado el caso particular Drug Review Dataset, comparando los resultados con una anotacion manual para el mismo dataset, llevada a cabo por tres anotadores diferentes. Los resultados obtenidos son prometedores, detectando la controversia correctamente en sus extremos y aportando una serie de detalles para su explicabilidad.Publicación A systematic review on media bias detection: What is media bias, how it is expressed, and how to detect it(Elsevier, 2023-09-26) Rodrigo Ginés, Francisco Javier; Carrillo de Albornoz Cuadrado, Jorge Amando; Plaza Morales, Laura; https://orcid.org/0000-0001-6235-6860Media bias and the intolerance of media outlets and citizens to deal with opposing points of view pose a threat to the proper functioning of democratic processes. In this respect, we present a systematic review of the literature related to media bias detection, in order to characterize and classify the different types of media bias, and to explore the state-of-the-art of automatic media bias detection systems. The main objectives of this paper were twofold. First, we framed information, misinformation and disinformation within a theoretical framework that allows us to differentiate the different existing misinformation problems such as us media bias, fake news, or propaganda. Second, we studied the state of the art of automatic media bias detection systems: analyzing the most recently used techniques and their results, listing the available resources and the most relevant datasets, and establishing a discussion about how to increase the maturity of this area. After doing a comprehensive literature review, we have identified and selected a total of 17 forms of media bias that can be classified depending on the context (e.g., coverage bias, gatekeeping bias, or statement bias), and on the author’s intention (e.g., spin bias, or ideology bias). We also reviewed, following the PRISMA methodology, the main automatic media bias detection systems that have been developed so far, selecting 63 relevant articles, from which we extracted the most used techniques; including non-deep learning methods (e.g., linguistic-based methods, and reported speech-based methods), and deep learning methods (e.g., RNNs-based methods, and transformers-based methods). Additionally, we listed and summarized 18 available datasets for the task of automatic media bias detection. In conclusion, the current methods for automatic media bias detection are still in their infancy and there is still a lot of potential for improvement in terms of accuracy and robustness. We have proposed some future research lines that could potentially contribute to the development of more advanced techniques.Publicación Using pre-trained language models to automatically identify research phases in biomedical publications(Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2022-07-08) Duran Silva, Nicolau; Plaza Morales, Laura; Carrillo de Albornoz Cuadrado, Jorge AmandoLa ciencia, la investigación y la innovación buscan resolver retos complejos, como por ejemplo abordar un tipo de cáncer o, como recientemente, desarrollar la vacuna del COVID-19. La resolución de estos problemas complejos, especialmente en la investigación biomédica, puede ser costosa, inficiente e insostenible. Suele implicar la colaboración de un amplio conjunto de sectores y actores, puesto que generalmente una sola institución no dispone de los recursos necesarios para desarrollar una innovación de principio a fin, algunos actores se apoyan en otros para combinar sus descubrimientos y lograr una mayor contribución al individuo. De hecho, el número de publicaciones científicas disponibles crece año tras año, especialmente en el ámbito biomédico. Las agencias de financiación, los gobiernos y las universidades están cada vez más interesados en comprender que actividades de investigaci ón se _financian o se llevan a cabo en el ecosistema de investigación, cómo contribuye la ciencia a estas misiones y desafíos, y si existen lagunas de financiación e investigación en diferentes áreas o dominios. La comprensión de los temas abordados por las publicaciones cientificas ha atraído la atención de los investigadores en procesamiento del lenguaje natural (PLN), des de hace varias décadas. Sin embargo, los \dominios específicps", como la biomedicina, se enfrentan a retos y complejidades adicionales. Los modelos neuronales del lenguaje basados en el Transformer han supuesto un gran avance para diversas tareas de PLN, ya que estan preentrenados sobre grandes conjuntos de documentos sin etiquetar y son capaces de aprender una representación universal del lenguaje que se adapta a las tareas posteriores. La mayoría de estos modelos están preentrenados sobre textos de dominio general, aunque hay algunos preentrenados o adaptados a los dominios biomédico y clínico, que son especialmente prometedores para abordar el procesamiento y comprensión de textos en el dominio que nos ocupa. En el presente trabajo, y para dar respuesta a la creciente necesidad de conocer el estado de la investigación en el dominio biomédico, presentamos BATRACIO (BAsic-TRAnslational-Clinical research phases classification in bIOmedical publications), un conjunto de datos para clasificar publicaciones científicas del dominio biomédico en fases de investigación. Exploramos si los modelos lingüisticos preentrenados específicos del dominio superan a los modelos del lenguaje preentrenados en el dominio general, y cómo los adaptamos para enfrentarnos a un conjunto de datos desequilibrado en el dominio biomédico y con categorías adyacentes. Finalmente, en los resultados observamos que los modelos preentrenados del lenguaje basados en BERT, específicamente los modelos preentrenados en el dominio biomédico o científico, ofrecen una gran oportunidad para resolver esta tarea satisfactoriamente. Además, también hemos explorado cómo utilizarlos para la clasificación de textos y que estrategias pueden ser favorables para la clasificación de artículos de investigación biomédica, como la limpieza del texto y el ajuste de hiperparámetros. No obstante, los principales retos específicos de nuestro conjunto de datos son el desequilibrio de clases y que las categorías no son mutuamente independientes, sino que tienen relaciones semánticas de adyacencia entre ellas. Este no era un objetivo principal del proyecto, pero tambien hemos explorado si ligeras modificaciones en la función de pérdida pueden hacer frente a las categorías desequilibradas y adyacentes, aunque los resultados de estos experimentos son parcialmente satisfactorios, apuntan a futuras líneas de investigación.