012false100true score desc 2gaptrue5mapcontentxmltrue50object_type_i,object_type_i_lookup,coverage_period_mt,geographic_area_mt,geographic_coordinates_mt,author_role_mt,contributor_role_mt,org_id_mt,org_role_mt,supervisor_mt,supervisor_id_mi,supervisor_id_mi_lookup,fields_of_research_mi,fields_of_research_mi_lookup,display_type_i,display_type_i_lookup,seo_code_mi,seo_code_mi_lookup,copyright_i,license_i,license_i_lookup,oa_compliance_t,oa_notes_t,grant_id_t,funding_body_t,description_of_resource_t,software_required_t,project_description_t,keywords_mt,project_name_t,project_id_t,isdatasetof_mt,isdatasetof_mt_lookup,notes_t,date_dt,xsd_display_option_mi,xsd_display_option_mi_lookup,file_downloads_i,created_date_dt,updated_date_dt,research_program_mt,title_t,depositor_i,isderivationof_mt,assigned_user_id_mt,assigned_group_id_mi,assigned_group_id_mi_lookup,isdatacomponentof_mt,isannotationof_mt,author_id_mi,author_id_mi_lookup,alternative_title_mt,pid_t,publisher_t,author_mt,contributor_mt,contributor_id_mi,contributor_id_mi_lookup,refereed_i,series_t,journal_name_t,newspaper_t,conference_name_t,book_title_t,identifier_mt,edition_t,subject_mi,subject_mi_lookup,place_of_publication_t,start_page_t,end_page_t,chapter_number_t,issue_number_t,volume_number_t,conference_dates_t,conference_location_t,patent_number_t,country_of_issue_t,description_t,date_available_dt,language_mt,phonetic_title_t,language_of_title_mt,translated_title_t,phonetic_journal_name_t,translated_journal_name_t,phonetic_book_title_t,translated_book_title_t,phonetic_newspaper_t,file_attachment_name_mt,translated_newspaper_t,phonetic_conference_name_t,translated_conference_name_t,issn_mt,isbn_mt,isi_loc_t,prn_t,output_availability_t,na_explanation_t,sensitivity_explanation_t,file_attachment_content_mt,org_unit_name_t,org_name_t,report_number_t,sequence_i,genre_t,genre_type_t,formatted_title_t,formatted_abstract_t,parent_publication_t,convener_t,ismemberof_mt,ismemberof_mt_lookup,link_mt,link_description_mt,rights_t,views_i,scopus_id_t,thomson_citation_count_i,gs_citation_count_i,gs_cited_by_link_t,scopus_citation_count_i,status_i,status_i_lookup,first_author_in_document_derived_t,first_author_in_fez_derived_t,ands_collection_type_t,start_date_dt,end_date_dt,access_conditions_t,extent_t,contact_details_email_mt,contact_details_physical_mt,loc_subject_heading_mt,depositor_affiliation_i,surrounding_features_mt,condition_mt,style_mt,period_mt,category_mt,subcategory_mt,structural_systems_mt,adt_id_t,subtype_t,language_of_parent_title_t,proceedings_title_t,file_description_mt,herdc_code_i,herdc_code_i_lookup,herdc_status_i,herdc_status_i_lookup,institutional_status_i,institutional_status_i_lookup,herdc_notes_t,follow_up_flags_i,follow_up_flags_i_lookup,follow_up_flags_imu_i,follow_up_flags_imu_i_lookup,scopus_doc_type_t,scopus_doc_type_t_lookup,wok_doc_type_t,wok_doc_type_t_lookup,conference_id_i,total_chapters_t,publisher_id_i,translated_proceedings_title_t,native_script_title_t,roman_script_title_t,native_script_book_title_t,roman_script_book_title_t,native_script_journal_name_t,roman_script_journal_name_t,native_script_conference_name_t,roman_script_conference_name_t,total_pages_t,native_script_proceedings_title_t,roman_script_proceedings_title_t,language_of_book_title_mt,language_of_journal_name_mt,language_of_proceedings_title_mt,doi_t,author_count_t,collection_year_dt,location_mt,building_materials_mt,architectural_features_mt,interior_features_mt,sherpa_colour_t,ain_detail_t,rj_2010_rank_t,rj_2010_title_t,rj_2012_rank_t,rj_2012_title_t,rc_2010_rank_t,rc_2010_title_t,herdc_code_description_t,score,citation_t1true60 (evaluación de textos AND date_dt: [2010\-01\-01T00\:00\:00Z TO 2010\-12\-31T00\:00\:00Z] AND ismemberof_mt:bibliuned\:DptoLSI\-ETSI\-Tesis AND status_i:(2)) 6display_type_idisplay_type_i_lookup_exactkeywords_mftdate_year_tauthor_id_miauthor_id_mi_lookup_exactauthor_mftjournal_name_t_ftsubject_misubject_mi_lookup_exactgenre_type_t_ftismemberof_mftismemberof_mt_lookup_exactsubtype_t_ftscopus_doc_type_t_ftscopus_doc_type_t_lookup_exact(_authlister_t:(1)) AND (status_i:(2)) 34172010-06-01T00:00:00Z4922011-05-24T12:27:32Z2017-05-11T21:27:51ZEvaluación de sistemas de búsqueda y validación de respuestastesisuned:IngInf-ArodrigoEn esta tesis se propone un marco para la evaluación de módulos de Validación de Respuestas (AV) que tienen el propósito de mejorar los resultados de los sistemas de Búsqueda de Respuestas (QA). La motivación para la definición de este marco surge del análisis de los resultados de las evaluaciones de QA, donde se observan las siguientes situaciones en las cuáles se podrían mejorar los resultados mediante la incorporación de módulos de AV: - Los conjuntos de respuestas devueltas contienen respuestas incorrectas que provocan que los resultados empeoren. El hecho de eliminar el mayor número de respuestas incorrectas de un conjunto de candidatas supondría una mejora de los resultados. - Los distintos sistemas de QA se complementan entre si de modo que, aunque individualmente obtienen resultados similares, la combinación efectiva de los mismos da lugar a resultados mejores que los de cualquiera de los sistemas individuales. - El procesamiento en cadena, típico de las arquitecturas clásicas utilizadas en QA, provoca que haya una alta dependencia entre módulos y los errores se propaguen de unos módulos a otros. La posibilidad de romper este procesamiento en cadena permitiría disminuir la dependencia entre módulos, permitiendo mejorar los resultados. El primer paso para la definición del marco de evaluación consiste en la propuesta de un modelo de AV basado en el Reconocimiento de la Implicación Textual (RTE). Para comprobar la validez de este modelo se construye una colección de pares texto-hipótesis (que siguen un formato similar al de las colecciones de los RTE Challenges) enfocados a la tarea de AV. El análisis de esta colección permite comprobar la validez del modelo propuesto y supone el punto de partida para la definición del marco de evaluación. La metodología propuesta permite la evaluación de sistemas de AV que actúan en diversos escenarios dentro de un sistema de QA, y la comparación de sus resultados con otros sistemas de QA, para así comprobar si el uso de estos módulos supone mejoras de rendimiento. Además, como parte de la metodología se describen diversos métodos para construir colecciones de evaluación reutilizando los juicios humanos de las evaluaciones de QA. El marco definido se puso en práctica dentro de una tarea de evaluación internacional, el Answer Validation Exercise (AVE), que se desarrolló durante tres ediciones dentro del marco del Cross Language Evaluation Forum (CLEF). La experiencia obtenida durante las tres ediciones de la tarea sirvió para refinar la metodología hasta su versión final, la cuál está a disposición de la comunidad científica junto con los recursos de evaluación generados, para la evaluación de futuros sistemas de AV. Los resultados obtenidos por los sistemas participantes en las campañas del AVE permiten observar que la utilización de módulos de AV mejoraría los resultados en QA, en las tres líneas que se observaron al analizar las evaluaciones de sistemas de QA (eliminar respuestas candidatas incorrectas, combinar distintos sistemas de QA y romper el procesamiento en cadena de un sistema de QA). De hecho, estas observaciones han servido para que haya sistemas de QA que incorporen módulos de AV. Como consecuencia, dichos sistemas de QA han logrado mejorar sus resultados. Además, la mayoría de estos sistemas hizo uso del modelo basado en RTE que se presenta en esta tesis, por lo que se ha demostrado su validez y utilidad en entornos reales. Finalmente, en esta tesis se observa que los módulos de AV podrían ser también de utilidad en escenarios de QA donde es mejor no responder a una pregunta que responderla incorrectamente, como podría suceder por ejemplo en diagnóstico médico. Sin embargo, las evaluaciones de QA no han prestado especial atención a este tipo de escenarios. Por este motivo, en esta tesis se propone una nueva medida para evaluar sistemas de QA que permite premiar a los sistemas que mantienen el número de preguntas respondidas correctamente y logran reducir la cantidad de respuestas incorrectas al dejar preguntas sin responder. Las pruebas realizadas sobre esta medida han mostrado su eficacia a la hora de detectar los mejores enfoques para este tipo de escenarios en comparación con otras medidas de evaluación típicas en QA.0Doctoral Thesis7732<a class="citation_author_name" title="Navegar por nombre de Autor de Rodrigo Yuste, Álvaro" href="/fez/list/author/Rodrigo Yuste, Álvaro/">Rodrigo Yuste, Álvaro</a>. <b><i><a class="citation_title" title="Click para ver : Evaluación de sistemas de búsqueda y validación de respuestas" href="/fez/view/tesisuned:IngInf-Arodrigo">Evaluación de sistemas de búsqueda y validación de respuestas</a></i></b> . <span class="citation_date">2010</span>. <span class="citation_publisher">Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos</span>RecordDoctoral ThesisPublishedIngeniería InformáticaUniversidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas InformáticosRodrigo Yuste, ÁlvaroPeñas Padilla, Anselmo (Director de Tesis)tesisuned:IngInf-Arodrigohttp://e-spacio.uned.es/fez/view/tesisuned:IngInf-ArodrigospaDocumento.pdfbibliuned:Setthesistesisuned:IngInfbibliuned:Setopenairebibliuned:DptoLSI-ETSI-TesisSet de Tesis Doctorales de la UNEDTesis de la Escuela Técnica Superior de Ingeniería Informática (UNED)Set de openaireDepartamento de Lenguajes y Sistemas Informáticos. E.T.S.I Informática (UNED). Tesishttp://creativecommons.org/licenses/by-nc-nd/4.0Licencia Creative CommonsRodrigo YusteAcceso abierto5.689492734172010-07-08T00:00:00Z9842012-06-05T15:19:27Z2017-05-12T22:09:54ZTécnicas de recuperación de información para la resolución de problemas en la Webtesisuned:IngInf-JmartinezEn esta tesis, se abordan dos de los problemas más importantes que afectan a la Web en la actualidad. El crecimiento vertiginoso de esta red mundial, ha propiciado la conexión en esta tesis de uno de sus principales problemas desde el origen en 1989, los enlaces rotos, con una reciente preocupación de los motores de búsqueda, el web spam. El vínculo entre el problema de los enlaces rotos en las páginas web y el spam de buscadores, se ha establecido mediante el uso común de un conjunto de técnicas de recuperación de información, en forma de sistema de recuperación de información web. El inconveniente que genera la desaparición de una página web, ha sido afrontado mediante el diseño de un Sistema de Recuperación de Enlaces Rotos (SRER). Este sistema analiza la información disponible acerca de una página desaparecida, y recomienda al usuario un conjunto de documentos candidatos para reemplazar el enlace obsoleto. El SRER propuesto en esta tesis, a diferencia del resto de sistemas con objetivos similares, no necesita del almacenamiento previo de ningún tipo de información acerca de la página desaparecida, para poder realizar una recomendación. El diseño de este sistema se compone de cuatro etapas, en las que se aplican diferentes técnicas de recuperación de información y procesamiento del lenguaje natural, para obtener el mejor rendimiento. La primera etapa consiste en un proceso de selección de información, en el cual se analiza en primer lugar, el texto del ancla del hiperenlace que ha dejado de funcionar. Los términos que componen el ancla son una pieza fundamental en el buen funcionamiento del sistema, y de esta forma se realiza un reconocimiento de entidades nombradas, con el objetivo de determinar aquellos términos con un valor descriptivo superior. En segundo lugar, se extrae información del contexto del hiperenlace para conseguir un mayor grado de precisión. Cuando una página web desaparece, durante un periodo de tiempo variable, es posible encontrar datos acerca de dicha página en la infraestructura web. Teniendo en cuenta la presencia de esta información, en tercer lugar se propone el uso de varios recursos disponibles en la Web, con el objetivo de seguir el rastro que ha dejado la página desaparecida. Entre estos recursos se encuentran aplicaciones proporcionadas por los principales motores de búsqueda, librerías digitales, servicios web y redes sociales. La segunda etapa se centra en las fuentes de información obtenidas a partir del contexto del enlace y de los recursos online disponibles. En algunos casos, el tamaño de dichas fuentes es demasiado grande como para discriminar la información relevante de la que no lo es. Por este motivo se lleva a cabo un proceso de extracción de terminología a fin de sintetizar la información. Con el objetivo de optimizar la extracción de los términos más relevantes en cada caso, se han analizado diferentes técnicas de recuperación de información. En la tercera etapa, el SRER analiza la información obtenida y establece un conjunto de consultas, que posteriormente serán ejecutadas en un motor de búsqueda. En esta fase se parte de los datos obtenidos del texto del ancla y a continuación se realiza un proceso de expansión de consultas. Por cada una de las consultas, el sistema recupera los primeros resultados devueltos por el buscador. Una vez finalizada la etapa de expansión de consultas y recuperados las páginas candidatas a reemplazar al enlace roto, se lleva a cabo una ordenación por relevancia, para mostrar al usuario un conjunto de resultados en orden decreciente. Para establecer el orden de aparición, se han analizado algunas funciones de ranking. Estas funciones utilizan la información disponible en la primera etapa para otorgar un valor de relevancia a cada documento. Finalmente, el sistema presenta al usuario una lista de resultados ordenados según su relevancia. Las cuatro etapas en las que se divide el SRER, se encuentran dirigidas por un algoritmo que analiza la información disponible en cada caso, y toma una decisión, con el objetivo de optimizar por un lado los resultados mostrados al usuario y por otro lado el tiempo de respuesta del sistema. Entre las aportaciones de esta tesis, también se encuentra el desarrollo de una metodología de evaluación, que evita el juicio de humanos a fin de ofrecer unos resultados más objetivos. Por último, el SRER, representado a su vez por el algoritmo de recuperación de enlaces rotos, ha sido integrado en una aplicación web denominada Detective Brooklynk. La recuperación de un enlace, es decir, encontrar una página en Internet en función de la información relativa a ella disponible en la página que la apunta, está basada en la hipótesis de que dicha información es coherente. Existen casos es los que los autores de páginas web manipulan la información relativa a una determinada página, con el objetivo de obtener algún beneficio. En esta tesis, analizamos los casos en los que una página web inserta información incoherente acerca de una segunda página apuntada, con el objetivo de promocionarla en un buscador. En la segunda parte de esta tesis, enmarcada dentro del área de la detección de web spam, se parte del concepto de recuperación de enlaces para detectar aquellos de naturaleza fraudulenta. En esta ocasión, el motor del sistema de recuperación de enlaces rotos es modificado para la recuperación de enlaces activos. El objetivo de dicha adaptación es localizar los enlaces cuya información acerca del recurso apuntado es voluntariamente incoherente y por tanto resulta imposible su recuperación. El sistema resultante es capaz de proporcionar un conjunto de indicadores por cada página analizada, empleados para una etapa posterior de clasificación automática. El web spam se divide principalmente en dos grupos de técnicas: aquellas que inciden sobre los enlaces de las páginas web, y las que emplean el contenido para promocionarlas. De esta forma, si mediante el sistema de recuperación de enlaces se consiguen detectar los enlaces fraudulentos, en esta tesis se ha decidido completar la detección de spam de contenido. Para ello, se ha llevado a cabo un análisis de la divergencia entre el contenido de dos páginas enlazadas. El resultado de esta segunda parte de la tesis dedicada a la detección de web spam, es la propuesta de utilización de dos nuevos conjuntos de indicadores. Además, la combinación de ambas características da lugar a un sistema ortogonal que mejora los resultados de detección de ambos conjuntos por separado.0Doctoral Thesis8062<a class="citation_author_name" title="Navegar por nombre de Autor de Martínez Romo, Juan" href="/fez/list/author/Martínez Romo, Juan/">Martínez Romo, Juan</a>. <b><i><a class="citation_title" title="Click para ver : Técnicas de recuperación de información para la resolución de problemas en la Web" href="/fez/view/tesisuned:IngInf-Jmartinez">Técnicas de recuperación de información para la resolución de problemas en la Web</a></i></b> . <span class="citation_date">2010</span>. <span class="citation_publisher">Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos</span>RecordDoctoral ThesisPublishedIngeniería InformáticaUniversidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas InformáticosMartínez Romo, JuanAraujo Serna, Lourdes (Director de Tesis)tesisuned:IngInf-Jmartinezhttp://e-spacio.uned.es/fez/view/tesisuned:IngInf-JmartinezspaDocumento.pdfbibliuned:Setthesistesisuned:IngInfbibliuned:Setopenairebibliuned:DptoLSI-ETSI-TesisSet de Tesis Doctorales de la UNEDTesis de la Escuela Técnica Superior de Ingeniería Informática (UNED)Set de openaireDepartamento de Lenguajes y Sistemas Informáticos. E.T.S.I Informática (UNED). Tesishttp://creativecommons.org/licenses/by-nc-nd/4.0Licencia Creative CommonsMartínez RomoAcceso abierto5.6146502222222222222