Construcción eficiente de datasets de noticias para proyectos de NLP

Galletero Romero, Marcos. (2021). Construcción eficiente de datasets de noticias para proyectos de NLP Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
GalleteroRomeroMarcos_TFM.pdf GalleteroRomeroMarcos_TFM.pdf application/pdf 3.95MB

Título Construcción eficiente de datasets de noticias para proyectos de NLP
Autor(es) Galletero Romero, Marcos
Resumen Las fuentes de datos para estudios de NLP no académicas suelen estar protegidas detrás de un acceso privativo. Los web crawlers (programas que de forma iterativa descargan los archivos HTML de un determinado dominio) permiten que investigadores en NLP tengan acceso a la gran fuente de información que es la red. Sin embargo, estos no ofrecen una solución completa, pues no pueden acceder a versiones anteriores de webs modificadas o borradas, además de que algunos son difíciles de mantener. Common Crawl ofrece solución al primero de estos problemas, manteniendo un back-up de un gran grupo de dominios a lo largo del tiempo. La resolución del segundo problema es el objeto de este proyecto, que pretende hacer el acceso a los datos de Common Crawl fácil y rápido mediante un diseño cloud.
Notas adicionales Trabajo de Fin de Máster Universitario en Ingeniería y Ciencia de Datos. UNED
Materia(s) Ingeniería Informática
Palabra clave scrapping
Common Crawl
NLP
text mining
cloud architectures
parallel computing
data democratization
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor Ruipérez García, Pablo
Fecha 2021-10-08
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-ICD-Mgalletero
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-ICD-Mgalletero
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 262 Visitas, 256 Descargas  -  Estadísticas en detalle
Creado: Thu, 28 Oct 2021, 21:51:14 CET