Publicación: Construcción eficiente de datasets de noticias para proyectos de NLP
Cargando...
Fecha
2021-10-08
Autores
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
Atribución-NoComercial-SinDerivadas 4.0 Internacional
info:eu-repo/semantics/openAccess
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Resumen
Las fuentes de datos para estudios de NLP no académicas suelen estar protegidas detrás de un acceso privativo. Los web crawlers (programas que de forma iterativa descargan los archivos HTML de un determinado dominio) permiten que investigadores en NLP tengan acceso a la gran fuente de información que es la red. Sin embargo, estos no ofrecen una solución completa, pues no pueden acceder a versiones anteriores de webs modificadas o borradas, además de que algunos son difíciles de mantener. Common Crawl ofrece solución al primero de estos problemas, manteniendo un back-up de un gran grupo de dominios a lo largo del tiempo. La resolución del segundo problema es el objeto de este proyecto, que pretende hacer el acceso a los datos de Common Crawl fácil y rápido mediante un diseño cloud.
Descripción
Categorías UNESCO
Palabras clave
scrapping, Common Crawl, NLP, text mining, cloud architectures, parallel computing, data democratization
Citación
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Inteligencia Artificial