Publicación:
Construcción eficiente de datasets de noticias para proyectos de NLP

dc.contributor.authorGalletero Romero, Marcos
dc.contributor.directorRuipérez García, Pablo
dc.date.accessioned2024-05-20T12:25:21Z
dc.date.available2024-05-20T12:25:21Z
dc.date.issued2021-10-08
dc.description.abstractLas fuentes de datos para estudios de NLP no académicas suelen estar protegidas detrás de un acceso privativo. Los web crawlers (programas que de forma iterativa descargan los archivos HTML de un determinado dominio) permiten que investigadores en NLP tengan acceso a la gran fuente de información que es la red. Sin embargo, estos no ofrecen una solución completa, pues no pueden acceder a versiones anteriores de webs modificadas o borradas, además de que algunos son difíciles de mantener. Common Crawl ofrece solución al primero de estos problemas, manteniendo un back-up de un gran grupo de dominios a lo largo del tiempo. La resolución del segundo problema es el objeto de este proyecto, que pretende hacer el acceso a los datos de Common Crawl fácil y rápido mediante un diseño cloud.es
dc.description.versionversión final
dc.identifier.urihttps://hdl.handle.net/20.500.14468/14205
dc.language.isoes
dc.publisherUniversidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
dc.relation.centerE.T.S. de Ingeniería Informática
dc.relation.degreeMáster universitario en Ingeniería y Ciencia de Datos
dc.relation.departmentInteligencia Artificial
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject.keywordsscrapping
dc.subject.keywordsCommon Crawl
dc.subject.keywordsNLP
dc.subject.keywordstext mining
dc.subject.keywordscloud architectures
dc.subject.keywordsparallel computing
dc.subject.keywordsdata democratization
dc.titleConstrucción eficiente de datasets de noticias para proyectos de NLPes
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
GalleteroRomeroMarcos_TFM.pdf
Tamaño:
3.96 MB
Formato:
Adobe Portable Document Format