Construcción eficiente de datasets de noticias para proyectos de NLP

Galletero Romero, Marcos

Publicación:
Construcción eficiente de datasets de noticias para proyectos de NLP

dc.contributor.author	Galletero Romero, Marcos
dc.contributor.director	Ruipérez García, Pablo
dc.date.accessioned	2024-05-20T12:25:21Z
dc.date.available	2024-05-20T12:25:21Z
dc.date.issued	2021-10-08
dc.description.abstract	Las fuentes de datos para estudios de NLP no académicas suelen estar protegidas detrás de un acceso privativo. Los web crawlers (programas que de forma iterativa descargan los archivos HTML de un determinado dominio) permiten que investigadores en NLP tengan acceso a la gran fuente de información que es la red. Sin embargo, estos no ofrecen una solución completa, pues no pueden acceder a versiones anteriores de webs modificadas o borradas, además de que algunos son difíciles de mantener. Common Crawl ofrece solución al primero de estos problemas, manteniendo un back-up de un gran grupo de dominios a lo largo del tiempo. La resolución del segundo problema es el objeto de este proyecto, que pretende hacer el acceso a los datos de Common Crawl fácil y rápido mediante un diseño cloud.	es
dc.description.version	versión final
dc.identifier.uri	https://hdl.handle.net/20.500.14468/14205
dc.language.iso	es
dc.publisher	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
dc.relation.center	E.T.S. de Ingeniería Informática
dc.relation.degree	Máster universitario en Ingeniería y Ciencia de Datos
dc.relation.department	Inteligencia Artificial
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject.keywords	scrapping
dc.subject.keywords	Common Crawl
dc.subject.keywords	NLP
dc.subject.keywords	text mining
dc.subject.keywords	cloud architectures
dc.subject.keywords	parallel computing
dc.subject.keywords	data democratization
dc.title	Construcción eficiente de datasets de noticias para proyectos de NLP	es
dc.type	tesis de maestría	es
dc.type	master thesis	en
dspace.entity.type	Publication

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: GalleteroRomeroMarcos_TFM.pdf
Tamaño:: 3.96 MB
Formato:: Adobe Portable Document Format

Descargar

Colecciones

Trabajos de fin de máster (TFM)

Publicación: Construcción eficiente de datasets de noticias para proyectos de NLP

Archivos

Bloque original

Colecciones

Publicación:
Construcción eficiente de datasets de noticias para proyectos de NLP