Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered)

Núñez Torres, Fredy; Pérez Cabello de Alba, María Beatriz

Publicación:
Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered)

dc.contributor.author	Núñez Torres, Fredy
dc.contributor.author	Pérez Cabello de Alba, María Beatriz
dc.date.accessioned	2024-11-25T09:15:02Z
dc.date.available	2024-11-25T09:15:02Z
dc.date.issued	2022-12
dc.description.abstract	Uno de los mayores desafíos que se nos presentan a la hora de acometer tareas relacionadas con el procesamiento del lenguaje natural y, en particular, con el tratamiento de recursos lingüísticos informatizados, es la ambigüedad léxica. En este trabajo abordamos el tratamiento de la desambiguación léxica dentro del entorno informático DAMIEN (Data Mining ENcountered), una herramienta que integra técnicas de múltiples disciplinas dentro de análisis de texto (i.e. lingüística de corpus, estadística y minería textual) para ayudar en tareas de investigación lingüística (i.e. recolección de datos, extracción de información, clasificación de textos, entre otras). A modo de experimento ilustrativo, llevamos a cabo un estudio de las unidades léxicas polisémicas “cabeza”, “cara” y “carta”, y presentamos los resultados del sistema de desambiguación automática desarrollado con la herramienta DAMIEN. Dentro de los modelos que ofrece el entorno, hemos elegido el método de aprendizaje automático supervisado mediante algoritmo bayesiano ingenuo por tratarse del método que mejores resultados ha dado para la desambiguación léxica automática. Se trata de un modelo matemático que consiste en extraer información de un corpus a partir de conjuntos de datos previamente etiquetados (corpus de entrenamiento) para que la máquina pueda clasificar automáticamente conjuntos de datos nuevos (corpus de prueba). Es importante resaltar la flexibilidad y riqueza del entorno DAMIEN tanto para el tratamiento de recursos lingüísticos informatizados como para el montaje de experimentos del procesamiento del lenguaje natural.	es
dc.description.abstract	Word sense ambiguity is one of the major challenges we face when we carry out tasks related to Natural Language Processing, in particular those related to the processing of electronic language resources. In this study we address word sense disambiguation within the computing environment DAMIEN (Data Mining ENcountered). DAMIEN is an online workbench that embeds several techniques from different fields (corpus linguistics, statistics and text mining) in order to deal with text analysis to help in linguistic research tasks such as data collection, information retrieval and text classification, among others. By way of experiment, we carry out the analysis of the polysemic lexical units “cabeza”, “cara” and “carta” in Spanish and present the results of the automatic disambiguation system developed with DAMIEN. Among the models that the environment offers we have deployed the supervised machine learning method with ingenious bayes algorithm because it has traditionally given the best results for automatic word sense disambiguation. It is a mathematical model that consists in extracting information from a corpus, setting from previously tagged datasets (training corpus), so that new datasets can be automatically classified by the system (trained corpus). It is important to highlight the flexibility and potentialities of DAMIEN for both the processing of electronic linguistic resources and the design of experiments in the field of natural language processing.	en
dc.description.version	versión final
dc.identifier.citation	Núñez Torres, F., & Pérez Cabello de Alba, M. B. (2022). Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered). RAEL: revista electrónica de lingüística aplicada, 21(1), 150-178. https://doi.org/10.58859/rael.v21i1.504
dc.identifier.doi	https://doi.org/10.58859/rael.v21i1.504
dc.identifier.issn	1885-9089
dc.identifier.uri	https://hdl.handle.net/20.500.14468/24498
dc.journal.issue	1
dc.journal.title	RAEL revista electrónica de lingüística aplicada
dc.journal.volume	21
dc.language.iso	es
dc.page.final	178
dc.page.initial	150
dc.publisher	Asociación Española de Lingüística Aplicada, AESLA
dc.relation.center	Facultad de Filología
dc.relation.department	Filologías Extranjeras y sus Lingüísticas
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject	55 Historia::5505 Ciencias auxiliares de la historia::5505.10 Filología
dc.subject.keywords	lingüistica computacional	es
dc.subject.keywords	procesamiento del lenguaje natural	es
dc.subject.keywords	lingüística de corpus	es
dc.subject.keywords	ambigüedad léxica	es
dc.subject.keywords	aprendizaje automático	es
dc.subject.keywords	computational linguistics	en
dc.subject.keywords	natural language processing	en
dc.subject.keywords	corpus linguistics	en
dc.subject.keywords	lexical ambiguity	en
dc.subject.keywords	machine learning	en
dc.title	Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered)	es
dc.title	Development of a Supervised Machine Learning System for Automatic Word Sense Disambiguation using DAMIEN (Data Mining Encountered)	en
dc.type	journal article	en
dspace.entity.type	Publication
relation.isAuthorOfPublication	0a098da0-1888-44e4-823e-8d57950b7097
relation.isAuthorOfPublication.latestForDiscovery	0a098da0-1888-44e4-823e-8d57950b7097

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Desarrollo_Nuñez y Perez Cabello de Alba.pdf
Tamaño:: 806.19 KB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.62 KB
Formato:: Item-specific license agreed to upon submission
Descripción:

Descargar

Colecciones

Artículos y papers

Publicación: Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered)

Archivos

Bloque original

Bloque de licencias

Colecciones

Publicación:
Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered)