Hacia un corrector ortográfico para la nueva ortografía del chabacano de Zamboanga

Himoro, Marcelo Yuji. (2019). Hacia un corrector ortográfico para la nueva ortografía del chabacano de Zamboanga Master Thesis, Universidad Nacional de Educación a Distancia. Facultad de Filología. Departamento de Filologías Extranjeras y sus Lingüísticas

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Himoro__Marcelo_Yuji_TFM.pdf Himoro_ Marcelo Yuji_TFM.pdf application/pdf 2.07MB

Título Hacia un corrector ortográfico para la nueva ortografía del chabacano de Zamboanga
Autor(es) Himoro, Marcelo Yuji
Resumen En la actualidad, el zamboangueño es la variedad de chabacano o criollo filipino de base española más hablado, contando con más de 400.000 hablantes nativos en todo el país en 2010, sin contar sus hablantes como segunda lengua. Desde 2012, se enseña como asignatura y sirve de lengua vehicular en los tres primeros años de la educación primaria en las escuelas públicas de la Ciudad de Zamboanga, en la región de Mindanao (Filipinas). En la primera parte de este trabajo, se muestra, a través de un análisis breve de algunas actitudes de los hablantes, que pese a su vitalidad, el zamboangueño puede estar amenazado, y proporcionamos muchas directrices para trabajos futuros a ese respecto. Mesuramos también, por medio de un cuestionario difundido en las redes sociales, el grado de familiaridad de los hablantes a la nueva ortografía del chabacano de Zamboanga. En la segunda parte, tomando esa grafía como referencia, procuramos analizar y clasificar errores de ortografía frecuentes tanto en contextos formales como informales en nuestro corpus y proponemos una aproximación para corregir tokens utilizando Traducción Automática Estadística de Caracteres. Los resultados obtenidos muestran que esta aproximación es sumamente adecuada y podría combinarse con las tecnologías de corrección ortográfica más utilizadas actualmente para obtener un mejor desempeño.
Abstract Zamboangueño is nowadays the most widely spoken Chabacano or Philippine Creole Spanish (PCS) variety, with over 400.000 native speakers in the Philippines in 2010, not including the numerous L2 speakers. Since 2012, it has been taught as a subject and serves as a medium of instruction from Grade 1 to 3 in the public schools of Zamboanga City, Mindanao, Philippines. In the first part of this research, we show through a brief analysis of some attitudes of the speakers that, despite its high vitality, Zamboangueño may in fact be endangered, while suggesting many directions for future works regarding this issue. By means of a questionnaire widely distributed to social media users, we also assess the speakers’ level of familiarity with the so-called “Zamboanga Chavacano Orthography”. In the second part, using that orthography as a reference, we aim to analyze and classify the most frequent spell errors found in both formal and informal Zamboangueño in our corpus and propose a Character-Based Statistical Machine Translation approach to correct tokens. The results show that this approach is suitable for the presented purposes and could well be combined with the current de facto spell checking technologies to achieve further performance.
Notas adicionales Trabajo de Fin de Máster. Máster Universitario en las Tecnologías de la Información y la Comunicación en la Enseñanza y el Tratamiento de Lenguas. UNED
Materia(s) Filología
Palabra clave chabacano
zamboangueño
procesamiento del lenguaje natural
PLN
lenguas con pocos recursos
corrector ortográfico
Chavacano
Zamboanga
natural language processing
NLP
underresourced languages
spell checker
Editor(es) Universidad Nacional de Educación a Distancia. Facultad de Filología. Departamento de Filologías Extranjeras y sus Lingüísticas
Director/Tutor Pareja-Lora, Antonio
Fecha 2019-10-22
Formato application/pdf
Identificador bibliuned:master-Filologia-TICETL-Myhimoro
ttp://e-spacio.uned.es/fez/view/bibliuned:master-Filologia-TICETL-Myhimoro
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto
Notas adicionales Via investigadora las TIC para el tratamiento de lenguas

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 1125 Visitas, 1895 Descargas  -  Estadísticas en detalle
Creado: Wed, 20 Nov 2019, 20:44:54 CET