Reconocimiento de códigos grabados por láser mediante técnicas de Deep Learning

Minaya Montalvo, Marcos. (2022). Reconocimiento de códigos grabados por láser mediante técnicas de Deep Learning Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Sistemas de Comunicación y Control

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Minaya_Montalvo_Marcos_TFM.pdf Minaya_Montalvo_Marcos_TFM.pdf application/pdf 19.24MB

Título Reconocimiento de códigos grabados por láser mediante técnicas de Deep Learning
Autor(es) Minaya Montalvo, Marcos
Resumen Los algoritmos tradicionales de reconocimiento óptico de caracteres (OCR) tienen una larga historia, un amplio desarrollo y una gran aplicabilidad a muchos problemas de digitalización de textos. Sin embargo, en términos de generalización, estos algoritmos están limitados a su propia parametrización ad-hoc para el problema en el que se aplican y al preprocesamiento de la imagen necesario para que funcionen correctamente. Al mismo tiempo, el funcionamiento intrínseco de estos algoritmos, basado en el contraste entre el carácter a reconocer y el fondo de la imagen, hace que en los casos en los que dicho contraste no es muy pronunciado, la tarea de reconocimiento pueda ser imposible. El presente trabajo pretende desarrollar un nuevo algoritmo basado en técnicas de Deep Learning, conocidas por su alta capacidad de generalización para numerosos escenarios gracias a su arquitectura en forma de red neuronal, y de un conjunto de datos suficientemente amplio y variado. Los resultados obtenidos por el modelo D3POCR desarrollado superan con creces a los algoritmos tradicionales de OCR, al menos en este caso de uso. Este nuevo modelo compuesto se basa en 3 fases: la detección y localización del código a reconocer, un ajuste y calibración de sus coordenadas, y finalmente la fase que más se asemeja a un OCR tradicional, que se encarga del reconocimiento del propio código. Para ello, se entrenaron 3 modelos de redes neuronales y se diseñó un algoritmo parametrizado denominado ventana deslizante. A su vez, se recogieron 3 conjuntos de datos en formato de imagen para el entrenamiento de los 3 modelos mencionados anteriormente. Una vez finalizada la fase de desarrollo y entrenamiento del modelo D3POCR, se procedió a su despliegue y se inició la fase de pruebas para comprobar la precisión real del modelo. Los resultados obtenidos reflejaron el gran potencial del modelo frente a la enorme variabilidad de los datos con los que se trabajaba y a un entorno poco controlado. Por último, cabe destacar que este algoritmo no fue diseñado como un modelo de OCR avanzado que pueda ser implementado en otros casos de uso similares, ya que es un desarrollo completamente ad-hoc para un caso de uso real de una empresa de logística. Sin embargo, viendo los resultados obtenidos por este nuevo enfoque de OCR, se pretende que este trabajo sirva de inspiración para nuevos modelos de OCR que trabajen en situaciones similares a las presentadas en este trabajo.
Abstract Traditional OCR algorithms have a long history, extensive development and wide applicability to a many of text digitization problems. However, in terms of generalizability, these algorithms are limited to their own ad-hoc parameterization for the problem in which they are applied and the necessary image pre-processing for them to work correctly. At the same time, the intrinsic operation of these algorithms, based on the contrast between the character to be recognized and the image background, means that in cases where this contrast is not very pronounced, the recognition task may be impossible. The present work seeks to develop a new algorithm based on Deep Learning techniques, which are known for their high generalization capacity for numerous scenarios thanks to their neural network architecture, and of a sufficiently large and varied dataset. The results obtained by the developed D3POCR model far outperform traditional OCR algorithms, at least in this use case. This new composite model is based on 3 phases: the detection and localization of the code to be recognized, an adjustment and calibration of its coordinates, and finally the phase that most resembles a traditional OCR, which is in charge of the recognition of the code itself. For this purpose, 3 neural network models were trained and a parameterized algorithm called sliding window was designed. In turn, 3 sets of data were collected in image format for the training of the 3 models mentioned above. Once the development and training phase of the D3POCR model was completed, it was deployed and the testing phase began to check the real accuracy of the model. The results obtained reflected the great potential of the model in the face of the enormous variability of the data being worked with and a poorly controlled working environment. Finally, it should be noted that this algorithm was not designed as an advanced OCR model that can be implemented in other similar use cases, because it is a completely ad-hoc development for a real use case of a logistics company. However, seeing the results obtained by this new OCR approach, this work is intended to serve as an inspiration for new OCR models working in similar situations to those presented in this paper.
Notas adicionales Trabajo de Fin de Máster Universitario en Ingeniería y Ciencia de Datos. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Sistemas de Comunicación y Control
Director/Tutor Haut Hurtado, Juan Mario
Pastor Vargas, Rafael
Fecha 2022-03-07
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-ICD-Mminaya
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-ICD-Mminaya
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 402 Visitas, 167 Descargas  -  Estadísticas en detalle
Creado: Fri, 11 Mar 2022, 23:17:43 CET