Publicación:
Reconocimiento de códigos grabados por láser mediante técnicas de Deep Learning

Cargando...
Miniatura
Fecha
2022-03-07
Editor/a
Director/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
Atribución-NoComercial-SinDerivadas 4.0 Internacional
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Sistemas de Comunicación y Control
Proyectos de investigación
Unidades organizativas
Número de la revista
Resumen
Los algoritmos tradicionales de reconocimiento óptico de caracteres (OCR) tienen una larga historia, un amplio desarrollo y una gran aplicabilidad a muchos problemas de digitalización de textos. Sin embargo, en términos de generalización, estos algoritmos están limitados a su propia parametrización ad-hoc para el problema en el que se aplican y al preprocesamiento de la imagen necesario para que funcionen correctamente. Al mismo tiempo, el funcionamiento intrínseco de estos algoritmos, basado en el contraste entre el carácter a reconocer y el fondo de la imagen, hace que en los casos en los que dicho contraste no es muy pronunciado, la tarea de reconocimiento pueda ser imposible. El presente trabajo pretende desarrollar un nuevo algoritmo basado en técnicas de Deep Learning, conocidas por su alta capacidad de generalización para numerosos escenarios gracias a su arquitectura en forma de red neuronal, y de un conjunto de datos suficientemente amplio y variado. Los resultados obtenidos por el modelo D3POCR desarrollado superan con creces a los algoritmos tradicionales de OCR, al menos en este caso de uso. Este nuevo modelo compuesto se basa en 3 fases: la detección y localización del código a reconocer, un ajuste y calibración de sus coordenadas, y finalmente la fase que más se asemeja a un OCR tradicional, que se encarga del reconocimiento del propio código. Para ello, se entrenaron 3 modelos de redes neuronales y se diseñó un algoritmo parametrizado denominado ventana deslizante. A su vez, se recogieron 3 conjuntos de datos en formato de imagen para el entrenamiento de los 3 modelos mencionados anteriormente. Una vez finalizada la fase de desarrollo y entrenamiento del modelo D3POCR, se procedió a su despliegue y se inició la fase de pruebas para comprobar la precisión real del modelo. Los resultados obtenidos reflejaron el gran potencial del modelo frente a la enorme variabilidad de los datos con los que se trabajaba y a un entorno poco controlado. Por último, cabe destacar que este algoritmo no fue diseñado como un modelo de OCR avanzado que pueda ser implementado en otros casos de uso similares, ya que es un desarrollo completamente ad-hoc para un caso de uso real de una empresa de logística. Sin embargo, viendo los resultados obtenidos por este nuevo enfoque de OCR, se pretende que este trabajo sirva de inspiración para nuevos modelos de OCR que trabajen en situaciones similares a las presentadas en este trabajo.
Traditional OCR algorithms have a long history, extensive development and wide applicability to a many of text digitization problems. However, in terms of generalizability, these algorithms are limited to their own ad-hoc parameterization for the problem in which they are applied and the necessary image pre-processing for them to work correctly. At the same time, the intrinsic operation of these algorithms, based on the contrast between the character to be recognized and the image background, means that in cases where this contrast is not very pronounced, the recognition task may be impossible. The present work seeks to develop a new algorithm based on Deep Learning techniques, which are known for their high generalization capacity for numerous scenarios thanks to their neural network architecture, and of a sufficiently large and varied dataset. The results obtained by the developed D3POCR model far outperform traditional OCR algorithms, at least in this use case. This new composite model is based on 3 phases: the detection and localization of the code to be recognized, an adjustment and calibration of its coordinates, and finally the phase that most resembles a traditional OCR, which is in charge of the recognition of the code itself. For this purpose, 3 neural network models were trained and a parameterized algorithm called sliding window was designed. In turn, 3 sets of data were collected in image format for the training of the 3 models mentioned above. Once the development and training phase of the D3POCR model was completed, it was deployed and the testing phase began to check the real accuracy of the model. The results obtained reflected the great potential of the model in the face of the enormous variability of the data being worked with and a poorly controlled working environment. Finally, it should be noted that this algorithm was not designed as an advanced OCR model that can be implemented in other similar use cases, because it is a completely ad-hoc development for a real use case of a logistics company. However, seeing the results obtained by this new OCR approach, this work is intended to serve as an inspiration for new OCR models working in similar situations to those presented in this paper.
Descripción
Categorías UNESCO
Palabras clave
Citación
Centro
Facultades y escuelas::E.T.S. de Ingeniería Informática
Departamento
Inteligencia Artificial
Grupo de investigación
Grupo de innovación
Programa de doctorado
Cátedra
DOI