BUSCA DE PALAVRAS CHAVE EM IMAGENS DE LIVROS IMPRESSOS USANDO VISÃO COMPUTACIONAL
Keywords:
Visão Computacional, OCR, Retificação, Android, TesseractAbstract
Com o uso cada vez mais frequente de livros no formato digital, as pessoas buscam os assuntos desejados de uma maneira mais rápida, se comparado à busca em livros impressos. Este trabalho almejou desenvolver um recurso computacional no formato de um aplicativo para smartphones Android, que a partir de uma imagem capturada de uma página de um livro, realiza buscas por palavras chave. O intuito de utilizar o aplicativo é de auxiliar o leitor a encontrar a informação desejada com mais agilidade. Foram utilizadas técnicas de Visão Computacional com o auxílio da biblioteca OpenCV no desenvolvimento de algoritmos para realizar a segmentação, correção da perspectiva da imagem da página do livro, identificação e retificação das linhas onduladas, reconhecimento e classificação de caracteres. Os resultados se mostraram promissores com uma taxa de acerto de mais de 88%.
Downloads
References
AGRAWAL, N.; KAUR, A. An Algorithmic Approach for Text Recognition from Printed/Typed Text Images. In: 2018 8TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING, DATA SCIENCE & ENGINEERING. Noida, India, 2018. https://doi.org/10.1109/CONFLUENCE.2018.8442875
BOOKSTEIN, F. L. Principal warps: thin-plate splines and the decomposition of deformations. IEEE Transaction on Pattern Analysis Machine Intelligence, v. 11, Issue 6, p.567–585, 1989. https://doi.org/10.1109/34.24792
BUNCH, J. R.; HOPCROFT, J. E. Triangular factorization and inversion by fast matrix multiplication. Mathematic of Computation, v. 28, n. 125, p 231-236, 1974. https://doi.org/10.1090/S0025-5718-1974-0331751-8
HARRIS, P.; STEPHENS, M. A combined corner and edge detector. Plessey Research Roke Manor, Reino Unido. 1988. https://doi.org/10.5244/C.2.23
KATZ, F. S. Estudo de comportamento de consumo de livros digitais. 2011. 95 f. TCC (Graduação) - Curso de Administração, UFRS, Rio Grande do Sul, 2011.
KHAOULA, E.; GARCIA, C.; MAMALET, F.; SÉBILLOT, P. Text Recognition in Multimedia Documents: A Study of two Neural-based OCRs Using and Avoiding Character Segmentation. International Journal on Document Analysis and Recognition (IJDAR). v. 17 n. 1, p. 1-13, 2013. https://doi.org/10.1007/s10032-013-0202-7
KAW, A. K.; KALU, E. E.; NGUYEN, D. Numerical methods with applications: chapter 04.06 Gaussian Elimination. University of South Florida. 2018. Disponível em: http://mathforcollege.com/nm/mws/gen/04sle/mws_gen_sle_txt_gaussian.pdf. Acessado em: 13 dez 2020.
KUHN, D. M.; CERVI, C. R.; MANICA, E. Extração de elementos textuais em imagens capturadas por smartphones: análise da relação entre as características das imagens e a eficácia da extração. In: ESCOLA REGIONAL DE BANCO DE DADOS (ERBD), Anais... Porto Alegre, Rio Grande do Sul, Sociedade Brasileira de Computação, 2018.
LIANG, J.; DOERMANN, D.; LI, H. Camera-based analysis of text and documents: a survey. International Journal on Document Analysis and Recognition (IJDAR), v. 7, n. 2-3, p. 84–104, 2005. https://doi.org/10.1007/s10032-004-0138-z
MAGNA JÚNIOR, J. P. O uso de Thin-Plate Splines na transformação de coordenadas com modelagem de distorções entre realizações de referenciais geodésicos. 2012. 117 f. Tese (doutorado) - Universidade Estadual Paulista, Faculdade de Ciências e Tecnologia, 2012.
MIRANDA, R. A. R, SILVA, F. A, ARTERO, A. O., PITERI, M. A, Handwritten Character Recognition based on Frequency, Character-edge Distances and Densities. Anais do IX Workshop de Visão Computacional (WVC 2013), Rio de Janeiro, RJ, 2013.
OLIVEIRA, G. H.; SILVA, F. A.; PEREIRA, D. R.; ALMEIDA, L. L.; ARTERO, A. O. BONORA A. F.; ALBUQUERQUE, V. H. C. Automatic Detection and Recognition of Text-Based Traffic Signs from images. IEEE Latin America Transactions, v. 16, n. 12, p. 2947-2953, 2018. https://doi.org/10.1109/TLA.2018.8804261
OTSU, N. A Threshold Selection Method from Gray-Level Histograms. IEEE Transactions on Systems, Man, And Cybernetics, v. 9, n. 1, p. 62-66, 1979. https://doi.org/10.1109/TSMC.1979.4310076
REIS, B.; TEIXEIRA, J. M. X. N., TEICHRIEB, V.; KELNER, J. Perspective Correction Implementation for Embedded (Marker-Based) Augmented Reality. In: V WORKSHOP DE REALIDADE VIRTUAL E AUMENTADA - WRVA2008, Unesp, Baurú, 2008.
SIDHWA, H.; KULSHRESTHA, S.; MALHOTRA, S.; VIRMANI, S. Text Extraction from Bills and Invoices. In: INTERNATIONAL CONFERENCE ON ADVANCES IN COMPUTING, COMM UNICATION CONTROL AND NETWORKING (ICACCCN), Greater Noida (UP), India, 2018. https://doi.org/10.1109/ICACCCN.2018.8748309
SILVA, F. A.; ARTERO, A. O.; PAIVA, M. S. V.; BARBOSA, R. L. Reconhecimento de Caracteres Baseado em Regras de Transições entre Pixels Vizinhos. Avanços em Visão Computacional. Omnipax Editora Ltda, Curitiba, PR, 2012. https://doi.org/10.7436/2012.avc.14
SMITH, R. An Overview of the Tesseract OCR Engine. Ninth International Conference On Document Analysis And Recognition. In: NINTH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR 2007), 2007. https://doi.org/10.1109/ICDAR.2007.4376991
SUZUKI, S.; ABE, K. Topological Structural Analysis of Digitized Binary Images by Border Following. COMPUTER VISION, GRAPHICS, AND IMAGE, Processings..., v. 30, n. 1, 1985. https://doi.org/10.1016/0734-189X(85)90016-7