Information Extraction Pada Pesanan Pembelian Menggunakan RetinaNet dan Tesseract untuk Toko Maju
DOI:
https://doi.org/10.37823/insight.v6i2.315Keywords:
Information Extraction, Object Detection, RetinaNet, TesseractAbstract
Proses jual beli berubah mengikuti perkembangan zaman. Kini, proses transaksi dapat dilakukan dengan sistem pemesanan yang diikuti dengan dokumen pesanan pembelian. Melalui pesanan pembelian, pengusaha dapat memperoleh banyak informasi untuk analisis bisnis. Akan tetapi, banyak dari pengusaha retail masih belum menyimpan data tersebut secara terstruktur, sehingga sulit untuk melakukan analisis dan pelacakan. Meskipun banyak dari pesanan pembelian telah berbentuk digital seperti PDF, pencatatan terstruktur bersumber dari dokumen digital masih memerlukan upaya dalam waktu dan usaha, serta rawan kesalahan jika dilakukan secara manual oleh manusia. Penelitian ini bertujuan untuk membuat model information extraction dari pesanan pembelian berbentuk PDF. Alur kerja dari penelitian ini dimulai dengan pengumpulan data, data pre-processing, information extraction, evaluasi, dan penyimpanan kedalam database. Data yang digunakan pada penelitian ini adalah pesanan pembelian dari “Toko Maju” yang berbentuk PDF. Pesanan pembelian akan dirubah ke format JPEG, sebelum dilakukan proses pelabelan dan pembentukan bounding boxes. Proses information extraction meliputi proses object detection dan OCR. Object detection akan menggunakan model Keras RetinaNet. Setelah letak daerah ekstraksi ditemukan, maka akan dilakukan deteksi karakter atau OCR dengan menggunakan library Tesseract. Informasi hasil ekstraksi akan disimpan ke database MySQL. Model information extraction memperoleh nilai confidence sebesar 95.6% dan nilai accuracy sebesar 95.5%.
References
Munifah, “Pengertian Dan Fungsi Purchase Order (PO),” Jun. 20, 2022. http://komputerisasi-akuntansi-d3.stekom.ac.id/informasi/baca/Pengertian-Dan-Fungsi-Purchase-Order-PO/089e94bf8ffef5d8b5d0293f3c184677c556a7dd#:~:text=Purchase%20order%20(PO)%20adalah%20dokumen,ingin%20dibeli%20oleh%20pihak%20pembeli. (accessed Feb. 27, 2023).
Risal and E. Kristiawati, “ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI PENERAPAN PENCATATAN LAPORAN KEUANGAN PADA UMKM DI KOTA PONTIANAK,” Equilibrium Jurnal Ekonomi-Manajemen-Akuntansi, Vol 16, No 2, 2020.
D. Leon, “Extracting Information From PDF Invoices Using Deep Learning”, Dissertation, 2021.
Soekamto, Y. S. (2020). Ekstraksi Judul dan Abstrak Artikel Ilmiah Berbasis Rule. Journal of Information System,Graphics, Hospitality and Technology, 2(01), 9–13. https://doi.org/10.37823/insight.v2i01.69
Q. M. Tan, Q. Cao, C. K. Seow, and P. C. Yau, “Information Extraction System for Cargo Invoices,” Res Sq, 2023, doi: 10.21203.
I. Farady, C. Y. Lin, A. Rojanasarit, K. Prompol, and F. Akhyar, “Mask Classification and Head Temperature Detection Combined with Deep Learning Networks,” 2020 2nd International Conference on Broadband Communications, Wireless Sensors and Powering, BCWSP 2020, pp. 74–78, 2020, doi: 10.1109/BCWSP50066.2020.9249454.
G. S. Lin, J. C. Tu, and J. Y. Lin, “Keyword detection based on retinanet and transfer learning for personal information protection in document images,” Applied Sciences (Switzerland), vol. 11, no. 20, 2021, doi: 10.3390/app11209528.
S. Cakic, T. Popovic, S. Sandi, S. Krco, and A. Gazivoda, “The Use of Tesseract OCR Number Recognition for Food Tracking and Tracing,” 2020 24th International Conference on Information Technology, IT 2020, no. February, 2020, doi: 10.1109/IT48810.2020.9070558.
S. Sulaiman, R. A. Wahid, and F. Morsidi, “Feature extraction using regular expression in detecting proper noun for Malay news articles based on KNN algorithm,” Journal of Fundamental and Applied Sciences, vol. 9, no. 5S, p. 210, Jan. 2018, doi: 10.4314/jfas.v9i5s.16.
J. M. López-Correa, H. Moreno, A. Ribeiro, and D. Andújar, “Intelligent Weed Management Based on Object Detection Neural Networks in Tomato Crops,” Agronomy, vol. 12, no. 12, 2022, doi: 10.3390/agronomy12122953.
G. Dorrer, M. Koriukin, S. Yushkova, and L. Sviridova, “Vehicle detection in aerial images,” in IOP Conference Series: Earth and Environmental Science, Institute of Physics Publishing, Aug. 2019. doi: 10.1088/1755-1315/315/2/022014.
C. Patel, A. Patel, and D. Patel, “Optical Character Recognition by Open source OCR Tool Tesseract: A Case Study,” Int J Comput Appl, vol. 55, no. 10, pp. 50–56, Oct. 2012, doi: 10.5120/8794-2784.
T. Hegghammer, “OCR with Tesseract, Amazon Textract, and Google Document AI: a benchmarking experiment,” J Comput Soc Sci, vol. 5, no. 1, pp. 861–882, May 2022, doi: 10.1007/s42001-021-00149-1.
S. Heh, “Character and Image Recognition for Data Cataloging in Ecological Research,” Academy and Industry Research Collaboration Center (AIRCC), Apr. 2018, pp. 65–76. doi: 10.5121/csit.2018.80606.
R. G. De Luna, “A Tesseract-based Optical Character Recognition for a Text-to-Braille Code Conversion,” vol. 10, no. 1, 2020.
P. Chakraborty et al., “Recognize Meaningful Words and Idioms from the Images Based on OCR Tesseract Engine and NLTK,” in Lecture Notes in Electrical Engineering, Springer Science and Business Media Deutschland GmbH, 2022, pp. 297–310. doi: 10.1007/978-981-19-1520-8_23.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2024 Journal of Information System,Graphics, Hospitality and Technology
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.