Ekstraksi Informasi Berbasis Rule untuk Proceeding, Jurnal, dan Technical Report dengan Memanfaatkan Attribut Font dan Paragraf

Authors

  • Christian Aditya Santoso Institut Sains Terapan dan Teknologi Surabaya
  • Gunawan Institut Sains dan Teknologi Terpadu Surabaya

DOI:

https://doi.org/10.52985/insyst.v2i2.163

Keywords:

Ekstraksi Inforasmi, Rule, Jurnal, Prosiding, Paper

Abstract

Digital library merupakan solusi yang baik untuk dunia edukasi. Hal ini disebabkan karena buku yang sudah berevolusi menjadi digital. Awalnya dalam bentuk fisik sekarang sudah dalam bentuk digital dengan ekstensi PDF. Namun untuk membangun sebuah digital library merupakan system yang besar dan kompleks, sehingga diperlukan bagian yang banyak. Penelitian ini mengambil satu bagian dari pengembangan system digital library, yaitu pada bagian preprocessing atau persiapan sumber data digital library. Penyedian sumber data digital library sangat luas dan banyak. Fokus dari penelitian ini adalah penyedian data dimana data tersebut adalah jurnal, prosiding dan paper. Dokumen tersebut dipilih karena dinilai memiliki manfaat yang besar untuk edukasi karena peneliti mendokumentasikan hasil penelitian pada dokumen tersebut. Dalam 1 paper tentunya ada bagian yang menjadi kunci yang menggambarkan intisari dari penelitian tersebut. Pada penelitian ini diambil informasi Judul, Abstract, Keyword dan penulis. Informasi tersebut dipercaya mampu menggambarkan intisari dari suatu paper. Proses dilakukan dengan terbagi menjadi 3 bagian besar yaitu konversi file mentah dengan ekstensi PDF menjadi file JSON, Proses pengambilan fitur, Proses ekstraksi informasi. Ekstraksi informasi pada penelitian ini menggunakan kumpulan rule yang diimplementasikan pada software. Rule di dapat dari hasil pengamatan selama penelitian. Hasil dari penelitian dilakukan perhitungan dengan memberikan bobot dimana hal yang terberat memiliki pengaruh yang lebih besar. Ketelitian  yang dicapai adalah 81.32% dimana dari hipotesa awal pada ketelitain 80%. Namun masih banyak pengembangan yang bisa dilakukan agar lebih baik lagi pada penelitian selanjutnya

References

L. Chiticariu, Y. Li, and F. R. Reiss, “Rule-based information extraction is dead! Long live rule-based information extraction systems!,” 2013.

E. Lim, E. I. Setiawan, and J. Santoso, “Stance Classification Post Kesehatan di Media Sosial Dengan FastText Embedding dan Deep Learning,” J. Intell. Syst. Comput., vol. 1, no. 2, pp. 65–73, 2019.

M. A. Rahman, H. Budianto, and E. I. Setiawan, “Aspect Based Sentimen Analysis Opini Publik Pada Instagram dengan Convolutional Neural Network,” J. Intell. Syst. Comput., vol. 1, no. 2, pp. 50–57, 2019.

S. N. Soenardjo and G. Gunawan, “Information Extraction Berbasis Rule Untuk Soal Ujian,” J. Intell. Syst. Comput., vol. 2, no. 1, pp. 28–33, 2020.

K. Yao, “Header Extraction from Scientific Documents.”

J. Beel, B. Gipp, A. Shaker, and N. Friedrich, “SciPlore Xtract: extracting titles from scientific PDF documents by analyzing style information (Font Size),” in International Conference on Theory and Practice of Digital Libraries, 2010, pp. 413–416.

J. Beel, S. Langer, M. Genzmehr, and C. Müller, “Docear’s PDF Inspector: Title Extraction from PDF Files,” in Proceedings of the 13th ACM/IEEE-CS Joint Conference on Digital Libraries, 2013, pp. 443–444, doi: 10.1145/2467696.2467789.

D. Meyerzon, Y. Cao, H. Li, Q. Zheng, and Y. Hu, “Automatic extraction of titles from general documents using machine learning,” in Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL ’05), 2005, pp. 145–154, doi: 10.1145/1065385.1065418.

L. Kovriguina, A. Shipilo, F. Kozlov, M. Kolchin, and E. Cherny, “Metadata extraction from conference proceedings using template-based approach,” in Communications in Computer and Information Science, 2015, vol. 548, doi: 10.1007/978-3-319-25518-7_13.

F. Peng and A. McCallum, “Information extraction from research papers using conditional random fields,” Inf. Process. & Manag., vol. 42, no. 4, pp. 963–979, 2006.

Downloads

Published

2020-10-01