Information Extraction Berbasis Rule Untuk Soal Ujian

Authors

  • Stefanus Nico Soenardjo Institut Sains dan Teknologi Terpadu Surabaya
  • Gunawan Gunawan Institut Sains dan Teknologi Terpadu Surabaya

DOI:

https://doi.org/10.52985/insyst.v2i1.154

Keywords:

Information Extraction, berbasis rule, soal ujian, PDF

Abstract

Proses information extraction dapat dilakukan pada beberapa macam media, seperti artikel berita, tanya jawab dan sebagainya. Penelitian ini mencoba untuk melakukan information extraction pada media soal ujian yang dilengkapi dengan jawaban.

Pendekatan pengolahan informasi yang dibahas dalam penelitian ini adalah information extraction berbasis rule. Informasi yang hendak digali adalah informasi data soal ujian beserta jawabannya. Inputan dalam penelitian ini pasangan file soal dan jawaban milik Cambridge. Ada beberapa mata pelajaran yang digunakan, yaitu Biologi, Matematika dan Ekonomi. Jenis soal yang digunakan juga ada beberapa macam, yaitu pilihan ganda dan esai. Hasil penelitian ini diharapkan bisa menjadi media pembelajaran.  

Penelitian dilakukan dengan menggunakan sebanyak 100 pasang data soal dan ujian. Sistem akan menerima 2 inputan file dengan format PDF. Kedua file ini merupakan pasangan soal dan jawaban. Proses yang diakukan adalah file akan dirubah menjadi 2, yaitu file HTML dan file PNG. File HTML mengandung semua teks soal dan file PNG mengandung semua gambar dari soal. Sistem akan mengambil teks dan gambar dari masing-masing soal dan jawaban berdasrkan rule yang sudah ditentukan. Penentuan rule dilakukan secara manual dengan mempelajari pola-pola data yang tedapat dalam tag HTML. Setelah proses ekstraksi, soal dan jawaban ini dipasangkan sesuai dengan nomor urutnya masing-masing. Pasangan soal dan jawaban ini kemudian akan disimpan ke dalam database. Dari hasil penelitian, tingkat akurasi yang didapatkan adalah sekitar 46%. Kendala utama yang dihadapi adalah format soal dan jawaban yang tidak strandar sehingga menimbulkan kesulitan dalam proses ekstraksi informasi.

References

J. Tang, M. Hong, D. Zhang, B. Liang, and J. Li, “Information extraction: Methodologies and applications,” in Emerging Technologies of Text Mining: Techniques and Applications, 2007.

S. Sarawagi, Information Extraction. Now Publishers, 2008.

R. Gaizauskas and Y. Wilks, “Information extraction: Beyond document retrieval,” J. Doc., vol. 54, no. 1, 1998, doi: 10.1108/EUM0000000007162.

“A Rule-based Information Extraction System,” Int. J. Innov. Technol. Explor. Eng., vol. 8, no. 9, 2019, doi: 10.35940/ijitee.i8156.078919.

L. Chiticariu, Y. Li, and F. R. Reiss, “Rule-based information extraction is dead! Long live rule-based information extraction systems!,” 2013.

Y. Lin, Z. Jun, M. Hongyan, Z. Zhongwei, and F. Zhanfang, “A method of extracting the semi-structured data implication rules,” in Procedia Computer Science, 2018, vol. 131, doi: 10.1016/j.procs.2018.04.315.

N. Bhutani, Y. Suhara, W. C. Tan, A. Halevy, and H. V. Jagadish, “Open information extraction from question-answer pairs,” in NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 2019, vol. 1, doi: 10.18653/v1/n19-1239.

Downloads

Published

2020-04-01