INFORMATION EXTRACTION BERBASIS RULE UNTUK SOAL UJIAN

  • Stefanus Nico Soenardjo IT
  • Gunawan Gunawan
Keywords: Information Extraction, soal ujian, pdf

Abstract

Proses information extraction dapat dilakukan pada beberapa macam media, seperti artikel berita, tanya jawab dan sebagainya. Penelitian ini mencoba untuk melakukan information extraction pada media soal ujian yang dilengkapi dengan jawaban.

Pendekatan pengolahan informasi yang dibahas dalam penelitian ini adalah information extraction berbasis rule. Informasi yang hendak digali adalah informasi data soal ujian beserta jawabannya. Inputan dalam penelitian ini pasangan file soal dan jawaban milik Cambridge. Ada beberapa mata pelajaran yang digunakan, yaitu Biologi, Matematika dan Ekonomi. Jenis soal yang digunakan juga ada beberapa macam, yaitu pilihan ganda dan esai. Hasil penelitian ini diharapkan bisa menjadi media pembelajaran.  

Penelitian dilakukan dengan menggunakan sebanyak 100 pasang data soal dan ujian. Sistem akan menerima 2 inputan file dengan format PDF. Kedua file ini merupakan pasangan soal dan jawaban. Proses yang diakukan adalah file akan dirubah menjadi 2, yaitu file HTML dan file PNG. File HTML mengandung semua teks soal dan file PNG mengandung semua gambar dari soal. Sistem akan mengambil teks dan gambar dari masing-masing soal dan jawaban berdasrkan rule yang sudah ditentukan. Penentuan rule dilakukan secara manual dengan mempelajari pola-pola data yang tedapat dalam tag HTML. Setelah proses ekstraksi, soal dan jawaban ini dipasangkan sesuai dengan nomor urutnya masing-masing. Pasangan soal dan jawaban ini kemudian akan disimpan ke dalam database. Dari hasil penelitian, tingkat akurasi yang didapatkan adalah sekitar 46%. Kendala utama yang dihadapi adalah format soal dan jawaban yang tidak strandar sehingga menimbulkan kesulitan dalam proses ekstraksi informasi.

References

[1] Tang, Jie, Mingcai Hong, Duo Zhang, Bangyong Liang, dan Juanzi Li. Information Extraction: Methodologies and Applications. https://keg.cs.tsin ghua.edu.cn/jietang/publications/Tang-et-al-Inform ation_Extraction.pdf.
[2] Panda, Soumya Priyadarsini, Varun Behera, Alloran Pradhan, dan Abhisekh Mohanty. A Rule-based Information Extraction System. https://www.ijit ee.org/wp-content/uploads/papers/v8i9/I8156078919 .pdf..
[3] Lin, Yang. Zhou Jun, Mei Hongyan, Zhang Zhongwei dan Feng Zhanfang. A Method of Extracting The Semi-structured Data Implication Rules. https://www.sciencedirect.com/science/article/pii /S18770509183069511-s2.0-S1877050918306951-main.pdf..
[4] Sarawagi, Sunita. Information Extraction. https://www.cis.uni-mue nchen.de/~fraser/information_extraction_2018 _lecture/sar awagi.pdf..
[5] Bhutani, Nikita, Yoshihiko Suhara, Wang-Chiew Tan, Alon Halevy, dan H. V. Jagadish. Open Information Extraction from Question-Answer Pairs. https://arxiv.org/pdf/1903.00172.pdf. Diakses pada Januari 2020
[6] Laura Chiticariu, Yunyao Li, Frederick R. Reiss. Rule-based Information Extraction is Dead! Long Live Rule-based Information Extraction Systems!. https://www.aclweb.org/anthology/D13-1079. pdf. Diakses pada Januari 2020.
[7] Gaizauskas, Robert dan Yorick Wilks. Information Extraction: Beyond Document Retrieval. https://www.aclweb.org/anthology/O98-4002 .pdf. Diakses pada Januari 2020.
Published
2020-10-31