Multilabel Text Classification Menggunakan SVM dan Doc2Vec Classification Pada Dokumen Berita Bahasa Indonesia

Kristian Indradiarta Gunawan; Joan Santoso

doi:10.37823/insight.v3i01.126

Authors

Kristian Indradiarta Gunawan Institut Sains dan Teknologi Terpadu Surabaya
Joan Santoso Institut Sains dan Teknologi Terpadu Surabaya

DOI:

https://doi.org/10.37823/insight.v3i01.126

Keywords:

bahasa indonesia, doc2vec, klasifikasi teks, multilabel, svm

Abstract

Seiring dengan berkembangnya informasi yang ada di sekitar dengan pesat, maka jenis informasi yang ada pun menjadi sangat bervariasi dan sangat banyak jumlahnya, dan akan semakin terus bertambah. Dengan kondisi tersebut, kita akan mengalami kesulitan untuk mengenali jenis dari informasi tersebut satu persatu. Oleh karena itu dengan adanya proses klasifikasi teks dan dokumen sangatlah membantu untuk memilah dan mengenali informasi-informasi apa saja yang ada, baik informasi yang lama maupun informasi yang baru dan belum pernah ditemui sebelumnya. Bertujuan untuk dapat mengidentifikasi dan mengklasifikasikan dokumen-dokumen berita dalam bahasa Indonesia ke dalam beberapa kategori sekaligus, maka dibuatlah sebuah penelitian berupa sistem untuk menangani klasifikasi dokumen teks dalam bahasa Indonesia. Sistem tersebut akan memproses berita-berita yang diberikan, dan kemudian akan memberikan 2 kategori yang paling mendekati terhadap isi dari berita tersebut. Sistem dibuat dengan menggunakan Python, memanfaatkan Doc2Vec untuk mengambil fitur dataset, dan SVM untuk melakukan klasifikasi terhadap banyak kelas. Dataset yang digunakan adalah kumpulan dokumen berupa berita-berita yang diperoleh dari CNN Indonesia tahun 2016-2017, dan terbagi dalam 5 kategori berita utama, yaitu: Politik, Ekonomi, Teknologi, Olahraga, dan Hiburan. Dikarenakan sedikitnya literatur untuk klasifikasi text dalam bahasa Indonesia, maka pada penelitian ini hanya menargetkan akurasi sebesar 70% saja. Namun dari hasil ujicoba, akurasi yang diperoleh melebihi 90%. Hasil prediksi untuk kelas dokumen pun memiliki tingkat keberhasilan yang tinggi. Dengan penggunaan dataset dan penanganan preprocessing yang tepat untuk dokumen bahasa Indonesia, maka hasil yang dicapai bisa lebih bagus dan akurat.

Author Biography

Joan Santoso, Institut Sains dan Teknologi Terpadu Surabaya

Joan Santoso lahir di Surabaya, Indonesia, pada tahun 1989. Dia menyelesaikan studi S1 di program studi Teknik Informatika Institut Sains dan Teknologi Terpadu Surabaya pada tahun 2011, menyelesaikan studi masternya pada jurusan Teknologi Informasi Sekolah Tinggi Teknik Surabaya (STTS) pada tahun 2013. Dia juga telah menyelesaikan studi doktoralnya di Institut Teknologi Sepuluh Nopember tahun 2020.

References

[1] A Gentle Introduction to Doc2Vec, https://medium.com/wisio/a-gentle-introduction-to-doc2vec-db3e8c0cce5e, Diakses tanggal 25 November 2020
[2] A.muis, Imelda, Muhammad Affandes. Penerapan Metode Support Vector Machine (SVM) Menggunakan Kernel Radial Basis Function (RBF) Pada Klasifikasi Tweet. Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, UIN Sultan Syarif Kasim Riau, 2015
[3] Ariadi, Dio, Kartika Fithriasari. Klasifikasi Berita Indonesia Menggunakan Metode Naive Bayesian Classification dan Support Vector Machine Dengan Confix Stripping Stemmer. Jurnal Sains dan Seni ITS, Surabaya, 2016
[4] Arifin, Agus Zainal, Ari Novan Setiono. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. Jurusan Teknik Informatika, Institut Teknologi Sepuluh November (ITS), Surabaya, 2002
[5] Cara Kerja Word2Vec, https://medium.com/@afrizalfir/mengenal-word2vec-af4758da6b5d, Diakses tanggal 25 November 2020
[6] Chand, Nanak, Preeti Mishra, C. Rama Krishna, Emmanuel Shubhakar Pilli, Mahesh Chandra Govil. A Comparative Analysis of SVM and its Stacking with other Classification Algorithm for Intrusion Detection. Department of Computer Science and Engineering, National Institute of Technical Teachers, Chandigarh, India.
[7] Doc2Vec Model, https://radimrehurek.com/gensim/models/doc2vec.html, Diakses tanggal 27 Oktober 2020
[8] Doc2Vec Tutorial, https://rare-technologies.com/doc2vec-tutorial/, Diakses tanggal 27 Oktober 2020
[9] Doc2Vec Tutorial Using Gensim, https://medium.com/@klintcho/doc2vec-tutorial-using-gensim-ab3ac03d3a1, Diakses tanggal 27 Oktober 2020
[10] Evolution and Future of NLP, https://www.xenonstack.com/blog/evolution-of-nlp/
[11] Diakses tanggal 25 Oktober 2020
[12] Februariyanti, Herny, Eri Zuliarso. Klasifikasi Dokumen Berita Teks Bahasa Indonesia Menggunakan Ontologi. Fakultas Teknologi Informasi, Universitas Stikubank, Semarang, 2012.
[13] Fradkin, Dmitriy, Ilya Muchnik. Support Vector Machines for Classification. 2000 Mathematics Subject Classification. 62H30.
[14] G., Keraf, Tata Bahasa Indonesia, Flores: Nusa Indah, 1980
[15] Gensim Tutorial, https://www.machinelearningplus.com/nlp/gensim-tutorial, Diakses tanggal 25 Oktober 2020
[16] Latent Dirichlet Allocation (LDA), https://socs.binus.ac.id/2018/11/29/latent-dirichlet-allocation-lda/, diakses tanggal 26 Oktober 2020
[17] Lau, Jey Han, Timothy Baldwin. An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation. Dept of Computing and Information Systems, IBM Research, The University of Melbourne.
[18] Mayoraz, Eddy, Ethem Alpaydin. Support Vector Machines for Multi-class Classification. Dept of Computer Engineering, Bogazici University, Istanbul, Turkey.
[19] Menahem, Eitan, Lior Rokach, Yuval Elovici. Troika – an Improved Stacking Schema for Classification Tasks. Information Systems Engineering Department, Ben Gurion University, Israel.
[20] Mengenal Machine Learning, http://www.postmedya.com/default/mengenal-lebih-dalam-tentang-machine-learning/, Diakses tanggal 25 Oktober 2020
[21] Mengenal Topic Modelling, https://toolbox.kurio.co.id/topic-modeling-696d7ba2592f, diakses tanggal 25 Oktober 2020
[22] Multi-Class text classification With doc2vec Logistic Regression, https://towardsdatascience.com/multi-class-text-classification-with-doc2vec-logistic-regression-9da9947b43f4, Diakses tanggal 7 November 2020
[23] NLP Examples, https://www.bloomreach.com/en/blog/2019/09/natural-language-processing.html, Diakses tanggal 25 Oktober 2020
[24] Pakana, Fitrio “Perancangan Dan Pembuatan Aplikasi Pencarian Dokumen Berbasis Web Dengan Penerapan Metode Suffix Tree Clustering Pada Result Set”, Tugas Akhir, Teknik Informatika, Institut Teknologi Sepuluh Nopember Surabaya, 2001
[25] Support Vector Machine, https://scikit-learn.org/stable/modules/svm.html, Diakses tanggal 30 Oktober 2020
[26] SVM Classification in Python, https://www.datacamp.com/community/tutorials/svm-classification-scikit-learn-python, Diakses tanggal 30 Oktober 2020
[27] Text Preprocessing dengan Python, https://medium.com/@ksnugroho/dasar-text-preprocessing-dengan-python-a4fa52608ffe, Diakses tanggal 26 November 2020
[28] Tokenisasi, https://id.wikipedia.org/wiki/Tokenisasi, Diakses tanggal 26 November 2020
[29] Widiastuty, Nelly Indriani, Ednawati Rainarli, Kania Evita Dewi. Peringkasan dan Support Vector Machiine pada Klasifikasi Dokumen. Universitas Komputer Indonesia, 2017