Pengenalan Lirik Lagu Otomatis Pada Video Lagu Indonesia Menggunakan Hidden Markov Model Yang Dilengkapi Music Removal

Luhfita Tirta; Joan Santoso; Endang  Setyati

doi:10.37823/insight.v4i2.225

Authors

Luhfita Tirta Institut Sains dan Teknologi Terpadu Surabaya
Joan Santoso Institut Sains dan Teknologi Terpadu Surabaya
Endang Setyati Institut Sains dan Teknologi Terpadu Surabaya

DOI:

https://doi.org/10.37823/insight.v4i2.225

Keywords:

Video, Subtitle, Hidden Markov Model

Abstract

Video sangat penting untuk membuat informasi berupa suara dalam video agar dapat dipahami oleh semua kalangan masyarakat, dan orang-orang yang memiliki masalah pendengaran yaitu dengan cara paling alami terletak pada penggunaan subtitle. Oleh karena itu, peneliti membuat pengenalan lirik lagu otomatis pada video lagu Indonesia menggunakan Hidden Markov Model yang dilengkapi music removal. Dalam pengenalan suara lebih akurat dilakukan dengan menggunakan model HMM yang dilengkapi oleh MFCC (kata yang cocok 81% dan WER 19%) dibandingkan dengan model LDA + MFCC (kata yang cocok 71% dan WER 29%) dan DWT + MFCC (kata yang cocok 61% dan WER 39%). Jumlah kata dan sample suara pada library Bahasa Indonesia yang digunakan cukup sangat mempengaruhi MFCC dan CMU Sphinx-4, Nada pada inputan lagu yang akan diproses CMU Sphinx-4 juga sangat berpengaruh pada tingkat keberhasilan, dikarenakan CMU Sphinx-4 sangat sensitif dengan nada yang terlalu tinggi dan noise yang ada pada inputan lagu tersebut sehingga peneliti menambahkan fitur ekstraksi pada suara yaitu menggunakan MFCC. Dalam hal ini menggunakan dataset kecil terlebih dahulu untuk memastikan metode Hidden Markov Model yang dilengkapi MFCC dan CMU Sphinx-4 dapat berjalan dengan baik, Dari penelitian beberapa peneliti sebelumnya, maka hasil akhir yang diperoleh dengan menggunakan metode HMM yang dilengkapi oleh MFCC dan CMU Sphinx-4 dalam penelitian ini mendapatkan hasil akurasi training 78% dan testing 81% kecocokan kata pada video lagu.

References

K. Mishra, P. Bhagat, and A. Kazi, “Automatic Subtitle Generation for Sound in Videos,” in International Journal of Engineering and Technology (IRJET), 2016, vol. 3, no. 2, pp. 915–918.

A. Jakhotiya, K. Kulkarni, C. Inamdar, B. Mahajan, and A. Londhe, “Automatic Subtitle Generation for English Language Videos,” in International Journal of Computer Science and Engineering, 2015, vol. 2, no. 10, pp. 5–7, doi: 10.14445/23488387/ijcse-v2i10p102.

B. Mouaz, B. H. Abderrahim, and E. Abdelmajid, “Speech recognition of Moroccan dialect using hidden Markov models,” Procedia Comput. Sci., vol. 151, no. 2018, pp. 985–991, 2019, doi: 10.1016/j.procs.2019.04.138.

A. Nilakhe and S. Shelke, “A design for wireless music control system using speech recognition,” in Conference on Advances in Signal Processing, CASP 2016, 2016, pp. 337–339, doi: 10.1109/CASP.2016.7746191.

R. Sridhar, S. Aravind, H. Muneerulhudhakalvathi, and M. Sibi Senthur, “A hybrid approach for Discourse Segment Detection in the automatic subtitle generation of computer science lecture videos,” Proc. 2014 Int. Conf. Adv. Comput. Commun. Informatics, ICACCI 2014, pp. 284–287, 2014, doi: 10.1109/ICACCI.2014.6968422.

Y. C. Mu, J. S. Hwa, and S. K. Hyung, “Speech/music discrimination for robust speech recognition in robots,” in Proceedings - IEEE International Workshop on Robot and Human Interactive Communication, 2007, vol. 200, pp. 118–121, doi: 10.1109/ROMAN.2007.4415064.

L. M. Lee, “Duration high-order hidden Markov models and training algorithms for speech recognition,” J. Inf. Sci. Eng., vol. 31, no. 3, pp. 799–820, 2015.

J. F. Mari, J. P. Haton, and A. Kriouile, “Automatic word recognition based on second-order hidden markov models,” IEEE Trans. Speech Audio Process., vol. 5, no. 1, pp. 22–25, 1997, doi: 10.1109/89.554265.

X. Liu, Y. Zhao, X. Pi, L. Liang, and A. V. Nefian, “Audio-visual continuous speech recognition using a coupled hidden Markov model,” in 7th International Conference on Spoken Language Processing, ICSLP 2002, 2002, pp. 213–216.

A. Shaukat, H. Ali, and U. Akram, “Automatic Urdu Speech Recognition Using Hidden Markov Model,” in 2016 XXI Symposium on Signal Processing, Images and Artificial Vision (STSIVA), 2016, pp. 135–139.

W. Walker et al., “Sphinx-4: A Flexible Open Source Framework for Speech Recognition,” Language (Baltim)., pp. 1–9, 2004.

M. Mohri, “Finite-State Transducers in Language and Speech Processing,” 1997.

FFmpeg, “FFmpeg.” http://www.ffmpeg.org/ (accessed May 05, 2021).

F Bellard, “FFmpeg naming and logo,” 2006. http://www.ffmpeg.org/about.html (accessed May 05, 2021).