Jurnal Telematika
Vol 16, No 2 (2021)

Penerapan Convolutional Neural Network untuk Melakukan Estimasi Pitch pada Rekaman Suara Penyanyi

Dionisius Pratama (Program Studi Informatika, Institut Teknologi Harapan Bangsa Jalan Dipatiukur No. 80-84, Bandung, Indonesia 40132)
Hery Heryanto (Program Studi Informatika, Institut Teknologi Harapan Bangsa Jalan Dipatiukur No. 80-84, Bandung, Indonesia 40132)
Hans Christian Kurniawan (Program Studi Informatika, Institut Teknologi Harapan Bangsa Jalan Dipatiukur No. 80-84, Bandung, Indonesia 40132)



Article Info

Publish Date
19 Jan 2022

Abstract

A musical performance is determined by the intonation accuracy, which is the pitch accuracy of a musician or musical instrument, whether a tone is played 'in tune' or not. Therefore, to determine the intonation quality of a musical performance, it is necessary to estimate the pitch. In this research, a one-dimensional Convolutional Neural Network (CNN) is used to estimate the pitch from singing voice recording. After pitch estimation, Dynamic Time Warping (DTW) method is used to calculate the similarity (measured in distance) of pitch estimation results with the recording template from the dataset to determine intonation accuracy. This research uses several preprocessing methods, such as quantization pitch label, spectrogram generation, scaling, and spectrogram recoloring. The CNN method for performing pitch estimation is tested using five songs from the MIR-QBSH dataset. CNN testing is done by applying four architectural designs by combining epoch values, learning rate, number of filters in each convolutional layer, and number of convolutions to find the best combination that produces the highest accuracy. Based on the test results, the model built can produce the highest average accuracy of 97.425% with a difference between the average accuracy and the average validation accuracy of 14.383%. The optimal threshold value for distance is in the range of 1000-1500.  Pembawaan karya musik yang baik ditentukan dari ketepatan intonasi yang merupakan akurasi pitch dari sebuah nada yang dikeluarkan oleh seorang musisi atau instrumen musik, diproduksi dengan tepat atau tidak. Maka dari itu, untuk menentukan kualitas intonasi penampilan suatu karya musik, estimasi pitch perlu dilakukan. Pada penelitian ini, sebuah Convolutional Neural Network (CNN) satu dimensi digunakan untuk melakukan estimasi pitch dari rekaman suara nyanyian. Setelah estimasi pitch dilakukan, maka digunakan metode Dynamic Time Warping (DTW) untuk melakukan pengujian kemiripan (dalam distance) hasil estimasi pitch dengan template rekaman dari dataset. Pengujian tersebut dilakukan untuk menentukan ketepatan intonasi. Beberapa metode preprocessing yang dilakukan adalah pembulatan pitch label, pembuatan spektogram, scaling, dan pewarnaan ulang spektogram. Metode CNN untuk melakukan estimasi pitch diuji dengan menggunakan lima lagu dari dataset MIR-QBSH. Pengujian CNN dilakukan dengan menerapkan empat rancangan arsitektur dengan mengombinasikan nilai epoch, learning rate, jumlah filter pada setiap convolutional layer, dan jumlah konvolusi untuk mencari kombinasi terbaik yang menghasilkan akurasi tertinggi. Berdasarkan hasil pengujian, model yang dibangun dapat menghasilkan rata-rata akurasi tertinggi sebesar 97,425% dengan selisih antara rata-rata akurasi dan rata-rata akurasi validasi sebesar 14,383%. Nilai threshold yang optimal untuk distance berada pada rentang 1000-1500.

Copyrights © 2022






Journal Info

Abbrev

telematika

Publisher

Subject

Computer Science & IT Control & Systems Engineering Electrical & Electronics Engineering Industrial & Manufacturing Engineering

Description

Jurnal Telematika is a scientific periodical written in Indonesian language published by Institut Teknologi Harapan Bangsa twice per year. Jurnal Telematika publishes scientific papers from researchers, academics, activist, and practicioners, which are results from scientific study and research in ...