Garuda - Garba Rujukan Digital

Hans Christian Kurniawan

Program Studi Informatika, Institut Teknologi Harapan Bangsa Jalan Dipatiukur No. 80-84, Bandung, Indonesia 40132

Author-ID : 4139647

Computer Science & IT Control & Systems Engineering Electrical & Electronics Engineering Industrial & Manufacturing Engineering

Published : 1 Documents Claim Missing Document

Claim Missing Document

Articles

1

Penerapan Convolutional Neural Network untuk Melakukan Estimasi Pitch pada Rekaman Suara Penyanyi Dionisius Pratama; Hery Heryanto; Hans Christian Kurniawan
Jurnal Telematika Vol 16, No 2 (2021)
Publisher : Institut Teknologi Harapan Bangsa

Show Abstract | Download Original | Original Source | Check in Google Scholar

A musical performance is determined by the intonation accuracy, which is the pitch accuracy of a musician or musical instrument, whether a tone is played 'in tune' or not. Therefore, to determine the intonation quality of a musical performance, it is necessary to estimate the pitch. In this research, a one-dimensional Convolutional Neural Network (CNN) is used to estimate the pitch from singing voice recording. After pitch estimation, Dynamic Time Warping (DTW) method is used to calculate the similarity (measured in distance) of pitch estimation results with the recording template from the dataset to determine intonation accuracy. This research uses several preprocessing methods, such as quantization pitch label, spectrogram generation, scaling, and spectrogram recoloring. The CNN method for performing pitch estimation is tested using five songs from the MIR-QBSH dataset. CNN testing is done by applying four architectural designs by combining epoch values, learning rate, number of filters in each convolutional layer, and number of convolutions to find the best combination that produces the highest accuracy. Based on the test results, the model built can produce the highest average accuracy of 97.425% with a difference between the average accuracy and the average validation accuracy of 14.383%. The optimal threshold value for distance is in the range of 1000-1500. Pembawaan karya musik yang baik ditentukan dari ketepatan intonasi yang merupakan akurasi pitch dari sebuah nada yang dikeluarkan oleh seorang musisi atau instrumen musik, diproduksi dengan tepat atau tidak. Maka dari itu, untuk menentukan kualitas intonasi penampilan suatu karya musik, estimasi pitch perlu dilakukan. Pada penelitian ini, sebuah Convolutional Neural Network (CNN) satu dimensi digunakan untuk melakukan estimasi pitch dari rekaman suara nyanyian. Setelah estimasi pitch dilakukan, maka digunakan metode Dynamic Time Warping (DTW) untuk melakukan pengujian kemiripan (dalam distance) hasil estimasi pitch dengan template rekaman dari dataset. Pengujian tersebut dilakukan untuk menentukan ketepatan intonasi. Beberapa metode preprocessing yang dilakukan adalah pembulatan pitch label, pembuatan spektogram, scaling, dan pewarnaan ulang spektogram. Metode CNN untuk melakukan estimasi pitch diuji dengan menggunakan lima lagu dari dataset MIR-QBSH. Pengujian CNN dilakukan dengan menerapkan empat rancangan arsitektur dengan mengombinasikan nilai epoch, learning rate, jumlah filter pada setiap convolutional layer, dan jumlah konvolusi untuk mencari kombinasi terbaik yang menghasilkan akurasi tertinggi. Berdasarkan hasil pengujian, model yang dibangun dapat menghasilkan rata-rata akurasi tertinggi sebesar 97,425% dengan selisih antara rata-rata akurasi dan rata-rata akurasi validasi sebesar 14,383%. Nilai threshold yang optimal untuk distance berada pada rentang 1000-1500.

Title

Found 1 Documents
Search

Abstract

Title Search

Found 1 Documents Search

Abstract

Title

Found 1 Documents
Search