Journal of Data Analysis
Volume 2, Number 2, December 2019

Penerapan Time Delay Neural Network pada Model Akustik untuk Sistem Voice-to-Text Berbahasa Sunda

Alim Misbullah (Jurusan Informatika, Fakultas MIPA, Universitas Syiah Kuala)
Nazaruddin Nazaruddin (Jurusan Informatika, Fakultas MIPA, Universitas Syiah, Banda Aceh, Indonesia)
Marzuki Marzuki (Jurusan Statistika, Fakultas MIPA, Universityas Syiah Kuala, Banda Aceh, Indonesia)
Zulfan Zulfan (Jurusan Informatika, Fakultas MIPA, Universitas Syiah, Banda Aceh, Indonesia)



Article Info

Publish Date
02 May 2020

Abstract

Penerapan metode deep learning dalam berbagai bidang terutama pada kasus pengenalan pola sudah menghasilkan akurasi yang sangat menjanjikan. Jaringan saraf tiruan atau neural network merupakan bagian dari deep learning yang digunakan untuk melatih model pada kasus pengenalan pola seperti model untuk sistem pengenalan ucapan (voice-to-text). Neural network akan menyimpan informasi dari setiap fitur data berupa bobot pada jaringan yang terhubung antar layer pada model yang dibangun. Bobot pada jaringan tersebut diperbaharui berdasarkan banyaknya fitur dari data yang diinput. Sistem voice-to-text merupakan salah satu bidang pengenalan pola yang mengimplementasikan neural network untuk membangun model akustik. Model akustik pada sistem pengenalan ucapan dilatih menggunakan data audio berupa percakapan atau rekaman dari setiap individu untuk bahasa tertentu seperti bahasa Inggris. Penerapan neural network untuk sistem pengenalan ucapan berbahasa Inggris sudah banyak dilakukan bahkan sudah diimplementasikan dalam bentuk aplikasi karena mampu menghasilkan akurasi yang tinggi. Namun, penggunaan neural network untuk bahasa lokal masih jarang digunakan. Dalam tulisan ini, time delay neural network digunakan untuk membangun model akustik pada sistem pengenalan ucapan berbahasa Sunda. Berdasarkan hasil pengujian terhadap model akustik, time delay neural network mampu menghasilkan WER sampai dengan 0.57% setelah dilakukan penyesuaian pada hyperparameter dari neural network.Implementation of deep learning techniques has given promising results recently in any research area, especially for pattern recognition. Neural network as a part of deep learning has been widely used to build model for various pattern recognition field including speech recognition. In neural network, weights which is parameters among layers play important roles to capture information from input data. The parameters are updated frequently based on input features in each iteration. In speech recognition, neural network is implemented to build acoustic model that uses speech from different speakers as training data. The acoustic model is built for specific language such as English, Mandarin and Indonesian. In recent years, the speech recognition system using deep neural network for English language has been developed well and use in many applications. But, implementation of deep neural network for local language is rarely done. In this research, time delay neural network is used to build acoustic model for speech recognition system of Sundanese language. Based on experimental result, the implementation of time delay neural network can reduce WER to be 0.57% with well-tuned hyperparameters of neural network.

Copyrights © 2019






Journal Info

Abbrev

JDA

Publisher

Subject

Decision Sciences, Operations Research & Management Economics, Econometrics & Finance Mathematics

Description

Journal of Data Analysis (JDA) is a journal which has scope in Actuary, Algebra, Applied Mathematics, Applied Statistics, Big Data, Biostatistics, Business and Industrial Statistics, Calculus, Categorical Data Analysis, Computer Science, Data Mining, Data Science, Classification, Econometrics, ...