Lucia Dwi Krisnawati
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

Sistem Identifikasi Bahasa Jawa dan Bahasa Indonesia Dokumen Teks Berbasis N-Gram Karakter Lucia Dwi Krisnawati; Fidelia Vera Sentosa; Aditya Wikan Mahastama
Jurnal Linguistik Komputasional Vol 2 No 1 (2019): Vol. 2, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (974.848 KB) | DOI: 10.26418/jlk.v2i1.16

Abstract

Identifikasi bahasa adalah sebuah proses yang mencoba menemukan bahasa yang digunakan dalam sebuah wacana secara otomatis. Sistem Identifikasi Bahasa (SIB) pada dasarnya dibedakan menjadi SIB lisan yang mengidentifikasi bahasa tutur lewat fitur akustik atau fonem, dan SIB berbasis fitur grafem dalam berbagai level dan kategori linguistiknya. Penelitian ini mencoba untuk membangun SIB yang dirancang untuk membedakan teks berbahasa Jawa dari bahasa Indonesia dan bahasa lainnya. Profil bahasa yang digunakan dibangun dari korpus yang diambil dari korpus Trawaca dan beberapa sumber daring dari berbagai topic. Tujuannya adalah untuk memperkaya kosa kata dan menignkatkan jumlah tipe kata. Profil bahasa tiap kategori diebntuk dari n-gram berbasis karakter dan diambil 100 n-gram dengan nilai CF tertinggi. Perhitungan jarak antara profil bahasa dengan dokumen uji dilakukan dengan menggunakan ukuran Out-Of-Place (OOP). Hasil pengujian menunjukkan bahwa Presisi idenfikasi dokumen berbahasa Jawa mencapai 0.96, sedangkan Presisi dokumen berbahasa Indonesia mencapai 0.86. Nilai Akurasi total identifikasi mencapai 0.85. Nilai Presisi identifikasi bahasa Indonesia jauh lebih rendah disbanding nilai Presisi identifikasi bahasa Jawa disebabkan diujikannya dokumen berbahasa Melayu-Malaysia yang tentu saja teridentifikasi sebagai dokumen berbahasa Indonesia.