Claim Missing Document
Check
Articles

PENGARUH KUANTITAS KORPUS TERHADAP AKURASI MESIN PENERJEMAH STATISTIK BAHASA BUGIS WAJO KE BAHASA INDONESIA Apriani, Tri; Sujaini, Herry; Safriadi, Novi
JUSTIN (Jurnal Sistem dan Teknologi Informasi) Vol 4, No 1 (2016)
Publisher : Jurusan Informatika Universitas Tanjungpura

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (304.762 KB)

Abstract

Bahasa  merupakan  alat  komunikasi  yangdigunakan seseorang untuk menyampaikan ide, gagasan,konsep atau perasaan kepada orang lain. Ragam bahasayang dimiliki setiap orang berbeda, hal ini yang terkadangmenghalangi pertukaran informasi karena orang lain tidakmemahami maksud dan tujuan yang ingin disampaikan,maka  saat  ini  sedang  dikembangkan  teknologi  mesinpenerjemah.  Mesin  penerjemah  statistik  (StatisticalMachine  Translation)  merupakan  sebuah  pendekatanmesin  penerjemah  dengan  hasil  terjemahan  yangdihasilkan  atas  dasar  model  statistik  yang  parameterparameternya diambil dari hasil analisis korpus paralel.Korpus  paralel  adalah  pasangan  korpus  yang  berisikalimat-kalimat dalam suatu bahasa dan terjemahannya.Tujuan  yang  ingin  dicapai  dalam  penelitian  ini  adalahmengetahui  peranan  kuantitas  korpus  pada  mesinpenerjemah  statistik  bahasa  Bugis  Wajo  ke  bahasaIndonesia  untuk  mendapatkan  nilai  akurasi  dalammelakukan pengujian hasil terjemahan. Pengujian untukmendapatkan nilai akurasi  dilakukan  dengan  dua cara,pertama pengujian otomatis menggunakan BLEU. Kedua,pengujian manual oleh ahli bahasa Bugis Wajo. Pengujiandengan BLEU menggunakan kelipatan mesin 200 terhadap2000 kalimat uji diperoleh hasil bahwa semakin banyakjumlah  mesin,  maka  semakin  tinggi  tingkat  akurasi.Sedangkan pengujian manual diperoleh persentase ratarata akurasi sebesar 80,2% terhadap 20 kalimat uji.
Perbandingan Nilai Akurasi Terhadap Penggunaan Part of Speech Set pada Mesin Penerjemah Statistik Dharmawan, Eric; Sujaini, Herry; Muhardi, Hafiz
JUSTIN (Jurnal Sistem dan Teknologi Informasi) Vol 8, No 3 (2020)
Publisher : Jurusan Informatika Universitas Tanjungpura

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (459.331 KB) | DOI: 10.26418/justin.v8i3.39810

Abstract

Part of speech pada mesin penerjemah statistik sebagai faktor tambahan sudah beberapa dilakukan terhadap bahasa daerah di Indonesia. Part of speech (PoS) untuk bahasa Indonesia pula sudah banyak dikembangkan oleh beberapa peneliti sebelumnya. Penelitian ini menganalisa pengaruh penggunaan dua tagset PoS berbeda terhadap hasil terjemahan mesin penerjemah. Tagset PoS yang digunakan adalah milik Wicaksono dan Dinakaramani. Mesin penerjemah dibangun dengan korpus paralel Bahasa Indonesia dan Bahasa Melayu Putussibau yang sudah ditandai dengan tagset PoS. Proses pengujian menggunakan 2 cara yaitu pengujian otomatis menggunakan tools BLEU dan pengujian manual yang dinilai oleh penutur bahasa terhadap hasil terjemahan mesin penerjemah. Hasil pengujian otomatis dengan skenario kedua menunjukkan penerjemahan dengan menambahkan faktor PoS dapat meningkatkan akurasi hasil terjemahan, namun dapat pula menurunkan hasil terjemahan yang dapat disebabkan oleh kuantitas atau kualitas dari korpus traning. Selain itu menunjukkan pula persentase peningkatan akurasi yang signifikan pada korpus training 5500 terjadi pada Mesin2 (tagset35) dengan peningkatan 14,73%, kemudian Mesin1 (tagset23) 11,31%, dan disusul oleh Mesin3 (notagset) 8,76%. Hasil pengujian dengan skenario pertama dan uji manual mendapatkan bahwa Mesin1 memiliki akurasi terjemahan lebih baik dibandingkan Mesin2. Dengan uji BLEU Mesin1 memiliki akurasi terjemahan (42,39) dan Mesin2 dengan akurasi terjemahan (41,61). Sedangkan untuk uji manual oleh Sigit Heru nilai akurasi Mesin1 (87,47%) dan Mesin2 (83,29%), kemudian oleh Titin Rahayu nilai akurasi Mesin1 (90,91%) dan Mesin2 (86,57%).
Sentiment Analysis Objek Wisata Kalimantan Barat Pada Google Maps Menggunakan Metode Naive Bayes Rifa'i, Ahmad; Sujaini, Herry; Prawira, Dian
JEPIN (Jurnal Edukasi dan Penelitian Informatika) Vol 7, No 3 (2021): Volume 7 No 3
Publisher : Program Studi Informatika

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26418/jp.v7i3.48132

Abstract

Kalimantan Barat merupakan salah satu provinsi di Indonesia yang pariwisatanya berpotensi untuk dikembangkan. Oleh karena itu, feedback dari wisatawan  dibutuhkan untuk mengambil tindakan terkait pengembangan kualitas objek wisata Kalimantan Barat agar lebih optimal. Penelitian ini bertujuan untuk membangun sistem yang dapat melakukan sentiment analysis terhadap objek wisata di Kalimantan Barat berdasarkan data ulasan yang ada di Google Maps. Metodologi yang digunakan dalam penelitian ini adalah kerangka kerja IS Research Alan Hevner. Dalam melakukan riset sentiment analysis objek wisata Kalimantan Barat, metode yang digunakan untuk klasifikasi adalah Naïve Bayes. Sebelum melakukan klasifikasi, dilakukan tahap pre-processing yang terdiri dari casefolding, tokenizing, filtering, stemming, dan tahap pembobotan kata menggunakan TF-IDF. Berdasarkan penelitian yang  dilakukan, disimpulkan bahwa sistem dapat mengklasifikasikan kelas sentimen ulasan objek wisata yang terdapat pada Google Maps menggunakan metode Naive Bayes dengan nilai akurasi yang bervariasi dari setiap tempat wisata. Nilai akurasi tertinggi adalah 0,76 sedangkan terendah adalah 0,38. Hasil sentimen analisis yang dilakukan pada objek wisata Kalimantan Barat masuk dalam kategori yang positif. Hal ini berdasarkan performa metode Naive Bayes yang menunjukan bahwa nilai rata-rata f1-score kelas positif adalah 0,73 lebih tinggi dibanding kelas netral 0,53 dan negatif 0.14
Analisis Perbandingan Nilai Akurasi Mekanisme Attention Bahdanau dan Luong pada Neural Machine Translation Bahasa Indonesia ke Bahasa Melayu Ketapang dengan Arsitektur Recurrent Neural Network Gunawan, Wahyu; Sujaini, Herry; Tursina, Tursina
JEPIN (Jurnal Edukasi dan Penelitian Informatika) Vol 7, No 3 (2021): Volume 7 No 3
Publisher : Program Studi Informatika

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26418/jp.v7i3.50287

Abstract

Di Indonesia, penerapan mesin penerjemah masih banyak dilakukan dengan berbasis statistik khususnya dalam eksperimen penerjemahan bahasa daerah. Dalam beberapa tahun terakhir, mesin penerjemah jaringan saraf tiruan telah mencapai kesuksesan yang luar biasa dan menjadi metode pilihan baru dalam praktik mesin penerjemah. pada penelitian ini menggunakan mekanisme attention dari Bahdanau dan Luong dalam bahasa Indonesia ke bahasa Melayu Ketapang dengan data korpus paralel sejumlah 5000 baris kalimat. Hasil pengujian berdasarkan metode penambahan secara konsisten dengan jumlah epoch didapatkan nilai skor BLEU yaitu pada attention Bahdanau menghasilkan akurasi 35,96% tanpa out-of-vocabulary (OOV) dengan menggunakan jumlah epoch 40, sedangkan pada attention Luong menghasilkan akurasi 26,19% tanpa OOV menggunakan jumlah 30 epoch. Hasil pengujian berdasarkan k-fold cross validation didapatkan nilai rata-rata akurasi tertinggi sebesar 40,25% tanpa OOV untuk attention Bahdanau dan 30,38% tanpa OOV untuk attention Luong, sedangkan pengujian manual oleh dua orang ahli bahasa memperoleh nilai akurasi sebesar 78,17% dan 72,53%. 
Improving the role of language model in statistical machine translation (Indonesian-Javanese) Herry Sujaini
International Journal of Electrical and Computer Engineering (IJECE) Vol 10, No 2: April 2020
Publisher : Institute of Advanced Engineering and Science

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (727.559 KB) | DOI: 10.11591/ijece.v10i2.pp2102-2109

Abstract

The statistical machine translation (SMT) is widely used by researchers and practitioners in recent years. SMT works with quality that is determined by several important factors, two of which are language and translation model. Research on improving the translation model has been done quite a lot, but the problem of optimizing the language model for use on machine translators has not received much attention. On translator machines, language models usually use trigram models as standard. In this paper, we conducted experiments with four strategies to analyze the role of the language model used in the Indonesian-Javanese translation machine and show improvement compared to the baseline system with the standard language model. The results of this research indicate that the use of 3-gram language models is highly recommended in SMT.
Comparing the performance of linear regression versus deep learning on detecting melanoma skin cancer using apple core ML Herry Sujaini; Enriko Yudhistira Ramadhan; Haried Novriando
Bulletin of Electrical Engineering and Informatics Vol 10, No 6: December 2021
Publisher : Institute of Advanced Engineering and Science

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.11591/eei.v10i6.3178

Abstract

Melanoma is a type of deadly skin cancer. The survival rate of the patients can fall as low as 15.7% if the cancer cell has reached its final stage. Delayed treatment of melanoma can be attributed to its likeness to that of common nevus (moles). Two machine learning models were developed, each with a different approach and algorithm, to detect the presence of melanoma. Image classification is using the regression algorithm, and object detection is using deep learning. The two models are then compared, and the best model is determined according to the achieved metrics. The testing was conducted using 120 testing data and is made up of 60 positive data and 60 negative data. The testing result shows that object detection achieved 70% accuracy than image classification’s 68%. More importantly, linear regression’s 43% false-negative rate is noticeably high compared to convolutional neural network’s (CNN) 25%. A false-negative rate of 43% means almost half of sick patients tested using image classification will be diagnosed as healthy. This is dangerous as it can lead to delayed treatment and, ultimately, death. Thus it can be concluded that CNN is the best method in detecting the presence of melanoma.
Peningkatan Akurasi Mesin Penerjemah Bahasa Inggris - Indonesia dengan Memaksimalkan Kualitas dan Kuantitas Korpus Paralel Herry Sujaini
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 7, No 3: Juni 2020
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2020732076

Abstract

Korpus paralel memiliki peran yang sangat penting dalam mesin penerjemah statistik (MPS). Korpus paralel yang diperoleh berbagai sumber biasanya memiliki kualitas yang kurang baik, sedangkan kuantitas korpus paralel merupakan tuntutan utama bagi hasil penerjemahan yang baik. Penelitian ini bertujuan untuk mengetahui efek ukuran dan kualitas korpus paralel di MPS. Penelitian ini menggunakan metode bilingual evaluation understudy (BLEU) untuk mengklasifikasikan pasangan kalimat paralel sebagai kalimat berkualitas tinggi atau buruk. Metode ini diterapkan ke korpus paralel yang berisi 1,5 M pasangan kalimat Inggris-Indonesia paralel dan memperoleh 900K pasangan kalimat paralel berkualitas tinggi. Beberapa sistem MPS dengan berbagai ukuran korpus paralel mentah dan korpus berkualitas tinggi yang difilter dilatih dengan MOSES dan dievaluasi kinerjanya. Hasil percobaan yang dilakukan menunjukkan bahwa ukuran korpus paralel merupakan  faktor utama dalam kinerja terjemahan. Selain itu, kinerja terjemahan yang  lebih baik dapat dicapai dengan korpus berkualitas tinggi yang lebih kecil menggunakan metode filter berkualitas. Hasil eksperimen pada MPS bahasa Inggris-Indonesia menunjukkan bahwa dengan menggunakan 60% kalimat yang kualitas terjemahannya baik, kualitas terjemahan dapat meningkat sebesar 7,31%. AbstractThe parallel corpus has a very important role in the statistical machine translator (SMT) system. The parallel corpus obtained by various sources usually has poor quality, while the quantity of parallel corpus is the main demand for good translation results. This study aims to determine the effect of the size and quality of parallel corpus at SMT. This study uses the bilingual evaluation understudy (BLEU) method to classify pairs of parallel sentences as high-quality or bad sentences. This method is applied to a parallel corpus containing 1.5 M parallel English-Indonesian sentence pairs and obtaining 900K pairs of high-quality parallel sentences. Some SMT systems with various sizes of raw parallel bodies and high-quality corpus filtered are trained with MOSES and evaluated for performance. The experimental results show that the size of the parallel corpus is a major factor in translation performance. In addition, better translation performance can be achieved with a smaller high-quality corpus using a quality filter method.The experimental results in the English-Indonesian SMT show that by using 60% of sentences whose translation quality is good, the quality of the translation can increase by 7.31%.
Meningkatkan Peran Model Bahasa dalam Mesin Penerjemah Statistik (Studi Kasus Bahasa Indonesia-Dayak Kanayatn) Herry Sujaini
Khazanah Informatika Vol. 3 No. 2 Desember 2017
Publisher : Department of Informatics, Universitas Muhammadiyah Surakarta, Indonesia

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.23917/khif.v3i2.4398

Abstract

Sistem terjemahan mesin berbasis statistik menggunakan kombinasi satu atau lebih model terjemahan dan model bahasa. Meskipun ada banyak penelitian yang membahas peningkatan model terjemahan, masalah mengoptimalkan model bahasa untuk tugas penerjemahan tertentu belum banyak mendapat perhatian. Biasanya, model trigram digunakan sebagai model bahasa standar dalam sistem terjemahan mesin statistik. Dalam tulisan ini kami menerapkan 4 strategi eksperimen untuk melihat peran model bahasa yang digunakan dalam mesin terjemahan Indonesia-Dayak Kanayatn dan menunjukkan perbaikan pada sistem baseline dengan model bahasa standar.
Performance of Methods in Identifying Similar Languages Based on String to Word Vector Herry Sujaini
Khazanah Informatika Vol. 6 No. 1 April 2020
Publisher : Department of Informatics, Universitas Muhammadiyah Surakarta, Indonesia

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.23917/khif.v6i1.8199

Abstract

Indonesia has a large number of local languages that have cognate words, some of which have similarities among each other. Automatic identification within a family of languages faces problems, so it is necessary to learn the best performer of language identification methods in doing the task. This study made an effort to identification Indonesian local languages, which used String to Word Vector approach. A string vector refers to a collection of ordered words. In a string vector, a word is represented as an element or value, while the word becomes an attribute or feature in each numeric vector. Among Naïve Bayes, SMO, J48, and ZeroR classifiers, SMO is found to be the most accurate classifier with a level of accuracy at 95.7% for 10-fold cross-validation and 94.4% for 60%: 40%. The best tokenizer in this classification is Character N-Gram. All classifiers, except ZeroR shows increased accuracy when using Character N-Gram Tokenizer compared to Word Tokenizer. The best features of this system are the TriGram and FourGram Character. The TriGram is preferred because it requires smaller training data. The highest accuracy value in the combination experiment is 0.965 obtained at a combination of IDF = FALSE and WC = TRUE, regardless the conditions of the TF.
Chunking Phrase to Predict Pause Break in Pontianak Malay Language Arif Bijaksana Putra Negara; Yulia Magdalena; Rudy Dwi Nyoto; Herry Sujaini
Lontar Komputer : Jurnal Ilmiah Teknologi Informasi Vol. 10, No. 3 December 2019
Publisher : Institute for Research and Community Services, Udayana University

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (450.777 KB) | DOI: 10.24843/LKJITI.2019.v10.i03.p01

Abstract

Pause break is one of the indicators of speech to be easily understood in the Text-to-Speech System. This research aims to improve the accuracy of pause prediction in Pontianak Malay Language Sentences based on earlier research using a chunking phrase. This research is done as one of the efforts to preserve Pontianak Malay Language in order not to become extinct as a local language. Chunking method uses RegexpParser function in Natural Language Toolkit to crop sentences into phrases based on the Part of Speech type. In this research, the authors have developed a new grammar and pause break rule that is different from the earlier research to increase the accuracy of pause prediction. The data used is 500 Pontianak Malay Language sentences that have been recorded by a Pontianak Malay Language native speaker to get the pause break analysis. The pause consists of a short pause (symbolized as “/1) and a long pause (symbolized as “/2”). The tests were a test of pause break compatibility in one sentence and a test using f-measure, recall, and precision parameters. Based on the tests that have been done, the new grammar rule and pause break rule from this research have a better prediction accuracy than the earlier research with the correct predictive value of sentences increasing by 23% from the earlier rule.
Co-Authors Abang Wandi Syafutra, Abang Wandi Achmadi - Ade Elbani Ade Mirza Afrizal - Agustina Listiawati Akbar, Khamsah Akbar, Khamsah Aktris Nuryanti Al-Abdaliah, Ulfat Alda Dwi Meilinda Aldi Setiawan, Aldi Alhadiansyah - Aloysius Mering Andi Ihwan Andreas Christian Andri Hidayat, Andri Anggi Perwitasari, Anggi Anggi Srimurdianti Sukamto, Anggi Srimurdianti Ardiani, Lian Arif Bijaksana Putra Negara Arif Bijaksana Putra, Arif Bijaksana Asep Nursangaji Aswandi - Bistari Bomo W. Sanjaya Darwis, Robby Darwis, Robby Deni Ferliyansah, Deni Despitaria Despitaria, Despitaria Dharmawan, Eric Dian Prawira, Dian Doddi Aria Putra, Doddi Aria Dwi Zulfita Edy Suasono Elly Suharlina Endang Purwaningsih Enriko Yudhistira Ramadhan Erni Djun Astuti Etsa, Muhammad Dwi Eva Dolorosa Eva Faja Ripanti Fitri Imansyah Gerry Christofer, Gerry Gientry Rachma Ditami Glen Hizkia Oge Mangundap Hadary, Ferry Hafiz Muhardi Hamdani - Haried Novriando Hariyadi, Firma Harry Luanda Sadewa, Harry Luanda Hartono, Seno Helen Sasty Pratiwi Helen Sasty Pratiwi, Helen Sasty Helfi Nasution Hendra Robaintoro, Hendra Hendro Priyatman, Hendro Hengky Anra Heri Priyanto, Heri Hermanus Herawan Ica Khamisah, Ica Imam Ghozali Irwan Adhi Prasetya Ismail Yusuf Ismail Yusuf, Ismail Ismawartati - Jada Ario Yustin, Jada Ario Jarob, Yosep Jemi Karlos, Jemi Juanda op, Juanda Kadek Yudhimas Septiyadi Putra, Kadek Yudhimas Septiyadi Kurnia Ningsih Lo Bun San Madani Madani, Madani Mandau, M Yunus Mandira, Soni Mario Anggara, Mario Meiran Panggabean Memet Agustiar Mochammad Meddy Danial Muanuddin - Muhammad Azhar Irwansyah Muhammad Hasbiansyah, Muhammad Muhammad Saleh Muhammad Yusuf Muhsin Muhsin Mulyana Mulyana Mutammimah Mutammimah, Mutammimah Ninda Fitria Pratiwi, Ninda Fitria Ningtyas, Della Widya Novi Safriadi Novi Safriadi Nurmainah - Pratama, Ramananda Priyo Saptomo Purwaningsih - Purwoharjono Purwoharjono Purwoharjono Rachman Rohendi Rachmawati - Rahmidiyani - Ratna Herawatiningsih Redi R. Yacoub Ridho Prabowo Riduansyah - Rifa'i, Ahmad Rommy Patra Ronja, Ronja Rudy Dwi Nyoto Rudy Dwi Nyoto, Rudy Dwi Rudy Dwinyoto, Rudy Ryan Herwan Dwi Putra, Ryan Herwan Setia Budi Setiawan, Sandra Permata Gea Sholva, Yus Silvia Uslianti Simanjuntak, Maya Salinka Siti Hadijah Siti Halidjah Sofhian Sofhian Stepanus Sahala Sitompul Stephanie Stephanie Steven Pragestu Steven Pragestu, Steven Surachman - Syaifurrahman Syaifurrahman Syamswisna , Syarif Hasyim Azizurrahman Tedy Rismawan Tri Apriani, Tri Try Wahyudinata, Try Tursina Tursina Tursina Tursina Uti Asikin Vivensius Mitra, Vivensius Vivi Bachtiar Wahyu Gunawan Wahyuni, Mirda Wendy - Windhu Putra Witarsa - Yohanes Gatot Sutapa Yulia Magdalena Yuline - Yulis Jamiah Zahra Nadira, Zahra Zubaidah R