Claim Missing Document
Check
Articles

Found 14 Documents
Search

Ekstraksi Opini Berbasis Fitur Untuk Review Produk Berbahasa Indonesia Dengan Algoritma Fp-growth Tetya Arum Dhahyani; Eko Darwiyanto; Arie Ardiyanti Suryani
eProceedings of Engineering Vol 2, No 2 (2015): Agustus, 2015
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

ABSTRAK Seiring dengan berkembangnya teknologi dalam dunia Internet, e-commerce menjadi hal yang tidak asing lagi. Salah satu bentuk pemanfaatan e-commerce adalah penggunaan web site sebagai sarana jual beli. Beberapa web site yang memungkinkan pelanggannya untuk berbelanja secara online juga memberikan keleluasaan kepada pelanggannya untuk turut aktif menuliskan review tentang produk yang dibelinya. Konsekuensinya adalah peningkatan jumlah review produk. Setiap hari bisa saja ratusan review baru muncul. Hal ini akan berpotensi membuat pelanggan mengalami kesulitan untuk membaca review yang dapat membantunya untuk mengambil keputusan membeli produk. Untuk itu, diperlukan sebuah sistem yang dapat memberikan kemudahan bagi pelanggan untuk membaca review yang tersedia di Internet. Solusi yang ditawarkan adalah feature-based opinion mining. Sistem ini akan mencari fitur produk dari kalimat opini. Kemudian, kalimat opini yang mengandung fitur yang telah diidentifikasi tersebut akan diklasifikasikan menjadi opini yang berorientasi positif atau negatif. Data set yang digunakan berasal dari review di www.tabloidpulsa.co.id. Hasil penelitian menunjukkan bahwa proses ektraksi fitur dengan Algoritma FP-Growth menghasilkan nilai precision yang sangat rendah dengan rata-rata nilai sebesar 0,103. Penyebab rendahnya nilai precision terutama karena hasil ekstraksi fitur yang terdiri dari lebih satu kata tidak memperhatikan urutan kata dalam kalimat. Sedangkan proses orientasi opini sudah cukup tinggi dengan rata -rata akurasi sebesar 71,9%. Kata Kunci : opinion mining, FP-Growth, fitur produk, sentimen analisis, SentiWordNet
Pembentukan Sentence-aligned Korpus Paralel Untuk Bahasa Sunda-bahasa Indonesia Berbasis Wikipedia Dengan Bootstrapping Dan Em Ignasius Indra Kusuma Wijaya; Arie Ardiyanti Suryani; Kurniawan Nur Ramadhani
eProceedings of Engineering Vol 4, No 1 (2017): April, 2017
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Ketersediaan korpus paralel pada pasangan bahasa Sunda-Indonesia masih sangat sedikit. Korpus paralel tersebut penting dan bisa dimanfaatkan sebagai sumber data latih dalam sistem machine translation atau sistem natural language processing. Penelitian ini mencoba untuk mengumpulkan kalimat paralel yang didapatkan dari pasangan artikel Wikipedia berbahasa Sunda dan berbahasa Indonesia menggunakan fasilitas interlanguage links. Sebuah bilingual lexicon dan beberapa filter yang berdasarkan pada kemunculan kata, panjang kalimat dan word overlap antar kalimat digunakan untuk mendapatkan kalimat paralel. Metode bootstrapping kemudian digunakan untuk meningkatkan kualitas kalimat paralel dengan cara memperbarui bilingual lexicon memanfaatkan IBM Model 4 expectation maximization (EM) learner di dalam tool GIZA++. GIZA++ dijalankan pada kandidat kalimat paralel yang dihasilkan di setiap iterasi sistem sampai kondisi konvergensi tercapai. Hasil evaluasi manual menggunakan penilaian manusia menunjukkan bahwa 79,5% dari korpus paralel hasil bentukan sistem terbukti paralel. Kata kunci: korpus paralel, Wikipedia, bootstrapping, expectation maximization
Part Of Speech Tagging Menggunakan Bahasa Jawa Dengan Metode Condition Random Fields Atik Zilziana Muflihati Noor; Arie Ardiyanti Suryani; Ibnu Asror
eProceedings of Engineering Vol 7, No 2 (2020): Agustus 2020
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak—Part of Speech Tagging (POS Tagging) adalah proses memberi label pada setiap kata dalam kalimat dengan POS atau tag yang sesuai dengan kelas kata seperti kata kerja, kata benda kata keterangan, kata sifat, dan lainnya. Bahasa yang digunakan ialah Bahasa Jawa. Bahasa Jawa adalah salah satu Bahasa daerah yang digunakan sebagian besar di pulau Jawa Indonesia. Digunakan di provinsi Jawa Tengah, DIY, Jawa Timur dan sekitarnya. Menggunakan data dari berita online berbahasa Jawa Krama. Metode yang digunakan yaitu CRF (Conditional Random Fields). CRF adalah suatu model probabilistik yang banyak digunakan pada proses segmentasi dan pelabelan suatu sekuen data. Pada penilitian ini menggunakan data corpus sebanyak 3000 kata dan menggunakan cross validasi untuk proses trainning. Pada POS Tagging Bahasa Jawa ini mendapatkan akurasi sebesar 67%. Keywords—Part of Speech, Conditional Random Fields, Javanese Abstract Javanese is the one of regional languages that is used mostly on the Indonesian island of Java. Used in the provinces of Central Java, DIY, East Java, and surrounding areas. Using data from online news in the Javanese language. The method used is CRF (Conditional Random Fields). CRF is a structure for building probabilistic models. This paper describes the part of speech for Javanese using Conditional Random Fields (CRF) method. We used a corpus of size 3000 words and cross-validation for training. Our model gave an overall accuracy of 67%. Keywords—Part of Speech, Conditional Random Fields, Bahasa Jawa
Identifikasi Kata Majemuk Bahasa Indonesia Fikri Haykal; Arie Ardiyanti Suryani; Sri Widowati
eProceedings of Engineering Vol 7, No 2 (2020): Agustus 2020
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Multi-word Expression (MWE) tokenizer merupakan mesin untuk melakukan tokenisasi lebih dari dua kata, yang dapat digunakan untuk melakukan identifikasi kata majemuk. Pada tugas akhir ini dilakukan pembangunan mesin tersebut berbahasa Indonesia dengan metode berbasis aturan (rule based) berdasarkan pola kata majemuk dengan menggunakan tiga metode POS tagger yaitu, Conditional Random Fields (CRF) tagger, Bigram tagger, dan Classifier Based tagger dengan data latih sebanyak 226.328 kata dan data uji sebanyak 1.865 kata, lalu setelah melakukan uji coba dan evaluasi hasil, akurasi yang didapatkan dengan CRF tagger sebesar 77.97%, total kata yang didapat 295 kata kandidat kata majemuk, jumlah benar 230 kata dan jumlah salah 65 kata, lalu dengan Bigram tagger akurasi yang didapat sebesar 86,80%, total kata yang didapat sebanyak 144 kata kandidat kata majemuk, jumlah benar 125 kata dan jumlah salah 19 kata, dan yang terakhir menggunakan Classifier Based tagger akurasi yang didapat sebesar 82,13%, total kata yang didapat 235 kata kandidat kata majemuk, jumlah benar 193 kata dan jumlah salah 42 kata, jadi, jika menggunakan Bigram tagger, jumlah kata yang didapatkan sedikit tetapi akurasi yang didapatkan tinggi, sedangkan jika menggunakan CRF tagger, jumlah kata yang didapatkan banyak tetapi akurasi yang didapatkan rendah. Kata kunci: Multi-word Expression, Tokenizer, Rule Based, Conditional Random Fileds Tagger, Bigram Tagger, Classifier Based Tagger Abstract Multi-word Expression (MWE) tokenizer is a machine to tokenize more than two words, which can be used to identify compound words. In this final project, the construction of the machine in Indonesian with a rule-based method based on compound word patterns using three POS tagger methods, namely, Conditional Random Fields (CRF) tagger, Bigram tagger, and Classifier Based tagger with as many as 226,328 training data. The word and test data were 1,865 words, then after testing and evaluating the results, the accuracy obtained with the CRF tagger was 77.97%, the total words obtained were 295 compound word candidate words, 230 correct words and 65 wrong words, then with Bigram The accuracy tagger obtained is 86.80%, the total words obtained are 144 compound word candidate words, 125 correct words and 19 incorrect words, and the last one using Classifier Based tagger, the accuracy obtained is 82.13%, the total words used There are 235 candidate compound words, 193 correct words and 42 incorrect words, so, if you use Bigram tagger, you get less words but the accuracy you get is high, whereas if you use the CRF tagger, you get more words but the accuracy you get is low. Keywords: Multi-word Expression, Tokenizer, Rule Based, Conditional Random Fields Tagger, Bigram Tagger, Classifier Based Tagger