Jurnal Edukasi dan Penelitian Informatika (JEPIN)
Vol 1, No 1 (2015): Edisi Perdana

Kluster Bag of Word Menggunakan Weka

Mardiana, Tari (Unknown)
Nyoto, Rudy Dwi (Unknown)



Article Info

Publish Date
13 May 2015

Abstract

Dalam bidang pengolahan bahasa alami dan sistem temu balik informasi, representasi sebuah data teks sangat penting untuk mendukung proses analisis data statistik di dalamnya. Data teks dengan bentuk tidak terstruktur dapat direpresentasikan secara sederhana menggunakan sekumpulan set kata yang disebut bag-of-words dan belum memiliki label atau kelas tertentu. Data unsupervised atau objek-objek yang belum memiliki label dapat dikelompokan menggunakan klustering berdasarkan kemiripan satu objek dengan objek lain. Artikel ini membahas perbandingan hasil pengelompokan unsupervised data menggunakan algoritma kluster yang tersedia pada tools Weka, yaitu SimpleKMeans, X-Means, dan Farthest First. SimpleKMeans dan XMeans digunakan untuk mengolah dataset dan mengelompokan berdasarkan jumlah kluster tetap yang digunakan, sedangkan Farthest First akan meletakan semua pusat kluster pada titik terjauh dari pusat kluster yang sudah ada untuk mengelompokan data. Dataset berasal dari UCI machine learning dengan menggunakan 3 koleksi data, yaitu Enron Email, NIPS Proceedings, dan Daily Kos Blog entries. Performa dataset diuji dengan berbagai masukan parameter yang berbeda meliputi jumlah kluster hingga evaluasi sum squared error (SSE), serta iterasi selama proses pengolahan data. Hasil penelitian diharapkan dapat dijadikan acuan untuk menentukan algoritma dan parameter yang sesuai untuk melakukan pengelompokan data yang tidak memiliki label. 

Copyrights © 2015






Journal Info

Abbrev

jepin

Publisher

Subject

Computer Science & IT Education

Description

Jurnal Edukasi dan Penelitian Informatika (JEPIN) merupakan peer reviewed journal di bidang informatika. Jurnal ini diterbitkan 3 bulan dalam setahun (April, Agustus, dan Desember) oleh Program Studi Informatika, Fakultas Teknik, Universitas Tanjungpura, ...