Journal of Business and Audit Information System (JBASE)
Vol 4, No 2 (2021): JBASE - Journal of Business and Audit Information System

Analisa Sentimen Data Text Preprocessing Pada Data Mining Dengan Menggunakan Machine Learning

Bhustomy Hakim (Harbin Institute of Technology)



Article Info

Publish Date
31 Aug 2021

Abstract

Teks merupakan data perhari yang sangat mudah dihasilkan di zaman media sosial ini. Dengan banyaknya data teks yang tersedia di internet, data mining seperti analisa sentimen dapat dilakukan untuk kebutuhan strategis. Namun untuk melakukan data preprocessing pada teks masih mendapatkan tantangan tersendiri. Seperti perlakuan stopwords, stemming atau normalisasi dapat dilakukan dalam tahap preprocessing ini yang tentunya akan mempengaruhi akurasi dari hasil data mining tersebut. Oleh karena itu penelitian ini dilakukan untuk melihat pengaruh data preprocessing pada teks terhadap akurasi model data mining analisa sentimen dengan machine learning. Classifier yang digunakan adalah Naïve Bayes untuk pengklasifikasian sentiment ulasan akan positif atau negatif. Dan dataset teks yang digunakan adalah 50.000 ulasan di Internet Movie Database (IMDB) yang dibagi menjadi 25.000 untuk training set dan 25.000 untuk testing set. Di masing-masing itu, terdapat 12.500 ulasan positif dan ulasan negatif. Dengan dataset tersebut, terdapat tiga perlakuan berbeda yaitu; Baseline dimana dataset dibiarkan original tidak dilakukan preprocessing apa-apa, Stopwords dimana kata-kata yang berulang yang dianggap sebagai kata penghubung atau klausal di dataset akan dihapus dan menyisakan kalimat intinya saja, dan Stemming dimana dataset teks akan dinormalisasi dan dipotong untuk mendapatkan akar kalimatnya saja. Ketiga perlakuan itu masing-masing diimplemetasikan di model machine learning untuk analisa sentimen. Ulasan baru juga dibuat untuk menguji hasil model dari ketiga perlakuan dataset berbeda tersebut. Tentunya hasil yang berbeda juga didapatkan dari masing-masing ketiga dataset tersebut. Hal ini membuktikan bahwa data preprocessing berpengaruh dengan hasil akurasi dari model data mining yang dilakukan. Dalam penelitian ini, dataset dengan perlakuan Baseline menjadi yang paling tinggi akurasinya

Copyrights © 2021






Journal Info

Abbrev

jbase

Publisher

Subject

Computer Science & IT

Description

Journal of Business and Audit Information System (JBASE) adalah Jurnal Program Studi Sistem Informasi, yang berisikan kumpulan hasil penelitian dosen, penelitian dosen dan mahasiswa, penelitian mahasiswa yang disusun dalam bentuk artikel penelitian dengan tema Bisnis, Sistem Informasi dan Audit ...