Kemajuan teknologi informasi memberikan dampak yang besar, seperti penyebaran berita online. Namun, kabar yang tersebar belum tentu benar adanya. Dalam beberapa penelitian, pendeteksian berita hoax telah dilakukan. Namun, terdapat perbedaan hasil dari beberapa algoritma yang digunakan. Oleh karena itu, dalam penelitian ini dilakukan perbandingan antara algoritma Logistic Regression, Naïve Bayes, Random Forest dan Support Vector Machine untuk memprediksi berita hoax khusus Indonesia dengan dataset seimbang dan tidak seimbang. Tahapan perancangan sistem dimulai dari pengumpulan dataset, pelabelan data, pre-processing, pembobotan TF-IDF, klasifikasi model hingga pengujian. Hasil akurasi tertinggi baik dari jumlah dataset yang tidak seimbang maupun dataset yang seimbang didapatkan dari SVM dengan perbandingan 80:20. Dataset tidak seimbang memiliki akurasi 85,47% dan F1-score 90% dan dataset seimbang memiliki akurasi 84,36% dan F1-score 84,80%. Pada penelitian ini dataset tidak seimbang mendapatkan hasil akurasi yang lebih baik dengan menggunakan algoritma SVM dan jika jumlah dataset yang menjadi target kelas utama lebih banyak maka akan memberikan hasil yang lebih baik.
Copyrights © 2023