Tujuan utama penelitian ini adalah untuk mengetahui pengaruh karakteristik set data pada performa algoritma klasifikasi. Pada penelitian ini digunakan tiga set data yang memiliki variasi tipe data, jumlah atribut, dan jumlah instan yang berbeda. Set data dibelajarkan pada algoritma klasifikasi, seperti SMO, Adaboost, CART, C4.5, dan Naïve Bayes. Penelitian ini menggunakan 10 fold cross validation sebagai metode evaluasi. Hasil penelitian menunjukkan bahwa, tipe data, jumlah atribut, dan ukuran set data mempengaruhi performa algoritma klasifikasi. Semakin banyak jumlah atribut, kecenderungan akurasi kelima algoritma uji semakin tinggi. Algoritma klasifikasi yang terbaik digunakan pada tipe data numerik adalah C4.5, sedangkan untuk data nominal adalah SMO. Algoritma klasifikasi yang terbaik digunakan pada small dataset atau set data dengan jumlah instan kecil adalah Naïve Bayes dan SMO, sedangkan yang terbaik digunakan pada big dataset adalah SMO dan C4.5.
Copyrights © 2018