Jurnal Teknologi Informasi dan Ilmu Komputer
Vol 9 No 4: Agustus 2022

Pengaruh Prediksi Missing Value pada Klasifikasi Decision Tree C4.5

Aji Seto Arifianto (Politeknik Negeri Jember, Jember)
Kursita Dewi Safitri (Politeknik Negeri Jember, Jember)
Khafidurrohman Agustianto (Politeknik Negeri Jember, Jember)
I Gede Wiryawan (Politeknik Negeri Jember, Jember)



Article Info

Publish Date
31 Aug 2022

Abstract

Pendekatan klasifikasi data bersifat supervised learning menuntut adanya dataset yang lengkap. Permasalahan yang muncul adanya missing value yaitu hilangnya nilai suatu atribut yang diakibatkan kesalahan dalam pengumpulan data, kesalahan saat memasukkan data, dan ketidakmampuan responden untuk memberikan jawaban yang akurat. Penelitian ini melakukan uji coba pengembangan rule decision tree C4.5 untuk data penyakit ginjal kronis. Dataset terdiri dari 400 record, 24 atribut dan 1 kelas target. Karakteristik data yang digunakan meliputi 11 data bertipe numerik dan 14 data bertipe nominal. Jumlah data kelas positif penyakit ginjal kronis 250, sedangkan negatif ginjal kronis 150. Total data yang tidak lengkap (missing value) 1012 records. Perlakuan pertama dibangun rule dengan menghitung entropy dan gain pada 360 data training yang terdapat missing value diperoleh 21 rules. Kemudian pada perlakuan kedua diterapkan prediksi missing value menggunakan rumus mean dan modus sebelum pembetukan rule tree, didapatkan 24 rules. Mengukur akurasi kedua rules tree C4.5 dilakukan menguji 40 data test, hasilnya 90% untuk rule dengan missing value dan 95% untuk dataset yang telah diprediksi nilainya. AbstractThe supervised learning approach to data classification requires a complete dataset. The problem that arises was the existence of missing value, namely the loss of the value of an attribute due to errors in data collection, errors when entering data, and the inability of respondents to provide accurate answers. This study conducted a trial on the development of the C4.5 rule decision tree for chronic kidney disease data. The dataset consisted of 400 records, 24 attributes and 1 target class. The data characteristics included 11 numeric data and 14 nominal data types. The number of positive data for kidney disease was 250, while the number of negative for kidney disease was 150 and the total of missing value was 1012 records. The first treatment was building a rule by calculating the entropy and gain on 360 training data where missing value was obtained, it was 21 rules. Then in the second treatment, the prediction of missing value was applied using the mean and mode formula before the formation of the rule tree, obtained 24 rules. Researcher was measuring the accuracy of the two rules tree C4.5 is done by using 40 data-testing, the result is 90% for rules with missing value and 95% for datasets whose value has been predicted.

Copyrights © 2022






Journal Info

Abbrev

JTIIK

Publisher

Subject

Computer Science & IT Engineering

Description

Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) merupakan jurnal nasional yang diterbitkan oleh Fakultas Ilmu Komputer (FILKOM), Universitas Brawijaya (UB), Malang sejak tahun 2014. JTIIK memuat artikel hasil-hasil penelitian di bidang Teknologi Informasi dan Ilmu Komputer. JTIIK berkomitmen ...