Claim Missing Document
Check
Articles

Found 25 Documents
Search

Seleksi Fitur Information Gain dan Teknik Pruning Untuk Memperbaiki Akurasi Algoritma C4.5 dalam Kasus Keterlambatan Biaya Kuliah Taghfirul Azhima Yoga Siswa; Gubtha Mahendra Putra; Anton Prafanto
Informatika Mulawarman : Jurnal Ilmiah Ilmu Komputer Vol 17, No 2 (2022): Informatika Mulawarman : Jurnal Ilmiah Ilmu Komputer
Publisher : Mulawarman University

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30872/jim.v17i2.11794

Abstract

Penerapan biaya kuliah memiliki peranan yang sangat penting di suatu universitas untuk dapat meningkatkan mutu dan infrastruktur pendidikan khususnya di Universitas Muhammadiyah Kalimantan Timur (UMKT). Namun, dalam pelaksanaannya masih banyak mahasiswa yang terlambat dalam melakukan pembayaran biaya kuliah. Hal ini dapat mengganggu UMKT dalam sisi operasional dan pelaksanaan peningkatan mutu serta infrastruktur. Pada penelitian ini akan dilakukan penentuan fitur, penerapan algoritma C4.5, dan evaluasi kinerja algoritma C4.5 dengan menggunakan confusion matrix pada pembagian data 90% data training dan 10% data testing. Untuk mengoptimasi kinerja algoritma C4.5, pada penelitian ini akan diterapkan seleksi fitur menggunakan metode information gain dan pruning. Penelitian ini menggunakan data yang diperoleh dari Biro Administrasi Keuangan dan Biro Administrasi Akademik UMKT dengan jumlah data sebanyak 12.408. Hasil pengujian kinerja algoritma C4.5 tanpa menggunakan seleksi fitur information gain dan teknik pruning memperoleh nilai akurasi sebesar 61,40%. Adapun hasil pengujian kinerja algoritma C4.5 dengan menggunakan seleksi fitur information gain dan teknik pruning memperoleh hasil sebesar 64,86%. Hasil pengujian kinerja algoritma C4.5 dengan menggunakan seleksi fitur information gain dan teknik pruning terbukti mampu meningkatkan kinerja algoritma sebesar 3,45% pada kasus keterlambatan biaya kuliah.
Model Optimasi SVM Dengan PSO-GA dan SMOTE Dalam Menangani High Dimensional dan Imbalance Data Banjir Raenald Syaputra; Taghfirul Azhima Yoga Siswa; Wawan Joko Pranoto
Teknika Vol 13 No 2 (2024): Juli 2024
Publisher : Center for Research and Community Service, Institut Informatika Indonesia (IKADO) Surabaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.34148/teknika.v13i2.876

Abstract

Banjir merupakan salah satu bencana alam yang sering terjadi di Indonesia, termasuk di Kota Samarinda dengan 18-33 titik desa terdampak dari tahun 2018-2021. Penggunaan machine learning dalam mengklasifikasi bencana banjir sangat penting untuk memprediksi kejadian di masa mendatang. Beberapa penelitian sebelumnya terkait klasifikasi data banjir dalam 3 tahun terakhir telah dilakukan. Namun, dari beberapa penelitian tersebut memunculkan masalah terkait dengan dataset high dimensional yang dapat menurunkan performa model klasifikasi dan menyebabkan overfitting. Selain itu, masalah lain juga muncul dalam hal imbalance data yang menyebabkan bias terhadap kelas mayoritas dan representasi yang tidak akurat. Oleh karena itu, permasalahan dataset high dimensional dan imbalance data merupakan tantangan spesifik yang harus diatas dalam klasifkasi data banjir Kota Samarinda. Penelitian ini bertujuan mengidentifkasi fitur-fitur yang diperoleh dari seleksi fitur Genetic Algorithm (GA) yang memiliki pengaruh terhadap akurasi klasifikasi data banjir Kota Samarinda menggunakan algoritma Support Vector Machine (SVM), serta meningkatkan akurasi klasifikasi data banjir di Kota Samarinda dengan mengimplementasikan algoritma SVM yang dikombinasikan dengan metode Synthetic Minority Oversampling Technique (SMOTE) untuk oversampling, seleksi fitur dengan GA dan optimasi menggunakan Particle Swarm Optimization (PSO). Teknik validasi yang digunakan adalah 10-fold cross validation dan evaluasi performa menggunakan confusion matrix. Data yang digunakan berasal dari BPBD (Badan Penanggulangan Bencana Daerah) dan BMKG (Badan Meteorologi, Klimatologi, dan Geofisika) Kota Samarinda pada tahun 2021-2023 terdiri dari 11 fitur dan 1.095 record. Hasil penelitian menunjukkan bahwa fitur-fitur penting yang terpilih melalui GA adalah temperatur maksimum, kecepatan angin maksimum, arah angin maksimum, arah angin terbanyak, lamanya penyinaran matahari dan kecepatan angin rata-rata. Dengan kombinasi metode SVM, SMOTE, GA dan PSO, akurasi klasifikasi data banjir mencapai 82,28%. Namun, penelitian ini juga menghadapi tantangan seperti kontradiksi hasil dengan penelitian lain terkait penggunaan SMOTE dan variasi hasil akibat karakteristik dataset serta metode pembagian data yang berbeda. Hasil penelitian ini dapat digunakan oleh pemerintah daerah dan badan penanggulangan bencana daerah Kota Samarinda untuk memprediksi kejadian banjir dengan lebih akurat, serta memungkinkan tindakan pencegahan yang lebih efektif. Penerapan hasil penelitian ini dapat meningkatkan efektivitas dalam mitigasi bencana banjir Kota Samarinda.
Model Optimasi SVM-GSBE dalam Menangani High Dimensional Data Stunting Kota Samarinda Siti Muawwanah; Taghfirul Azhima Yoga Siswa; Wawan Joko Pranoto
Jurnal Teknologi Sistem Informasi dan Aplikasi Vol. 7 No. 3 (2024): Jurnal Teknologi Sistem Informasi dan Aplikasi
Publisher : Program Studi Teknik Informatika Universitas Pamulang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.32493/jtsi.v7i3.41545

Abstract

Stunting has become a widely discussed health issue in Indonesia, par-ticularly in Samarinda City, which recorded a prevalence of 12.7% in 2023, making it the highest in East Kalimantan Province. The use of data mining techniques becomes crucial in overcoming the challenges of high dimensional data, such as computational complexity, the risk of overfitting, and visualization difficulties. This study aims to enhance the accuracy of Support Vector Machine optimization models using Grid Search and Backward Elimination feature selection (SVM-GSBE) to handle high-dimensional data related to stunting in Samarinda City. The dataset used is sourced from Samarinda City Health Office in 2023, covering 26 community health centers with 21 attributes and a total of 150,466 records. The research methodology includes data collection, pre-processing, data partitioning using K-Fold Cross Validation, feature selection using Backward Elimination, and SVM model optimization with Grid Search. Features such as BB/U, ZS TB/U, ZS BB/U, ZS BB/TB, Height, and LiLA have proven to increase accuracy in stunting data classification. Evaluation results show that Grid Search successfully increased accuracy for Linear from 99.59% to 99.78%, Polynomial from 90.92% to 99.40%, RBF from 89.80% to 98.36%, and Sigmoid from 75.29% to 86.84%. This indicates that the SVM-GSBE model can effectively be used as a tool for early detection of stunting and to support health policies in Samarinda City.
Model Optimasi KNN-PSORF dalam Menangani High Dimensional Data Banjir Kota Samarinda Anggiq Karisma Aji Restu; Taghfirul Azhima Yoga Siswa; Wawan Joko Pranoto
Jurnal Teknologi Sistem Informasi dan Aplikasi Vol. 7 No. 3 (2024): Jurnal Teknologi Sistem Informasi dan Aplikasi
Publisher : Program Studi Teknik Informatika Universitas Pamulang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.32493/jtsi.v7i3.41587

Abstract

Floods are a natural phenomenon that frequently occurs in Indonesia, including in Samarinda City which has faced flood issues over the past three years, affecting thousands of homes and around 27,000 residents. Predicting flood disasters requires machine learning technology using data mining classification methods. However, classification processes often encounter issues related to high-dimensional data, which can lead to overfitting and class imbalance, thereby biasing dominant classes while neglecting minority classes. This research aims to enhance classification accuracy in Samarinda City's flood data using the K-Nearest Neighbor (KNN) algorithm combined with Relief feature selection and Particle Swarm Optimization (PSO) optimization. The validation method employed is 10-fold cross-validation, with performance evaluation using a confusion matrix. Data sourced from Samarinda City's Disaster Management Agency (BPBD) and Meteorology, Climatology, and Geophysics Agency (BMKG) spans from 2021 to 2023, comprising 19 features and a total of 1095 records. Relief feature selection identified four crucial features: maximum wind direction, wind speed, average wind speed, and maximum wind speed direction. Average evaluations with k values of 3, 5, 7, 11, 13, and 15 demonstrate that Relief feature selection and PSO optimization effectively enhance accuracy in the K-Nearest Neighbor algorithm for flood data, with KNN and PSO yielding improvements of 2-5%. Relief feature selection alone improves accuracy by 1-2%, while combining Relief with PSO provides a 2-5% enhancement. The combined KNN, Relief, PSO model is expected to deliver optimal performance in classifying Samarinda City's flood data.
Model Optimasi Random Forest dengan PSO-CHI-SM dalam Mengatasi High Dimensional dan Imbalanced Data Banjir Kota Samarinda Ilham Taufiq; Taghfirul Azhima Yoga Siswa; Wawan Joko Pranoto
Jurnal Teknologi Sistem Informasi dan Aplikasi Vol. 7 No. 3 (2024): Jurnal Teknologi Sistem Informasi dan Aplikasi
Publisher : Program Studi Teknik Informatika Universitas Pamulang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.32493/jtsi.v7i3.41632

Abstract

Flooding is a natural disaster that frequently affects our country. Samarinda City, in particular, continues to experience frequent flooding events with 18 incidents in 2018, 33 incidents in 2020, and 32 incidents in 2021. To predict flood disasters, it is necessary to utilize technology known as machine learning for analyzing and classifying floods. However, classification often encounters issues with high-dimensional data and class imbalance. This study aims to determine the extent to which the accuracy of flood disaster classification improves by using the Random Forest algorithm with PSO for optimization, Chi-Square feature selection, and SMOTE oversampling to balance classes. The data used in this study comprises flood data from 2021-2023 obtained from BMKG and BPBD Samarinda City, with a total of 1095 records and 11 attributes. The validation technique used is 5-fold cross-validation, and the evaluation uses a confusion matrix. The results of the Chi-Square feature selection identified Rainfall, Maximum Wind Direction, Most Frequent Wind Direction, Humidity, Sunshine Duration, and Wind Speed as the most influential features based on Chi-Square scores and P-values. The average accuracy obtained from the proposed classification model using 5-fold cross-validation reached 96.02%.