Claim Missing Document
Check
Articles

Found 20 Documents
Search

Implementasi Algoritma Synthetic Minority Over-Sampling Technique untuk Menangani Ketidakseimbangan Kelas pada Dataset Klasifikasi Mulia Sulistiyono; Yoga Pristyanto; Sumarni Adi; Gagah Gumelar
Sistemasi: Jurnal Sistem Informasi Vol 10, No 2 (2021): Sistemasi: Jurnal Sistem Informasi
Publisher : Program Studi Sistem Informasi Fakultas Teknik dan Ilmu Komputer

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (733.264 KB) | DOI: 10.32520/stmsi.v10i2.1303

Abstract

AbstrakPada penelitian ini dilakukan penangganan ketidakseimbangan kelas terhadap kelas minoritas menggunakan teknik resampling yaitu oversampling. Algoritma oversampling yang digunakan adalah Synthetic Minority Over-sampling Technique (SMOTE). Hasil dari penelitian ini dibandingkan dengan hasil klasifikasi tanpa resampling. Uji evaluasi yang digunakan ialah akurasi, Geometric Mean (g-mean), dan Confussion Matrix (CM). Penanganan  distribusi  kelas yang  tidak  seimbang  pada  dataset menggunakan algoritma SMOTE dapat meningkatkan nilai akurasi maupun g-mean pada algoritma Naïve Bayes, SVM, KNN dan Decision Tree. Hal tersebut menunjukkan bahwa proses penanganan terhadap distribusi kelas yang tidak seimbang pada tahap pra-pemrosesan data memberikan pengaruh terhadap nilai akurasi maupun g-mean algoritma Naïve Bayes, SVM, KNN dan Decision Tree. Pada scenario percobaan yang telah dilakukan algoritma Naïve Bayes memiliki akurasi paling baik 96,43 %, SVM dengan 99,02 %, KNN dengan 97,29 % dan  Decision Tree dengan nilai 97,29 %  pada dataset ecoli 15,8 setelah dilakukan SMOTE dengan 10 fold cross validation. Sedangkan memiliki nilai G-mean paling baik 96,42 % untuk algoritma Naïve Bayes, SVM dengan 99,37 %, KNN dengan 99,53 % dan Decision Tree dengan nilai 96,29 % pada dataset ecoli 15,8 setelah dilakukan SMOTE dengan 10 fold cross validation.Kata Kunci : Data Mining, Klasifikasi, Imbalance Ratio (IR), Oversampling, Synthetic Minority Over-sampling Technique (SMOTE)AbstractIn this research, the subscriber of class imbalance to the minority class was carried out using a resampling technique, namely oversampling. The oversampling algorithm used is Synthetic Minority Over-sampling Technique (SMOTE). The results of this study were compared with the results of the classification without resampling. The evaluation tests used are accuracy, Geometric Mean (g-mean), and Confusion Matrix (CM). Handling the unbalanced class distribution on the dataset using the SMOTE algorithm can increase the accuracy and g-mean values of the Naïve Bayes, SVM, KNN and Decision Tree algorithms. This shows that the handling process of the unbalanced class distribution at the pre-processing stage has an effect on the accuracy and g-mean values of the Naïve Bayes, SVM, KNN and Decision Tree algorithms. In the experimental scenario that has been carried out the Naïve Bayes algorithm has the best accuracy of 96.43%, SVM with 99.02%, KNN with 97.29% and Decision Tree with a value of 97.29% on the ecoli dataset of 15.8 after SMOTE with 10 fold cross validation. Meanwhile, it has the best G-mean value of 96.42% for the Naïve Bayes algorithm, SVM with 99.37%, KNN with 99.53% and Decision Tree with a value of 96.29% in the ecoli dataset of 15.8 after SMOTE with 10 fold cross validation. Keywords: Data Mining, Classification, Imbalance Ratio (IR), Oversampling, Synthetic Minority Over-sampling Technique (SMOTE)
Algoritme Stacking Untuk Klasifikasi Penyakit Jantung Pada Dataset Imbalanced Class Atik Nurmasani; Yoga Pristyanto
Jurnal Pseudocode Vol 8, No 1 (2021): Volume 8 Nomor 1 Februari 2021
Publisher : Universitas Bengkulu

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (12.539 KB) | DOI: 10.33369/pseudocode.8.1.21-26

Abstract

Berdasarkan data Riset Kesehatan Dasar (Riskesdas) tahun 2018, angka kejadian penyakit jantung dan pembuluh darah semakin meningkat dari tahun ke tahun. Setidaknya, 15 dari 1000 orang, atau sekitar 2.784.064 individu di Indonesia menderita penyakit jantung. Data mining merupakan bidang yang dapat menjadi solusi untuk digunakan sebagai alat deteksi dini penyakit jantung. Pada penelitian yang dilakukan sebelumnya mayoritas menggunakan single classifier, hal ini akan menimbulkan sebuah permasalahan baru ketika dalam dataset penyakit terdapat ketidakseimbangan kelas. Keberadaan ketidakseimbangan tersebut dapat menyebabkan kinerja single classifier menjadi tidak maksimal. Oleh karena itu pada penelitian ini akan digunakan metode ensemble atau meta learning. Berdasarkan pengujian yang dilakukan menunjukkan bahwa algoritme stacking mampu menghasilkan kinerja dari sisi akurasi TPR, TNR, G-Mean dan AUC yang lebih baik dibandingkan single classifier lainnya. Dengan adanya peningkatan nilai tersebut diharapkan penelitian ini mampu menjadi referensi untuk pengembagan berbagai sistem yang mendukung dan memaksimalkan tingkat keberhasilan proses deteksi dini penyakit jantung menggunakan data mining.
Penanganan Missing Values Untuk Meningkatkan Kinerja Model Machine Learning Pada Data Telemarketing Anggit Ferdita Nugraha; Yoga Pristyanto; Irfan Pratama
Jurnal Pseudocode Vol 7, No 2 (2020): Volume 7 Nomor 2 September 2020
Publisher : Universitas Bengkulu

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (281.8 KB) | DOI: 10.33369/pseudocode.7.2.165-171

Abstract

Abstrak: Telemarketing menjadi salah satu media pemasaran produk maupun jasa yang sampai saat ini masih banyak digunakan oleh berbagai perusahaan terutama di bidang perbankan, asuransi, dan telekomunikasi. Telemarketing dianggap lebih efektif dibandingkan dengan penggunaan baliho, flyer maupun brosur karena menghubungkan secara langsung antara perusahaan dengan calon pelanggan. Pada proses implementasinya, penggunaan telemarketing ini justru seringkali menemui kegagalan dan bahkan berujung pada sikap antipati calon pelanggan yang dihubungi bahkan sebelum proses komunikasi dilakukan. Salah satu penyebab terjadinya kegagalan dari proses telemarketing adalah tidak adanya proses seleksi untuk mengetahui potensi dari calon pelanggan. Machine learning menjadi salah satu alternatif yang dapat digunakan untuk membantu memilih dan menentukan calon pelanggan potensial dan sesuai dengan target perusahaan. Akan tetapi, missing values yang ada pada data telemarketing seringkali menjadi permasalahan baru yang harus ditangani agar penggunaan machine learning menjadi lebih efektif dan mendukung keberhasilah telemarketing. Pada penelitian ini, K-means digunakan sebagai salah satu cara untuk menangani adanya missing values pada data telemarketing. Hasilnya, terdapat peningkatan hingga sebesar 6% jika diukur berdasarkan nilai akurasi menggunakan model Decision Tree. Kata Kunci: Telemarketing, Machine Learning, Missing Values, K-Means, Klasifikasi.
Analisis Sentimen Mengenai Vaksin Sinovac Menggunakan Algoritma Support Vector Machine (SVM) dan K-Nearest Neighbor (KNN) Anna Baita; Yoga Pristyanto; Nuri Cahyono
Information System Journal Vol. 4 No. 2 (2021): Information System Journal (INFOS)
Publisher : Universitas Amikom Yogyakarta

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24076/infosjournal.2021v4i2.687

Abstract

Pandemi COVID-19 yang bermula di Wuhan, Tiongkok, saat ini menjadi pandemi yang terjadi di berbagai negara di seluruh dunia. Upaya vaksinasi dilakukan untuk mengurangi tingkat penyebaran dari virus COVID-19. Pemberian vaksin memberikan dampak yang berbeda-beda, sehingga menimbulkan berbagai opini terhadap pemberian vaksin ini. Sentimen analisis dapat digunakan untuk mengalisa opini masyarakat terhadap pemberian vaksin ini. Dalam penelitian ini menggunakan algoritma SVM dan KNN untuk melakukan analisa mengenai sentimen masyarakat terhadap pemberian vaksin ini. Adapun opini di dapatkan dari aplikasi twitter dengan keyword sinovac. Dataset yang digunakan merupakan cuitan dalam bahasa Inggris. Proses pelabelan teks dilakukan secara otomatis menggunakan textblob. Hasil penelitian menunjukkan bahwa algoritma SVM memiliki performa yang lebih baik jika dibandingkan dengan algoritma KNN. Akurasi algoritma SVM sebesar 0.7, sedangkan akurasi algoritma KNN sebesar 0.56.
PENERAPAN METODE ENSEMBLE UNTUK MENINGKATKAN KINERJA ALGORITME KLASIFIKASI PADA IMBALANCED DATASET Yoga Pristyanto
Jurnal Teknoinfo Vol 13, No 1 (2019): JANUARI
Publisher : Universitas Teknokrat Indonesia

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.33365/jti.v13i1.184

Abstract

Pada bidang data mining sering kali para peneliti tidak memperhatikan keseimbangan distribusi kelas pada dataset. Hal ini dapat menimbulkan kesulitan yang cukup serius pada algoritme klasifikasi. karena secara teori mayoritas classifier mengasumsikan distribusi yang relatif seimbang, sehingga menyebabkan kinerja suatu algoritme klasifikasi menjadi kurang maksimal. Oleh karena itu, pada penelitian ini diterapkan metode ensemble dengan penambahan adaptive boosting untuk menyelesaikan permasalahan tersebut. Dari hasil pengujian yang dilakukan pada penelitian ini, metode ensemble dengan penambahan adaptive boosting dapat meningkatkan nilai kinerja algoritme klasifikasi. Nilai kinerja algoritme Naive Bayes dengan Adaptive Boosting akurasi yang dihasilkan sebesar 91.98%, sensitifitas sebesar 91.98%, spesifisitas sebesar 96.49%, dan g-mean sebesar 94.21%. Nilai kinerja algoritme Support Vector Machine dengan Adaptive Boosting akurasi yang dihasilkan sebesar 91.52%, sensitifitas sebesar 91.52%, spesifisitas sebesar 96.29%, dan g-mean sebesar 93.88%. Sedangkan Nilai kinerja algoritme Decision Tree dengan Adaptive Boosting akurasi yang dihasilkan sebesar 94.37%, sensitifitas sebesar 94.37%, spesifisitas sebesar 97.73%, dan g-mean sebesar 96.03%. Hal ini menunjukkan bahwa metode ensemble dengan Adaptive Boosting dapat menjadi solusi untuk meningkatkan kinerja algoritme pada imbalanced dataset.Kata Kunci: adaptive boosting, data mining, ensemble, ketidakseimbangan kelas, klasifikasi.
Penerapan metode Stacking dan Random Forest untuk Meningkatkan Kinerja Klasifikasi pada Proses Deteksi Web Phishing Anggit Ferdita Nugraha; Rifda Faticha Alfa Aziza; Yoga Pristyanto
Jurnal Infomedia:Teknik Informatika, Multimedia & Jaringan Vol 7, No 1 (2022): Jurnal Infomedia
Publisher : Politeknik Negeri Lhokseumawe

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30811/jim.v7i1.2959

Abstract

Ketidakseimbangan kelas seringkali menjadi hal yang diabaikan terutama oleh para peneliti di bidang data mining dan machine learning. padahal dengan melakukan penanganan terhadap ketidakseimbangan kelas, memungkinkan adanya peningkatan kinerja klasifikasi apabila dibandingkan dengan penggunaan model klasifikasi tunggal. Hal tersebut dikarenakan cara kerja klasifikasi tunggal yang cenderung bekerja untuk mengenali pola mayoritas dan mengasumsikan distribusi data secara relative membuat kinerja klasifikasi menjadi kurang maksimal. Oleh karena itu, pada penelitian ini diusulkan sebuah pendekatan level algoritmik yang memanfaatkan algoritma random forest, serta metode stacking yang menggabungkan algoritma decision tree dengan naïve bayes sebagai model klasifikasi pada dua jenis web phising dataset yang masing-masing memiliki imbalanced rasio sebesar 1.25% untuk binary class dan 6.82% untuk multiclass. Ide dasar dilakukannya pendekatan level algoritmik ini karena keunggulannya yang mampu meningkatkan dan memaksimalkan kinerja klasifikasi tanpa merubah komposisi maupun pola dataset sehingga informasi yang ada pada dataset tetap terjaga. Hasilnya, penggunaan algoritma random forest memiliki nilai akurasi tertinggi yakni sebesar 96.4% pada dataset web phising binary class, sedangkan metode stacking yang menggabungkan algoritma decision tree dengan naïve bayes menghasilkan kinerja terbaik pada dataset web phising multiclass berdasarkan nilai akurasi sebesar 88.8%
Klasifikasi Penyakit Diabetes Pada Imbalanced Class Dataset Menggunakan Algoritme Stacking Yoga Pristyanto; Acihmah Sidauruk; Atik Nurmasani
JURNAL MEDIA INFORMATIKA BUDIDARMA Vol 6, No 1 (2022): Januari 2022
Publisher : STMIK Budi Darma

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30865/mib.v6i1.3442

Abstract

Diabetes is a disease that has the potential to cause death. Based on a report from the IDF (International Diabetes Federation), it was stated that in 2019 there were 463 million people in the world suffering from this disease. According to the Ministry of Health, Indonesia is a country that is included in the top 10 highest in the world by the number of people with diabetes. Machine learning models can be a solution for the early detection of diabetes based on history and available data. The majority of the research that has been done chiefly uses a single classifier. The single classifier model has a weakness when faced with class imbalance conditions in the dataset. Therefore, this study uses the Stacking Model for the classification and prediction process on the diabetes dataset. The goal is to improve the performance of a single classifier. In addition, the Stacking Model is expected to be one of the solutions for the classification of diabetes in the imbalanced class dataset. Based on two test experiments that have been carried out using two different datasets. The Stacking algorithm can produce an accuracy value of 89%, TPR value of 89%, TNR value of 85%, and G-Mean of 86.98% in the first dataset and can produce an accuracy value of 96%, TPR value of 96%, TNR value of 94%, and G-Mean of 94.99% in the second dataset. These results are better than single classifiers such as C4.5, K-NN, and SVM of the four indicators evaluated in both diabetes datasets. Thus, the proposed algorithm, namely Stacking (C4.5-SVM), can be a solution for classifying diabetes datasets with unbalanced class distribution conditions.
DIGITALISASI INFORMASI UNTUK MENINGKATKAN PEMASARAN PADA UMKM VEFAR Yoga Pristyanto
JURNAL PengaMAS Vol 4, No 2 (2021)
Publisher : UNIVERSITAS KHAIRUN

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.33387/.v4i2.2376

Abstract

Vefar merupakan salah satu usaha mikro kecil menengah yang bergerak dibidang budidaya tanaman hidroponik dan penjualan sayuran segar. Vefar berlokasi di dusun Pandan Puro, Hargobinangun, Pakem, Kabupaten Sleman, Provinsi Daerah Istimewa Yogyakarta. Vefar didirikan oleh Saudara Aditya Chandra yang juga selaku pemilik kurang lebih sekitar tahun 2018. Pada proses bisnisnya Vefar bergerak dalam penjualan bibit tanaman hidroponik dan sayuran segar. Seiring dengan ketatnya persaingan pada bidang jasa jual beli sayuran segar Vefar memiliki kendala dalam mengenalkan dan menjual produknya ke berbagai daerah. Pihaknya memerlukan sebuah media pemasaran online berbasis website supaya mempermudah dalam memasarkan produknya ke berbagai wilayah khususnya di Yogyakarta. Disisi lain keberadaan website tersebut nantinya juga akan menunjang dalam proses pemasaran dan jual beli produknya di masa pandemi covid-19 ini, hal ini dikarenakan ruang gerak dalam proses pemasaran dan penjualan dalam masa pandemi seperti ini menjadi terbatas. Selain digunakan untuk pemasaran website tersebut nantinya juga akan digunakan dalam proses branding mengingat Vefar merupakan pemain baru dalam bisnis bidang budidaya tanaman hidroponik dan penjualan sayuran segar. Dengan adanya website tersebut dapat memudahkan UMKM Vefar dalam melakukan pemasaran produknya sehingga dapat meningkatkan pendapatan Vefar.
Analisis Sentimen Pengguna Twitter Terhadap Layanan Internet Provider Menggunakan Algoritma Support Vector Machine Fadhilah Dwi Ananda; Yoga Pristyanto
MATRIK : Jurnal Manajemen, Teknik Informatika dan Rekayasa Komputer Vol 20 No 2 (2021)
Publisher : LPPM Universitas Bumigora

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (458.578 KB) | DOI: 10.30812/matrik.v20i2.1130

Abstract

Media sosial saat ini merupakan media komunikasi yang sering digunakan oleh kalangan masyarakat Indonesia dalam menyampaikan sebuah opini. Salah satu media yang sering digunakan masyarat adalah twitter. Twitter merupakan media sosial yang memberikan banyak informasi melalui tweet, dari informasi yang ditulis tersebut terdapat data yang dapat diolah. Penelitian ini menggunakan teknik text mining dengan menerapkan algoritma Support Vector Machine dipergunakan untuk klasifikasi sentimen pengguna twitter terhadap layanan internet Biznet. Kernel yang digunakan adalah kernel Linear dan kernel RBF. Pengujian dilakukan dengan 3 skenario, pada skenario 1 menggunakan 800 data, skenario 2 menggunakan 900 data dan skenario 3 menggunakan 1000 data, untuk pembagiannya yaitu 90% data training dan 10% data testing dari masing-masing skenario. Berdasarkan hasil pengujian yang dilakukan menggunakan kernel linear dan kernel RBF dapat diambil kesimpulan sebagai berikut. Algoritma SVM menggunakan dengan kernel linear maupun kernel RBF memiliki hasil kinerja evaluasi baik dari sisi akurasi, presisi dan recall yang relatif sama. Sehingga dapat dikatakan bahwa algoritma SVM baik dengan kernel RBF maupun Linear sama sama dapat digunakan dengan baik dalam menentukan sentimen pengguna internet Biznet. Selain itu dengan 3 skenario pengujian dengan jumlah data yang berbeda algoritma SVM baik dengan kernel RBF maupun Linear sama sama konsisten kinerjanya.
Klasifikasi Data Review IMDb Berdasarkan Analisis Sentimen Menggunakan Algoritma Support Vector Machine Gita Cahyani; Wiwi Widayani; Sharazita Dyah Anggita; Yoga Pristyanto; Ikmah Ikmah; Acihmah Sidauruk
JURNAL MEDIA INFORMATIKA BUDIDARMA Vol 6, No 3 (2022): Juli 2022
Publisher : STMIK Budi Darma

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30865/mib.v6i3.4023

Abstract

Advances in Web 2.0 technology encourage the creation of personal website content involving sentiments such as blogs, tweets, web forums, and various types of social media. The Internet Movie Database (IMDb) is a website that provides information about films from around the world, including the people involved, nominations received, and reviews from visitors. The number of movies and reviews on IMDb causes users or visitors to check the reviews to find out the film rating, so it takes time for users who have no experience using IMDb. Sentiment analysis can be a solution to label positive and negative reviews. One of the algorithms used in sentiment analysis is the Support Vector Machine (SVM) algorithm. This study aimed to test the accuracy of the SVM algorithm in the classification of sentiment review films on IMDb. The tests carried out using the Support Vector Machine algorithm resulted in an accuracy value of 86.5%. The SVM algorithm can also produce a precision value of 90.67% and a recall value of 91.62%.