Claim Missing Document
Check
Articles

Found 4 Documents
Search
Journal : Bandung Conference Series: Statistics

Penggunaan Metode K Nearest Neighborhood untuk Imputasi Data Tersensor Kanan pada Pasien Kanker Paru-Paru Sel Kecil Caecilia A Rahman; Abdul Kudus
Bandung Conference Series: Statistics Vol. 2 No. 2 (2022): Bandung Conference Series: Statistics
Publisher : UNISBA Press

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (373.302 KB) | DOI: 10.29313/bcss.v2i2.4615

Abstract

Abstract. In a study, it is usually necessary to have complete data for the accuracy of parameter estimation, but in survival analysis incomplete data is often found called censored data, this can happen due to limited research time and others. To complete the censored data, imputation is needed, one of method to imputating the censored data is K-Nearest Neighborhood (KNN) method. KNN imputation is designed to find K nearest neighbors from censored data to all complete data and then fill in the censored data with events that are most similar to its neighbors. If the target variable (or attribute) is categorical then imputation refers to the majority of neighbors but if the variable is numeric, then the imputation uses the average of the nearest neighbors. This study used data from 121 small cell lung cancer patients from the North Central Cancer Treatment Group in the United States. KNN imputation was used to impute the right-censored survival time of patients based on the average of the K nearest neighbors' complete data of survival time. The cens variable is used as an indicator of censorship, while the age and arm variables measure the distance between the complete data and the censored data. The smaller the distance data becomes the closest neighbor because it has similar characteristics. The average of the K complete data will be the imputed value for the censored data. This study succeeded in imputing 23 censored data based on 46 closest neighbors (K = 46). Abstrak. Dalam suatu penelitian biasanya diperlukan kelengkapan data untuk ketepatan pendugaan parameter, namun pada analisis survival kerap ditemukannya data yang tidak lengkap yang disebut data tersensor, hal ini bisa terjadi karena terbatasnya waktu penelitian dan lain-lain. Untuk melengkapi data yang tidak lengkap tersebut diperlukannya imputasi, salah satunya yaitu metode K-Nearest Neighborhood (KNN). Imputasi KNN dirancang untuk mencari K tetangga terdekat dari data yang tidak lengkap ke seluruh kejadian suatu data, kemudian mengisi data yang hilang dengan kejadian yang paling mirip dengan tetangganya, jika target variabel (atau atribut) berupa kategorik maka imputasi merujuk kepada mayoritas tetangga namun apabila variabel berupa numerik maka imputasi menggunakan rata-rata dari tetangga terdekat. Penelitian ini menggunakan data dari 121 pasien kanker paru-paru sel kecil dari North Central Cancer Treatment Group di Amerika Serikat. Imputasi KNN digunakan untuk mengimputasi waktu survival pasien yang tersensor kanan berdasarkan rata-rata dari sebanyak K tetangga terdekat data lengkap waktu survival. Variabel cens digunakan sebagai indikator penyensoran sedangkan variabel usia dan Arm (jenis perawatan) digunakan untuk mengukur jarak antara data lengkap dengan data tersensor, semakin kecil jarak maka data tersebut menjadi tetangga terdekat karena memiliki karakteristik yang mirip. Rata-rata dari sebanyak K data lengkap akan menjadi nilai imputasi bagi data tersensor. Pada penelitian ini berhasil mengimputasi 23 data tersensor berdasarkan 46 tetangga terdekatnya (K = 46).
Penerapan Algoritma Fuzzy Possibilistic C-Means (FPCM) pada Pengelompokan Kabupaten/Kota di Indonesia Berdasarkan Indikator Indeks Pembangunan Manusia Tahun 2022 Ghia Fauziah Aghyari; Abdul Kudus
Bandung Conference Series: Statistics Vol. 3 No. 2 (2023): Bandung Conference Series: Statistics
Publisher : UNISBA Press

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.29313/bcss.v3i2.7321

Abstract

Abstract. Human resources are a crucial factor in human development and a key component in achieving prosperity in every country. The success of development is measured in various ways, one of the most popular being the calculation of the Human Development Index (HDI). The classification of districts and cities in Indonesia is necessary as a reference for government program planning and evaluation to enhance human development in those areas. Partitioning clustering is one of the clustering techniques that aims to partition data into several groups or partitions, with the number of groups usually predetermined. One of the algorithms used in partitioning clustering is Fuzzy Possibilistic C-Means (FPCM). Fuzzy Possibilistic C-Means (FPCM) is an extension of two algorithms, namely Fuzzy C-Means (FCM) and Possibilistic C-Means (PCM). FPCM combines fuzzy and possibilistic concepts to address the weaknesses of the previous algorithms. Therefore, the Fuzzy Possibilistic C-Means (FPCM) algorithm is applied to cluster the districts and cities in Indonesia based on the indicators of the Human Development Index. Based on the results of the Modified Partition Coefficient (MPC) index, the optimal number of clusters is determined to be four clusters. Cluster 1 contains 146 districts and cities, cluster 2 contains 97 districts and cities, cluster 3 contains 141 districts and cities, and cluster 4 contains 130 districts and cities. Abstrak. Sumber daya manusia adalah faktor penting dalam pembangunan manusia yang menjadi komponen utama dalam mencapai kemakmuran di setiap negara. Keberhasilan pembangunan diukur dengan berbagai cara, salah satunya yang paling populer melalui perhitungan Indeks Pembangunan Manusia (IPM) atau Human Development Index (HDI). Pengelompokan wilayah Kabupaten/Kota di Indonesia perlu dilakukan sebagai acuan dalam perencanaan dan evaluasi program pemerintah untuk meningkatkan pembangunan manusia di daerah tersebut. Partitioning clustering adalah salah satu teknik pengelompokan yang mencoba mempartisi data ke dalam beberapa kelompok (partition) dan jumlah kelompok yang akan dibuat biasanya telah ditentukan sebelumnya dan salah satu algoritma pada partitioning clustering adalah Fuzzy Possibilistic C-Means (FPCM). Algoritma Fuzzy Possibilistic C-Means (FPCM) yang merupakan perluasan dari dua algoritma yaitu algoritma Fuzzy C-Means (FCM) dan Possibilistic C-Means (PCM). Fuzzy Possibilistic C-Means (FPCM) menggabungkan konsep fuzzy dan possibilistic untuk mengurangi kelemahan dari algoritma sebelumnya. Oleh karena itu diterapkan algoritma Fuzzy Possibilistic C-Means (FPCM) untuk mengelompokan Kabupaten/Kota di Indonesia berdasarkan indikator indeks pembangunan manusia. Berdasarkan hasil indeks Modified Partition Coefficient (MPC) jumlah klaster yang optimal adalah empat klaster. Pada klaster 1 berisi 146 Kabupaten/Kota, klaster 2 berisi 97 Kabupaten/Kota, klaster 3 berisi 141 Kabupaten/Kota, dan klaster 4 berisi 130 Kabupaten/Kota.
Penerapan Robust Skewness dan Kurtosis pada Data yang Mengandung Outlier Thiflan Farhan Atqan; Abdul Kudus
Bandung Conference Series: Statistics Vol. 3 No. 2 (2023): Bandung Conference Series: Statistics
Publisher : UNISBA Press

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.29313/bcss.v3i2.8691

Abstract

Abstract. Sample data that containing outliers have a large distorting effect on the sample mean and sample variance. Some statistics are also affected by the presence of outliers. These statistics include skewness and kurtosis. Robust statistics are needed to deal with this problem. One way is to use the Decile Mean (DM) or the average decile. In this thesis, robust skewness and kurtosis statistics will be applied using the Decile Mean (DM). This method will be applied to non-special case data at the Bandung state administrative court in 2019-2022 with the variable used, namely the length of the trial process. The results obtained are, the value of skewness is 8.97 and kurtosis is 11.11. As well as the results of the calculation of robust skewness of 0.1005 and robust kurtosis of 2.23. So, it can be concluded that by using the robust skewness and robust kurtosis methods, the distribution of non-special case data at the Bandung State Administrative Court in 2019-2022 is slightly skewed to the left, and is platykurtic or has a flat peak. Abstrak. Data sampel yang mengandung outlier memiliki pengaruh distorsi yang besar pada rata-rata sampel dan varians sampel. Beberapa statistik juga terpengaruh oleh adanya outlier. Statistik tersebut diantaranya yaitu skewness dan kurtosis. Diperlukan statistik yang robust untuk menangani masalah ini. Salah satu caranya yaitu dengan memanfaatkan Decile Mean (DM) atau rata-rata desil. Dalam skripsi ini akan diterapkan statistik skewness dan kurtosis yang robust dengan memanfaatkan Decile Mean (DM). Metode ini akan diterapkan pada data perkara non khusus di pengadilan tata usaha negara Bandung tahun 2019-2022 dengan variabel yang digunakan yaitu lamanya proses persidangan. Hasil yang diperoleh yaitu, nilai dari skewness sebesar 8,97 dan kurtosis sebesar 11,11. Serta hasil perhitungan robust skewness sebesar 0,1005 dan robust kurtosis 2,23. Maka, dapat disimpulkan bahwa dengan menggunakan metode robust skewness dan robust kurtosis, distribusi data perkara nonkhusus di pengadilan tata usaha negara Bandung tahun 2019-2022 sedikit condong kearah kiri, dan platikurtik atau memiliki puncak datar.
Penerapan Regresi Nonparametrik Smooting Spline untuk Data Tersensor dalam Memodelkan Hubungan Antara Lamanya Waktu Kesembuhan Rawat Inap Pada Pasien Diabetes Melitus Tipe-2 dengan Usia Pasien Dea Sri Mulyani; Abdul Kudus
Bandung Conference Series: Statistics Vol. 3 No. 2 (2023): Bandung Conference Series: Statistics
Publisher : UNISBA Press

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.29313/bcss.v3i2.8966

Abstract

Abstract. The aim of study is to explain the case. Regression analysis is used to model or look for patterns of relationship between one or more independent variables and one or more response variables. Since the data often does not follow a specific formulation pattern, a more flevible model is required, namely nonparametric regression model approach is an approachused when the shape of the shape of the relationship between the response variable and the independent variable is unknown or information about the shape of the regression function is not available. The nonparametric spline regression model with optimal noodes was applied to patient age and time to recovery after hospitalization in patients with type 2 diabetes mellitus containing right-censored data in a variable containing the right sensor. In this study, the generalized cross-validation (GCV) method was applied to nonparametric smoothing spline regression to determine the optimal smoothing parameter. In order to obtain the GCV value, parameter estimasi must be available to form a hat matriz formed form . Parameter estimation for the smoothing spline from the function f(.) by minimized PRSS (Penalized Residual Sum of Square). Once the optimal GCV value has been determined, it froms the best estimate of the regression function. Optimal Smoothing parameter by choosing with a minimum GCV value. According to the research result, the minimum GCV value is 0.0378 at and the GCV value with Kaplan Meier weights is 30.4773. Abstrak. Penelitian ini bertujuan untuk menjelaskan mengenai kasus Analisis regresi digunakan untuk memodelkan atau mencari pola hubungan antara satu atau lebih variabel bebas dengan satu atau lebih variabel respons. Seringkali data tidak mengikuti pola rumusan tertentu, sehingga diperlukan model yang lebih fleksibel, yaitu regresi nonparametrik. Pendekatan model regresi nonparametrik yaitu merupakan suatu pendekatan yang digunakan apabila bentuk hubungan antara variabel respon dan variabel bebasnya tidak diketahui atau tidak adanya informasi mengenai bentuk fungsi regresinya. Model regresi nonparametrik spline dengan titik knot optimal diaplikasikan pada usia pasien terhadap lamanya waktu kesembuhan rawat inap pada pasien yang menyandang penyakit diabetes melitus tipe-2 yang di dalamnya mengandung data tersensor kanan menjadi variabel yang berisi sensor kanan. Dalam penelitian ini diterapkannya metode GCV (Generalized Cross-Validation) pada regresi nonparametrik smoothing spline untuk menentukan parameter smoothing yang optimal. Untuk mendapatkan nilai GCV, Maka perlu adanya nilai estimasi parameter untuk membentuk hat matrix yang dibentuk dari . Estimasi parameter untuk smoothing spline dari fungsi f(.) dengan meminimumkan PRSS (Penalized Residual Sum of Square). Ketika nilai GCV yang optimal sudah didapatkan maka akan membentuk estimasi fungsi regresi yang terbaik. Parameter penghalus optimal dengan cara memilih yang memiliki nilai GCV minimum. Dari hasil penelitian, nilai GCV paling minimum bernilai 0.0378 pada saat dan untuk nilai GCV dengan pembobot Kaplan-Meier bernilai 30.4773.