Claim Missing Document
Check
Articles

Found 18 Documents
Search

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Ridok, Achmad; Latifah, Retnani
Proceedings Konferensi Nasional Sistem dan Informatika (KNS&I) 2015
Publisher : Proceedings Konferensi Nasional Sistem dan Informatika (KNS&I)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (604.819 KB)

Abstract

Pada umumnya pengklasifikasian teks mengasusumsikan data latih terdistribusikan sama rata pada setiap kategori. Padahal pada kenyataannya kumpulan data yang tidak seimbang sering kali muncul. Penelitian ini mencoba menerapkan algoritma Neighbor Weighted K-Nearest Neighbor (NWKNN) untuk mengklasifikasikan dokumen teks berbahasa Indonesia dengan corpus yang tidak seimbang. Algoritma ini memberikan bobot yang kecil untuk tetangga – tetangga yang berasal dari kategori yang besar dan memberikan bobot yang besar pada tetangga – tetangga yang berasal dari kategori yang kecil. Hasil uji coba sistem pada 785 dokumen dari 8 kategori dengan rasio dokumen latih 75% dan dokumen uji 25% serta exponent = 2 dan threshold document frequency = 5, menunjukkan nilai rata - rata precision, recall dan F1 measure masing-masing sebesar 84.2%, 86.7% dan 84.3%. Hasil perbandingan dengan algoritma KNN menunjukkan nilai recall dan F1 measure NWKNN masing-masing lebih tinggi sebesar 6.9% dan 2.6% daripada nilai recall dan F1 measure KNN.
Implementasi Algoritma Caverphone 2.0 Untuk Pencarian Kata Berdasarkan Kemiripan Pengucapan Pada Aplikasi Kamus Inggris- Indonesia Achmad Ridok, Andreas Tommy Christiawan, Arief Andy Soebroto,
SMATIKA Vol 3, No 1 (2013)
Publisher : SMATIKA

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Pronounciation atau pengucapan dianggap sulit oleh sebagian orang karena ada beberapa bunyi yang tidak ada dalam bahasa Indonesia. Untuk mencari kata bahasa Inggris yang memiliki kemiripan pengucapan dapat  digunakan beberapa  algoritma  salah  satunya  adalah  algoritma  Caverphone 2.0. Algoritma Caverphone 2.0 mengubah setiap kata menjadi kode fonetis sehingga dapat diketahui kata bahasa Inggris apa saja yang memiliki kemiripan pengucapan. Implementasi algoritma Caverphone 2.0 dalam kamus Inggris-Indonesia dapat membantu seseorang untuk mengasah kemampuan pronounciation berbahasa Inggris. Analisis kebutuhan dilakukan dengan menganalisis Use Case Diagram. Implementasi perancangan menggunakan bahasa pemrograman Java. Pengujian fungsionalitas terhadap 6 tindakan dalam use case diagram dengan metode black-box testing menunjukkan bahwa Aplikasi Kamus Inggris- Indonesia dengan algoritma Caverphone 2.0 ini telah memenuhi kebutuhan yang telah dijabarkan pada tahap analisis kebutuhan.Hasil pengujian ini menunjukkan bahwa kualitas hasil keluaran Aplikasi kamus Inggris- Indonesia menggunakan algoritma Caverphone adalah 69.60% untuk awal kata,  53.50% untuk tengah kata, dan 65.34% untuk akhir kata.
Pengklasifikasian Dokumen Berbahasa Indonesia Dengan Pengindeksan Berbasis LSI Ridok, Achmad; ., Indriati
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 2, No 2 (2015)
Publisher : Fakultas Ilmu Komputer

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (911.531 KB)

Abstract

AbstrakKlasifikasi dokumen teks bertujuan untuk menentukan kategori suatu dokumen berdasarkan kesamaannya dengan kumpulan dokumen yang telah berlabel sebelumnya. Namun demikian kebanyakan metode klasifikasi yang ada saat ini dilakukan berdasarkan kata-kata kunci atau kata-kata yang dianggap penting dengan mengasumsikan masing-masing merepresentasikan konsep yang unik. Padahal pada kenyataanya beberapa kata yang mempunyai makna atau semantik sama seharusnya diwakili satu kata unik. Pada penelitian ini pendekatan berbasis LSI (Latent Semantic Indexing) digunakan pada KNN untuk mengklasifikasi dokumen berbahasa Indonesia. Pembobotan term dari dokumen-dokumen latih maupun uji menggunakan tf-idf,  yang direpresentasikan masing-masing dalam matrik term-dokumen A dan B. Selanjutnya matrik A didekomposisi menggunakan SVD untuk mendapatkan matrik U dan V yang tereduksi dengan k-rank. Kedua matrik U dan V digunakan untuk mereduksi B sebagai representasi dokumen uji.  Evaluasi kinerja sistem terbaik berdasarkan hasil  diperoleh pada klasifikasi KNN berbasis LSI tanpa stemming dengan threshould 2. Akan tetapi evaluasi kinerja terbaik berdasarkan waktu dicapai ketika KNN LSI dengan stemming pada threshould 5. Kinerja KNN berbasis LSI secara signifikan jauh lebih baik dibandingkan dengan KNN biasa baik dari sisi hasil maupun waktu.Kata kunci: KNN, LSI, K-Rank, SVD, Klasifikasi dokumen AbstractClassification of text documents aimed to determine the category of a document based on its similarity to set of documents which have been previously labeled. However, most existing methods of classification were conducted based on key words or words that are considered important by assuming each representing a unique concept. Whereas in fact some of the words that have the same meaning or semantics should be represented as a unique word. In this research LSI -based approach  used on KNN to classify documents in Indonesian language. Weighting the terms of the training documents or testing using tf-idf, which represented respectively in term-document matrix A and B. Furthermore, the matrix A is decomposed using SVD to obtain matrices U and V are reduced by k-rank. Both matrices U and V are used to reduce B as a representation of test documents. The best system performance evaluation based on the results obtained LSI-based in the KNN classification without stemming with threshould 2. However, the best performance evaluation based on the time achieved when KNN LSI with stemming the KNN with threshould 5. Performance-based LSI is significantly much better than the tradisional KNN in term both the outcome and timing.Keywords: KNN, LSI, K-Rank, SVD, Documents classification
Peringkasan Dokumen Bahasa Indonesia Berbasis Non-Negative Matrix Factorization (NMF) Ridok, Achmad
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 1, No 1 (2014)
Publisher : Fakultas Ilmu Komputer

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (669.594 KB)

Abstract

Abstrak Peningkatan teknologi informasi telah memicu peningkatan dokumen teks digital secara massif termasuk dokumen berbahasa Indonesia. Penggalian informasi dari dokumen berupa ringkasan secara otomatis sangat dibutuhkan. Pada penelitian ini  peringkasan otomatis  menggunakan Nonnegatif Matrix Factorization (NMF) telah dikembangkan. Sistem dievaluasi dengan membandingkan  ringkasan sistem dengan  ringkasan dari  3 orang pakar   terhadap 100 dokumen bahasa Indonesia . Hasil evaluasi menunjukkan ringkasan  sistem  mempunyai rata-rata presisi dan recall   masing-masing 0.19724 dan 0.34085. Sedangkan  evaluasi ringkasan antar pakar  mempunyai rata-rata presisi dan recall masing-masing 0.68667 dan 0.70642..   Kata kunci: peringkasan dokumen, NMF Abstract Improvement of information technology has led to increased massively digital text documents, including documents of Indonesian language. Extracting information from documents such as automatic summary  is needed. In this study peringkasan automatically using non-negative Matrix Factorization (NMF) has been developed. The system was evaluated by comparing summary of system with summary of of three experts on 100 Indonesian documents. The evaluation shows summary of the system has an average precision and recall respectively 0.19724 and 0.34085. While the summary of an expert evaluation had an average precision and recall respectively 0.68667 and 0.70642. Keywords: text summarization, NMF
A hybrid feature selection on AIRS method for identifying breast cancer diseases Achmad Ridok; Nashi Widodo; Wayan Firdaus Mahmudy; Muhaimin Rifa’i
International Journal of Electrical and Computer Engineering (IJECE) Vol 11, No 1: February 2021
Publisher : Institute of Advanced Engineering and Science

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.11591/ijece.v11i1.pp728-735

Abstract

Breast cancer may cause a death due to the late diagnosis. A cheap and accurate tool for early detection of this disease is essential to prevent fatal incidence. In general, the cheap and less invasive method to diagnose the disease could be done by biopsy using fine needle aspirates from breast tissue. However, rapid and accurate identification of the cancer cell pattern from the cell biopsy is still challenging task. This diagnostic tool can be developed using machine learning as a classification problem. The performance of the classifier depends on the interrelationship between sample sizes, some features, and classifier complexity. Thus, the removal of some irrelevant features may increase classification accuracy. In this study, a new hybrid feature selection fast correlation based feature (FCBF) and information gain (IG) was used to select features on identifying breast cancer using AIRS algorithm. The results of 10 times the crossing (CF) of our validation on various AIRS seeds indicate that the proposed method can achieve the best performance with accuracy =0.9797 and AUC=0.9777 at k=6 and seed=50.
PEMBUATAN JUDUL OTOMATIS DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN METODE KNN Achmad Ridok
Seminar Nasional Aplikasi Teknologi Informasi (SNATI) 2012
Publisher : Jurusan Teknik Informatika, Fakultas Teknologi Industri, Universitas Islam Indonesia

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Pembuatan judul otomatis adalah proses untuk menghasilkan judul dari suatu artikel dokumen secara otomatis. Dengan dibangkitkannya judul secara otomatis pembaca dapat menangkap ide utama dari sebuah dokumen tanpa harus membaca keseluruhan dokumen. Pada penelitian ini dilakukan penerapan metode K-Nearest Neighbor (KNN) untuk pembuatan judul otomatis dokumen berita berbahasa Indonesia. Hasil pengujian dan evaluasi menunjukkan bahwa sistem pembuatan judul ini menghasilkan kinerja terbaik pada katagori politik dengan nilai rata-rata pesisi sebesar 0.319, nilai rata-rata recall sebesar 0.321 dan nilai rata-rata F-measure sebesar 0.311. Sistem dengan metode KNN ini memiliki kelemahan, yaitu sangat bergantung pada data latih dan tidak dapat membuat judul baru, sehingga terdapat judul bentukan sistem yang kurang mencerminkan isi dari dokumen yang diujikan
SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN) Indriati Indriati; Achmad Ridok
Journal of Environmental Engineering and Sustainable Technology Vol 3, No 1 (2016)
Publisher : Lembaga Penelitian dan Pengabdian kepada Masyarakat Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (622.713 KB) | DOI: 10.21776/ub.jeest.2016.003.01.4

Abstract

Indonesia a potential market for business because of a large number of smartphone users, especially developers of mobile applications. Each application stores allow the user to provide a review of the application used. The review is not only beneficial for prospective users of the application but also beneficial for the application developer. Review of the applications that are influenced by emotion (sentiment) are grouped or classified to determine positive and negative polarization. Therefore, it is necessary to have an application that can perform sentiment analysis for the mobile app reviews using Neighbor-Weighted K-Nearest Neighbor (NWKNN) classification method with high accuracy results. NWKNN method is able to classify mobile application review documents on the balanced data with current value of k = 20 gives the best f-measure average value of 0.9 with ratio of training data and test data 80%: 20%. However, for the imbalanced data with value of k = 45 gives the best f-measure average value of 0.797 with a ratio of training data and test data 80%: 20%. Based on the results, the effect of imbalanced data to  the accuracy of the NWKNN methods by comparing NWKNN and KNN methods, it was found that the value of F-Measure NWKNN method is better than KNN method with gap of 0,27, due to the added weight on class minority overcome misclassification problem on minority class.
PENCARIAN PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA (KUHP) BERDASARKAN KASUS MENGGUNAKAN METODE COSINE SIMILARITY DAN LATENT SEMANTIC INDEXING (LSI) Setyoko Yudho Baskoro; Achmad Ridok; Muhammad Tanzil Furqon
Journal of Environmental Engineering and Sustainable Technology Vol 2, No 2 (2015)
Publisher : Lembaga Penelitian dan Pengabdian kepada Masyarakat Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (760.427 KB) | DOI: 10.21776/ub.jeest.2015.002.02.4

Abstract

Indonesia is a country of law. As law states, Indonesian have regulations that govern the relationship between the communities, one of them is criminal law. Set of rules of criminal law is written in the Kitab Undang-undang Hukum Pidana (KUHP), which contains hundreds of clause which regulate the relationship between the community based on values, norms, and specific rules that focuses on the interests of the public. In this paper, information retrieval used to search the clause of the KUHP based on a description of the crime, using Latent Semantic Indexing (LSI). LSI adopts techniques in mathematical dimension reduction process Singular Value Decomposition (SVD). This system use 60 clause as training data, and 6 query or crime description as test data. In each of the data clause of the KUHP contained data such as clause number, clause, and the clause contents. The system will calculate and determine the relevant clause is based on  query or  description of the crimes that has been entered. Cosine similarity used to calculate the similarity or proximity clause KUHP with query. The performance of the system is shown by the test results of Mean Average Precision (MAP) value at each k-rank is 5, 10, 20, 30, 40, 50, and 59, with the highest performance is in k-rank 40 with MAP 0.8944.
Pengklasifikasian Dokumen Berbahasa Indonesia Dengan Pengindeksan Berbasis LSI Achmad Ridok; Indriati .
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 2 No 2: Oktober 2015
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (911.531 KB) | DOI: 10.25126/jtiik.201522136

Abstract

AbstrakKlasifikasi dokumen teks bertujuan untuk menentukan kategori suatu dokumen berdasarkan kesamaannya dengan kumpulan dokumen yang telah berlabel sebelumnya. Namun demikian kebanyakan metode klasifikasi yang ada saat ini dilakukan berdasarkan kata-kata kunci atau kata-kata yang dianggap penting dengan mengasumsikan masing-masing merepresentasikan konsep yang unik. Padahal pada kenyataanya beberapa kata yang mempunyai makna atau semantik sama seharusnya diwakili satu kata unik. Pada penelitian ini pendekatan berbasis LSI (Latent Semantic Indexing) digunakan pada KNN untuk mengklasifikasi dokumen berbahasa Indonesia. Pembobotan term dari dokumen-dokumen latih maupun uji menggunakan tf-idf,  yang direpresentasikan masing-masing dalam matrik term-dokumen A dan B. Selanjutnya matrik A didekomposisi menggunakan SVD untuk mendapatkan matrik U dan V yang tereduksi dengan k-rank. Kedua matrik U dan V digunakan untuk mereduksi B sebagai representasi dokumen uji.  Evaluasi kinerja sistem terbaik berdasarkan hasil  diperoleh pada klasifikasi KNN berbasis LSI tanpa stemming dengan threshould 2. Akan tetapi evaluasi kinerja terbaik berdasarkan waktu dicapai ketika KNN LSI dengan stemming pada threshould 5. Kinerja KNN berbasis LSI secara signifikan jauh lebih baik dibandingkan dengan KNN biasa baik dari sisi hasil maupun waktu.Kata kunci: KNN, LSI, K-Rank, SVD, Klasifikasi dokumen AbstractClassification of text documents aimed to determine the category of a document based on its similarity to set of documents which have been previously labeled. However, most existing methods of classification were conducted based on key words or words that are considered important by assuming each representing a unique concept. Whereas in fact some of the words that have the same meaning or semantics should be represented as a unique word. In this research LSI -based approach  used on KNN to classify documents in Indonesian language. Weighting the terms of the training documents or testing using tf-idf, which represented respectively in term-document matrix A and B. Furthermore, the matrix A is decomposed using SVD to obtain matrices U and V are reduced by k-rank. Both matrices U and V are used to reduce B as a representation of test documents. The best system performance evaluation based on the results obtained LSI-based in the KNN classification without stemming with threshould 2. However, the best performance evaluation based on the time achieved when KNN LSI with stemming the KNN with threshould 5. Performance-based LSI is significantly much better than the tradisional KNN in term both the outcome and timing.Keywords: KNN, LSI, K-Rank, SVD, Documents classification
Peringkasan Dokumen Bahasa Indonesia Berbasis Non-Negative Matrix Factorization (NMF) Achmad Ridok
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 1 No 1: April 2014
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (669.594 KB) | DOI: 10.25126/jtiik.201411104

Abstract

Abstrak Peningkatan teknologi informasi telah memicu peningkatan dokumen teks digital secara massif termasuk dokumen berbahasa Indonesia. Penggalian informasi dari dokumen berupa ringkasan secara otomatis sangat dibutuhkan. Pada penelitian ini  peringkasan otomatis  menggunakan Nonnegatif Matrix Factorization (NMF) telah dikembangkan. Sistem dievaluasi dengan membandingkan  ringkasan sistem dengan  ringkasan dari  3 orang pakar   terhadap 100 dokumen bahasa Indonesia . Hasil evaluasi menunjukkan ringkasan  sistem  mempunyai rata-rata presisi dan recall   masing-masing 0.19724 dan 0.34085. Sedangkan  evaluasi ringkasan antar pakar  mempunyai rata-rata presisi dan recall masing-masing 0.68667 dan 0.70642..   Kata kunci: peringkasan dokumen, NMF Abstract Improvement of information technology has led to increased massively digital text documents, including documents of Indonesian language. Extracting information from documents such as automatic summary  is needed. In this study peringkasan automatically using non-negative Matrix Factorization (NMF) has been developed. The system was evaluated by comparing summary of system with summary of of three experts on 100 Indonesian documents. The evaluation shows summary of the system has an average precision and recall respectively 0.19724 and 0.34085. While the summary of an expert evaluation had an average precision and recall respectively 0.68667 and 0.70642. Keywords: text summarization, NMF