Claim Missing Document
Check
Articles

Found 36 Documents
Search

KAMUS BAHASA ARAB – INDONESIA ONLINE DENGAN PEMECAHAN SUKU KATA MENGGUNAKAN METODE PARSING Yuniarti, Anny; Tjahyanto, Aris; Kuswardayan, Imam
JUTI: Jurnal Ilmiah Teknologi Informasi Vol 3, No 1 Januari 2004
Publisher : Department of Informatics, Institut Teknologi Sepuluh Nopember

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (290.743 KB) | DOI: 10.12962/j24068535.v3i1.a125

Abstract

Kebutuhan umat Islam akan fasilitas penunjang belajar bahasa Arab di Indonesia masih belum terpenuhi dengan optimal. Kamus bahasa Arab yang beredar di pasaran sulit dipahami karena minimnya pengetahuan tentang ilmu tata bahasa Arab di kalangan umat Islam. Pada penelitian ini dikembangkan sebuah perangkat lunak yang berfungsi menerjemahkan kata berbahasa Arab dengan metode parsing sehingga dapat mencakup kata-kata yang telah mengalami perubahan bentuk dari bentuk dasarnya. Karena kata bahasa Arab memiliki turunan kata yang jumlahnya cukup besar, dan supaya kamus efisien, maka tidak semua turunan kata disimpan dalam basisdata. Oleh sebab itu diperlukan suatu cara untuk mengenali pola kata, dan cara mengetahui bentuk dasar suatu kata. Keseluruhan perangkat lunak ini diimplementasikan berbasis web sehingga memudahkan pengaksesan pengguna. Dan pengguna tidak memerlukan proses instalasi perangkat lunak atau sistem operasi tertentu. Pembuatan perangkat lunak ini didahului dengan perancangan proses dan perancangan interface. Kemudian rancangan tersebut diimplementasikan menjadi sebuah perangkat lunak yang siap untuk dipakai. Perangkat lunak yang sudah jadi tersebut telah diuji coba sesuai dengan spesifikasi kebutuhan dan kemampuan yang dimiliki yaitu melakukan manajemen pada basisdata rules dan basisdata kamus. Dengan demikian perangkat lunak ini dapat dipakai sebagai kamus bahasa Arab digital. Kata kunci : Parser, Bahasa Arab, Unicode.
PENGHILANGAN NOISE PADA CITRA BERWARNA DENGAN METODE TOTAL VARIATION Yuniarti, Anny; Suciati, Nanik; A., Fetty Tri
JUTI: Jurnal Ilmiah Teknologi Informasi Vol 5, No 1 Januari 2006
Publisher : Department of Informatics, Institut Teknologi Sepuluh Nopember

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (404.114 KB) | DOI: 10.12962/j24068535.v5i1.a199

Abstract

Saat ini multimedia telah menjadi teknologi yang cukup dominan. Tukar menukar informasi dalam bentuk citra sudah banyak dilakukan oleh masyarakat. Citra dengan kualitas yang baik sangat diperlukan dalam penyajian informasi. Citra yang memiliki noise kurang baik digunakan sebagai sarana informasi, oleh karena itu diperlukan suatu metode untuk memperbaiki kualitas citra. Metode yang digunakan dalam penelitian ini adalah metode total variation untuk penghilangan noise yang dapat diterapkan untuk model warna nonlinier, yaitu Chromaticity-Brightness (CB) dan Hue-Saturation-Value (HSV). Filter total variation disebut filter yang bergantung pada data citra karena koefisien filternya diperoleh dari pemrosesan data citra dengan rumusan yang baku. Sehingga filter mask untuk masing-masing piksel memiliki kombinasi koefisien yang berbeda. Metode ini menggunakan proses iterasi untuk menyelesaikan persamaan dasar yang nonlinier. Uji coba dilakukan dengan menggunakan 30 data dengan berbagai jenis noise, yaitu gaussian, salt and pepper dan speckle. Uji coba pembandingan dengan metode filter median dan filter rata-rata. Dari percobaan ini menunjukkan bahwa metode total variation menghasilkan citra yang lebih baik daripada metode filter median maupun filter rata-rata, terutama pada citra yang terdegradasi dengan noise gaussian dan speckle. Kata kunci : Denoising, Total variation, Nonlinear Color Model
SEGMENTASI CITRA PANORAMIK GIGI MENGGUNAKAN SIMILARITAS ANTAR GRAY LEVEL BERDASARKAN INDEX OF FUZZINESS Pratamasunu, Gulpi Qorik Oktagalu; Arifin, Agus Zainal; Yuniarti, Anny; Wijaya, Arya Yudhi; Khotimah, Wijayanti Nurul; Navastara, Dini Adni
JUTI: Jurnal Ilmiah Teknologi Informasi Vol 14, No 1, Januari 2016
Publisher : Department of Informatics, Institut Teknologi Sepuluh Nopember

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.12962/j24068535.v14i1.a513

Abstract

Metode segmentasi citra berdasarkan teori fuzzy dan similaritas antar gray level mampu mengatasi masalah ambiguitas gray level dan pencahayaan yang tidak merata yang biasa ditemui pada citra medis. Namun, segmentasi dengan penentuan initial seeds-nya berdasarkan jumlah piksel minimum menghasilkan citra yang kurang baik saat diterapkan pada citra dengan kontras yang rendah, seperti yang terdapat pada citra panoramik gigi. Pada penelitian ini diusulkan metode segmentasi citra panoramik gigi dengan penentuan initial seeds berdasarkan index of fuzziness terbesar pada histogram. Histogram dibagi kedalam tiga daerah berdasarkan posisi dari pusat fuzzy region. Kemudian, proses pengukuran similaritas antar gray level yang berada pada fuzzy region dilakukan untuk menemukan threshold yang optimal. Performa metode yang diusulkan diuji menggunakan citra panoramik gigi. Evaluasi performa dilakukan dengan menghitung nilai Misclassification Error antara citra hasil segmentasi dengan citra ground truth. Hasil evaluasi menunjukkan bahwa hasil segmentasi metode yang diusulkan pada citra panoramik gigi memiliki performa yang lebih baik dibandingkan dengan hasil segmentasi dari metode Otsu.
KLASIFIKASI MASSA PADA CITRA MAMMOGRAM MENGGUNAKAN KOMBINASI SELEKSI FITUR F-SCORE DAN LS-SVM Rosadi, Muhammad I.; Arifin, Agus Z.; Yuniarti, Anny
Teknologi: Jurnal Ilmiah Sistem Informasi Vol 6, No 1 (2016): January
Publisher : Universitas Pesantren Tinggi Darul 'Ulum (Unipdu) Jombang

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (777.373 KB) | DOI: 10.26594/teknologi.v6i1.558

Abstract

ABSTRAKKanker payudara adalah penyakit yang paling umum diderita oleh perempuan pada banyak negara. Pemeriksaan kanker payudara dapat dilakukan menggunakan citra Mammogram dengan teknologi sistem Computer-Aided Detection (CAD). Analisis CAD yang telah dikembangkan adalah ekstraksi fitur GLCM, reduksi/seleksi fitur, dan SVM. Pada SVM (Support Vector Machine) maupun LS-SVM (Least Square Support Vector Machine) terdapat tiga masalah yang muncul, yaitu: Bagaimana memilih fungsi kernel, berapa jumlah fitur input yang dioptimalkan, dan bagaimana menentukan parameter kernel terbaik. Jumlah fitur dan nilai parameter kernel yang diperlukan saling mempengaruhi, sehingga seleksi fitur diperlukan dalam membangun sistem klasifikasi. Pada penelitian ini bertujuan untuk mengklasifikasi massa pada citra Mammogram berdasarkan dua kelas yaitu kelas kanker jinak dan kelas kanker ganas. Ekstraksi fitur menggunakan Gray Level Co-occurrence Matrix (GLCM). Hasil proses ekstraksi fitur tersebut kemudian diseleksi mengunakan metode F-Score. F-Score diperoleh dengan menghitung nilai diskriminan data hasil ekstraksi fitur di antara data dua kelas pada data training. Nilai F-Score masing-masing fitur kemudian diurutkan secara descending. Hasil pengurutan tersebut digunakan untuk membuat kombinasi fitur. Kombinasi fitur tersebut digunakan sebagai input LS-SVM. Dari hasil uji coba penelitian ini didapatkan, bahwa menggunakan kombinasi seleksi fitur sangat berpengaruh terhadap tingkat akurasi. Akurasi terbaik didapat dengan menggunakan LS-SVM RBF dan SVM RBF baik dengan kombinasi seleksi fitur, maupun tanpa kombinasi seleksi fitur dengan nilai akurasi yaitu 97,5%. Selain itu juga seleksi fitur mampu mengurangi waktu komputasi.Kata Kunci: F-Score, GLCM, kanker payudara, LS-SVM.ABSTRACTBreast cancer is the most common disease suffered by women in many countries. Breast cancer screening can be done using a mammogram image. Computer-aided detection system (CAD). CAD analysis that has been developed is GLCM efficient feature extraction, reduction / feature selection and SVM. In SVM (Support Vector Machine) and LS-SVM (Support Vector Machine Square least) there are three problems that arise, namely; how to choose the kernel function, how many input fea-tures are optimal, and how to determine the best kernel parameters. The number of fea-tures and value required kernel parameters affect each other, so that the selection of the features needed to build a system of classification. In this study aims to classify image of masses on digital mammography based on two classes benign cancer and malignant cancer. Feature extraction using gray level co-occurrence matrix (GLCM). The results of the feature extraction process then selected using the method F-Score. F-Score is obtained by calculating the value of the discriminant feature extraction results data between two classes of data in the data training. Value F-Score of each feature and then sorted in descending order. The sequenc-ing results are used to make the combination of fea-tures. The combination of these features are used as input LS-SVM. From the experiments that use a combination of feature selection affects the accuracy ting-kat. Best accuracy obtained using LS-SVM and SVM RBF RBF with combi-nation or without the combination of feature selection with accuracy value is 97.5%. It also features a selection able to curate the computa-tion time.Keywords: Breast Cancer, F-Score, GLCM, LS-SVM.
EKSTRAKSI FITUR BERDASARKAN DESKRIPTOR BENTUK DAN TITIK SALIEN UNTUK KLASIFIKASI CITRA IKAN TUNA Pawening, Ratri Enggar; Arifin, Agus Zainal; Yuniarti, Anny
Jurnal Buana Informatika Vol 7, No 3 (2016): Jurnal Buana Informatika Volume 7 Nomor 3 Juli 2016
Publisher : Universitas Atma Jaya Yogyakarta

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (283.26 KB) | DOI: 10.24002/jbi.v7i3.660

Abstract

Abstract. The manual classification of fish causes problems on accuracy and execution time. In the image of tuna, beside the shape feature, local features is also necessary to differentiate the types of fish especially which have a similar shape. The purpose of this study is to develop a new feature extraction system which integrates point of saline and the shape of descriptor to classify the image of tuna. The input image is then transformed into HSV format. Hue channel is selected for the segmentation process. Shape descriptors are extracted by using Fourier Descriptor (FD) and the saline points are extracted using Speeded Up Robust Features (SURF). The results of local features are performed by Bag of Feature (BOF). Feature integration combines shape descriptor and saline features with appropriate weight. Experimental results show that by integrating features, the classification problems of fish with similar shape can be resolved with an accuracy of classification acquired by 83.33%.Keywords: feature extraction, fourier descriptor, surf, classification, tuna fish imageAbstrak. Klasifikasi secara manual yang dilakukan berdasarkan bentuk, tekstur, dan bagian tubuh ikan dapat menimbulkan permasalahan pada akurasi dan waktu klasifikasi. Pada citra ikan tuna, selain diperlukan fitur bentuk juga diperlukan fitur lokal untuk membedakan jenis ikan terutama yang memiliki bentuk secara visual mirip. Tujuan penelitian ini adalah mengembangkan sistem ekstraksi fitur baru yang mengintegrasikan deskriptor bentuk dan titik salien untuk klasifikasi citra ikan tuna. Segmentasi diawali dengan mengambil kanal Hue pada citra HSV. Deskriptor bentuk diekstrak menggunakan Fourier Descriptor dan titik salien diekstrak menggunakan Speeded Up Robust Features. Untuk menyamakan dimensi dilakukan pemrosesan menggunakan Bag of Feature. Kedua jenis fitur yang sudah diperoleh dilakukan integrasi dengan mempertimbangkan bobot masing-masing fitur. Uji coba dilakukan pada dataset tiga jenis ikan tuna dengan 10-fold cross validation. Hasil uji coba menunjukkan dengan mengintegrasikan deskriptor bentuk dan titik salien permasalahan klasifikasi ikan tuna dengan bentuk yang mirip dapat diselesaikan dengan akurasi klasifikasi sebesar 83,33%.Kata Kunci: ekstraksi fitur, deskriptor fourier, surf, klasifikasi, citra ikan tuna
KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK Riduwan, Muhammad; Fatichah, Chastine; Yuniarti, Anny
JUTI: Jurnal Ilmiah Teknologi Informasi Vol. 17, No. 2, Juli 2019
Publisher : Department of Informatics, Institut Teknologi Sepuluh Nopember

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.12962/j24068535.v17i2.a892

Abstract

Jumlah penelitian di dunia mengalami perkembangan yang pesat, setiap tahun berbagai peneliti dari penjuru dunia menghasilkan karya ilmiah seperti makalah, jurnal, buku dsb. Metode klasterisasi dapat digunakan untuk mengelompokkan dokumen karya ilmiah ke dalam suatu kelompok tertentu berdasarkan relevansi antar topik. Klasterisasi pada dokumen memiliki karakteristik yang berbeda karena tingkat kemiripan antar dokumen dipengaruhi oleh kata-kata pembentuknya. Beberapa metode klasterisasi kurang memperhatikan nilai semantik dari kata. Sehingga klaster yang terbentuk kurang merepresentasikan isi topik dokumen. Klasterisasi dokumen teks masih memiliki kemungkinan adanya outlier karena pemilihan fitur teks yang tidak optimal. Oleh karena itu dibutuhkan pemrosesan data yang tepat serta metode yang mengoptimalkan hasil klaster. Penelitian ini mengusulkan metode klasterisasi dokumen menggunakan Weighted K-Means yang dipadukan dengan Maximum Common Subgraph. Weighted k-means digunakan untuk klasterisasi awal dokumen berdasarkan kata-kata yang diekstraksi. Pembentukan Weighted K-Means berdasarkan perhitungan Word2Vec dan TextRank dari kata-kata dalam dokumen. Maximum common subgraph merupakan tahap pembentukan graf yang digunakan dalam penggabungan klaster untuk menghasilkan klaster baru yang lebih optimal. pembentukan graf dilakukan dengan perhitungan nilai Word2vec dan Co-occurrence dari klaster. Representasi topik dokumen tiap klaster dapat dihasilkan dari pemodelan topik Latent Dirichlet Allocation (LDA). Pengujian dilakukan dengan menggunakan dataset artikel ilmiah dari Scopus. Hasil dari analisis Koherensi topik menunjukkan nilai koherensi usulan metode adalah 0.532 pada dataset 1 yang bersifat homogen dan 0.472 pada dataset 2 yang bersifat heterogen.
METODE MAXIMALLY STABLE EXTREMAL REGIONS DAN HARRIS CORNER UNTUK MENDETEKSI LOKASI PLAT NOMOR KENDARAAN BERMOTOR Maulana, Hendra; Herumurti, Darlis; Yuniarti, Anny
SCAN - Jurnal Teknologi Informasi dan Komunikasi Vol 13, No 1 (2018)
Publisher : Universitas Pembangunan Nasional "Veteran" Jawa Timur

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.33005/scan.v13i1.1056

Abstract

Abstrak. Beberapa penelitian metode pengenalan plat telah menunjukkan kinerja menjanjikan, namun beberapa metode mungkin gagal dalam situasi yang lebih kompleks karena kompleksitas seperti variasi posisi dan orientasi plat, berbagai latar belakang, dan benda-benda non-plat. Untuk efisiensi pencocokan visual yang lebih tinggi, beberapa detektor keypoint cepat dan deskripsi yang sesuai telah dilakukan penelitian, seperti seperti fitur FAST, SURF, BRISK, Harris Corner. Dan ada juga fitur Maximally Stable Extremal Regions (MSER) yang metode pencarian keypoint berdasarkan extremal regionnya. Metode MSER telah diidentifikasi sebagai salah satu detektor wilayah terbaik karena ketahanannya terhadap perubahan sudut pandang, skala, dan pencahayaan, serta sensitif terhadap citra yang kabur. Deteksi lokasi plat nomor kendaraan dengan metode deteksi sudut Harris Corner mampu mendeteksi secara baik pada file gambar dengan kondisi pencahayaan yang beragam, hal ini dikarenakan oleh latar belakang yang relatif terfokus pada sudut. Namun untuk beberapa gambar plat nomor yang memantulkan sinar matahari masih sulit dideteksi. Oleh sebab itu penelitian ini akan menggabungkan metode Maximally Stable Extremal Regions (MSER) dan metode Harris Corner pada tahap ekstraksi fitur untuk deteksi lokasi plat nomor kendaraan. Penggunaan metode MSER diharapkan dapat memperbaiki kekurangan metode Harris Corner pada gambar plat nomor yang memantulkan sinar matahari dan dapat mengurangi area yang akan dicocokan dengan template berdasarkan deteksi corner point teks. Ekstraksi dilakukan terhadap 80 dataset mobil dengan plat nomor kendaraan standar Indonesia. Proses ekstraksi fitur metode MSER digunakan untuk mendeteksi kandidat area teks, selanjutnya dilakukan ekstraksi fitur Harris Corner untuk mendeteksi corner points teks dan akan dicocokan dengan template. Hasil pengujian menunjukkan nilai akurasi sebesar 98,85% dengan rata-rata waktu komputasi 32,96 detik. Sedangkan nilai presisi dan recall masing-masing sebesar 67,61 untuk presisi, dan 79,66 untuk recall.  Kata Kunci: Ekstraksi fitur, Extremal region, Corner detection, Harris Corner, MSERDOI : https://doi.org/10.33005/scan.v13i1.1056
PENGENALAN CITRA WAJAH DENGAN VARIASI ILUMINASI MENGGUNAKAN PRA-PEMROSESAN TAN AND TRIGGS DAN METODE KLASIFIKASI ROBUST REGRESSION Puspaningrum, Eva Yulia; Suciati, Nanik; Yuniarti, Anny
SCAN - Jurnal Teknologi Informasi dan Komunikasi Vol 10, No 3 (2015)
Publisher : Universitas Pembangunan Nasional "Veteran" Jawa Timur

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.33005/scan.v10i3.621

Abstract

Abstrak. Pengenalan citra wajah dengan variasi iluminasi dianggap sebagai salah satu masalah penting di bidang pengenalan wajah karena variasi yang disebabkan oleh pencahyaan lebih signifikan dari pada ciri fisik wajah individu sendiri. Salah satu pendekatan untuk memecahkan masalah ini  adalah dengan metode klasifikasi Robust Regression. Dalam penelitian ini metode Robust Regression dengan menggunakan teknik pra pemrosesan Tan and Triggs (TT)  dapat menghasilkan kinerja yang cukup handal. Pengujian dilakukan dengan menggunakan 2 basisdata standar yaitu CMU-PIE dan Yale Face B. Berdasarkan uji coba yang dilakukan, penggunaan pra pemrosesan TT pada robust regression menghasilkan tingakat akurasi yang lebih unggul daripada penggunaan pra pemrosesan Histogram Equalization (HE). Pada CMU PIE Face Database pencahayaan frontal dengan pra proses  HE akurasi sebesar 97,30% sedangkan dengan TT akurasi sebesar 97,82%. Pada kondisi pencahayaan ekstrim akurasi yang diperoleh HE sebesar 99,66% sedangkan TT sebesar 100%. Selain itu, dari hasil uji coba database lain yaitu dengan Yale Face Database B 50x50 akurasi menggunakan HE sebesar 84,7 % sedangkan dengan TT sebesar 93,95%.   Kata Kunci: Pengenalan Wajah, Normalisasi Iluminasi, Robust Regression, Tan and Triggs.
KLASIFIKASI MASSA PADA CITRA MAMMOGRAM MENGGUNAKAN KOMBINASI SELEKSI FITUR F-SCORE DAN LS-SVM Rosadi, Muhammad I.; Arifin, Agus Z.; Yuniarti, Anny
TEKNOLOGI: Jurnal Ilmiah Sistem Informasi Vol 6, No 1 (2016): January
Publisher : Universitas Pesantren Tinggi Darul 'Ulum (Unipdu) Jombang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26594/teknologi.v6i1.558

Abstract

ABSTRAKKanker payudara adalah penyakit yang paling umum diderita oleh perempuan pada banyak negara. Pemeriksaan kanker payudara dapat dilakukan menggunakan citra Mammogram dengan teknologi sistem Computer-Aided Detection (CAD). Analisis CAD yang telah dikembangkan adalah ekstraksi fitur GLCM, reduksi/seleksi fitur, dan SVM. Pada SVM (Support Vector Machine) maupun LS-SVM (Least Square Support Vector Machine) terdapat tiga masalah yang muncul, yaitu: Bagaimana memilih fungsi kernel, berapa jumlah fitur input yang dioptimalkan, dan bagaimana menentukan parameter kernel terbaik. Jumlah fitur dan nilai parameter kernel yang diperlukan saling mempengaruhi, sehingga seleksi fitur diperlukan dalam membangun sistem klasifikasi. Pada penelitian ini bertujuan untuk mengklasifikasi massa pada citra Mammogram berdasarkan dua kelas yaitu kelas kanker jinak dan kelas kanker ganas. Ekstraksi fitur menggunakan Gray Level Co-occurrence Matrix (GLCM). Hasil proses ekstraksi fitur tersebut kemudian diseleksi mengunakan metode F-Score. F-Score diperoleh dengan menghitung nilai diskriminan data hasil ekstraksi fitur di antara data dua kelas pada data training. Nilai F-Score masing-masing fitur kemudian diurutkan secara descending. Hasil pengurutan tersebut digunakan untuk membuat kombinasi fitur. Kombinasi fitur tersebut digunakan sebagai input LS-SVM. Dari hasil uji coba penelitian ini didapatkan, bahwa menggunakan kombinasi seleksi fitur sangat berpengaruh terhadap tingkat akurasi. Akurasi terbaik didapat dengan menggunakan LS-SVM RBF dan SVM RBF baik dengan kombinasi seleksi fitur, maupun tanpa kombinasi seleksi fitur dengan nilai akurasi yaitu 97,5%. Selain itu juga seleksi fitur mampu mengurangi waktu komputasi.Kata Kunci: F-Score, GLCM, kanker payudara, LS-SVM.ABSTRACTBreast cancer is the most common disease suffered by women in many countries. Breast cancer screening can be done using a mammogram image. Computer-aided detection system (CAD). CAD analysis that has been developed is GLCM efficient feature extraction, reduction / feature selection and SVM. In SVM (Support Vector Machine) and LS-SVM (Support Vector Machine Square least) there are three problems that arise, namely; how to choose the kernel function, how many input fea-tures are optimal, and how to determine the best kernel parameters. The number of fea-tures and value required kernel parameters affect each other, so that the selection of the features needed to build a system of classification. In this study aims to classify image of masses on digital mammography based on two classes benign cancer and malignant cancer. Feature extraction using gray level co-occurrence matrix (GLCM). The results of the feature extraction process then selected using the method F-Score. F-Score is obtained by calculating the value of the discriminant feature extraction results data between two classes of data in the data training. Value F-Score of each feature and then sorted in descending order. The sequenc-ing results are used to make the combination of fea-tures. The combination of these features are used as input LS-SVM. From the experiments that use a combination of feature selection affects the accuracy ting-kat. Best accuracy obtained using LS-SVM and SVM RBF RBF with combi-nation or without the combination of feature selection with accuracy value is 97.5%. It also features a selection able to curate the computa-tion time.Keywords: Breast Cancer, F-Score, GLCM, LS-SVM.
Arabic Book Retrieval using Class and Book Index Based Term Weighting M. Ali Fauzi; Agus Zainal Arifin; Anny Yuniarti
International Journal of Electrical and Computer Engineering (IJECE) Vol 7, No 6: December 2017
Publisher : Institute of Advanced Engineering and Science

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (421.466 KB) | DOI: 10.11591/ijece.v7i6.pp3705-3710

Abstract

One of the most common issue in information retrieval is documents ranking. Documents ranking system collects search terms from the user and orderly retrieves documents based on the relevance. Vector space models based on TF.IDF term weighting is the most common method for this topic. In this study, we are concerned with the study of automatic retrieval of Islamic Fiqh (Law) book collection. This collection contains many books, each of which has tens to hundreds of pages. Each page of the book is treated as a document that will be ranked based on the user query. We developed class-based indexing method called inverse class frequency (ICF) and book-based indexing method inverse book frequency (IBF) for this Arabic information retrieval. Those method then been incorporated with the previous method so that it becomes TF.IDF.ICF.IBF. The term weighting method also used for feature selection due to high dimensionality of the feature space. This novel method was tested using a dataset from 13 Arabic Fiqh e-books. The experimental results showed that the proposed method have the highest precision, recall, and F-Measure than the other three methods at variations of feature selection. The best performance of this method was obtained when using best 1000 features by precision value of 76%, recall value of 74%, and F-Measure value of 75%.