Satrio Hadi Wijoyo
Pendidikan Teknologi Informasi, Fakultas Ilmu Komputer, Universitas Brawijaya

Published : 2 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 2 Documents
Search

Optimasi Suffix Tree Clustering dengan Wordnet dan Named Entity Recognition untuk Pengelompokan Dokumen Satrio Hadi Wijoyo; Admaja Dwi Herlambang; Fahrur Rozi; Septiyan Andika Isanta
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 4, No 4: Desember 2017
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (644.179 KB) | DOI: 10.25126/jtiik.201744400

Abstract

AbstrakSemakin meningkatnya jumlah dokumen teks di dunia digital mempengaruhi banyaknya jumlah informasi  dan menyebabkan kesulitan dalam proses temu kembali informasi (information retreival). Clustering dokumen merupakan suatu bidang text mining yang penting dan dapat digunakan untuk mengefisienkan dalam pengelolaan teks serta peringkasan teks. Namun beberapa permasalahan muncul dalam clustering dokumen teks terutama dalam dokumen berita seperti ambiguitas dalam content, overlapping cluster, dan struktur unik yang terdapat dalam dokumen berita. Penelitian ini mengusulkan metode baru yaitu optimasi Suffix Tree Clustering (STC) dengan WordNet dan Named Entity Recognition (NER) untuk pengelompokan dokumen. Metode ini memiliki beberapa tahap, yaitu prepocessing dokumen dengan mengekstraksi named entity serta melakukan deteksi sinonim berdasarkan WordNet. Tahap kedua adalah pembobotan term dengan tfidf dan nerfidf. Tahap ketiga adalah melakukan clustering dokumen dengan menggunakan Suffix Tree Clustering. Berdasarkan pengujian didapatkan rata-rata nilai precision sebesar 79.83%, recall 77.25%, dan f-measure78.30 %.Kata kunci: Clustering dokumen, Named Entity Recognition, Suffix Tree Clustering, WordNetAbstractThe increasingnumber oftext documentsin the internet, influence on the number of information and lead to difficulties in the process of information retrieval. Documents clustering is main field of text mining and can be used to stream line the management of text and summarization of text. However, some problems a risein documents clustering, especially in news documents such as ambiguity in the content, overlapping clusters, and theuniquestructure ofthe news thatcontained inthe document. Inthisresearch, we proposea newmethodfor documents clustering, optimization Suffix Tree Clustering (STC) with WordNet and Named Entity Recognition (NER). In this method there are several step, step one is prepocessing documents with named entity extraction and synonym detection based on WordNet. Step two is term weighting with tfidf and nerfidf. For the last step is document clustering using Suffix Tree Clustering. Based on testingwe obtained 79.83% for precision, 77.25% for recall, and78.30% for F-measureKeywords: Documents Clustering, Named Entity Recognition, Suffix Tree Clustering, WordNet
Algoritma Naive Bayes untuk Klasifikasi Sumber Belajar Berbasis Teks pada Mata Pelajaran Produktif di SMK Rumpun Teknologi Informasi dan Komunikasi Admaja Dwi Herlambang; Satrio Hadi Wijoyo
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 6, No 4: Agustus 2019
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (2254.084 KB) | DOI: 10.25126/jtiik.2019641323

Abstract

Salah satu komponen esensial dalam kegiatan pembelajaran di Sekolah Menengah Kejuruan Rumpun Teknologi Informasi dan Komunikasi (SMK TIK) adalah ketersediaan sumber belajar mata pelajaran produktif. Media internet atau online adalah sumber belajar yang berbentuk media elektronik yang dapat dimanfaatkan oleh siswa dan guru melalui jaringan internet. Salah satu bentuk media online adalah halaman web berformat .html (Hypertext Markup Language) yang berupa dokumen teks sangatlah banyak. Sehingga sumber belajar tersebut perlu di kelompokkan berdasarkan kriteria atau ciri esensial setiap mata pelajaran produktif di SMK TIK. Proses pengelompokkan menggunakan algoritma Naive Bayes karena algoritma tersebut dapat digunakan untuk dokumen teks dan menggunakan teorema Bayes dengan menganggap semua atribut saling tidak berhubungan. Tujuan penelitian ini adalah untuk mendeskripsikan hasil klasifikasi dan evaluasi kualitas klasifikasi sumber belajar berbasis teks dengan menggunakan Algoritma Naïve Bayes. Tahapan penelitian yang dilakukan adalah pengoleksian data set, pemrosesan awal dengan text mining, pembobotan Tf-Idf, pengklasifikasian Naïve Bayes, dan evaluasi akurasi. Pengklasifikasian teks menghasilkan sembilan kelompok mata pelajaran produktif dan pengujian menghasilkan nilai akurasi tertinggi 81,48%, sedangkan nilai akurasi terendah sebesar 79,63%. AbstractThe availability of learning resources for productive subjects is one of the essential components in learning activities for Vocational High Schools, especially for Information and Communication Technology competence field. Internet or online media is a learning resource in the form of electronic media that can be used by students and teachers through the internet. One form of online media is a web page formatted in .html (Hypertext Markup Language) in the form of very many text documents. So that learning resources need to be grouped based on the essential criteria or characteristics of each productive subject in Vocational High Schools. The grouping process uses the Naive Bayes algorithm because the algorithm can be used to text documents and use the Bayes theorem by assuming all attributes are mutually unrelated. The purpose of the study was to describe the results of the classification and classification quality evaluation of text-based learning sources using the Naïve Bayes Algorithm. The stages of the research carried out are collecting data sets, pre-processing with text mining, Tf-Idf weighting, Naïve Bayes classifying, and accuracy evaluation. Text classification results shows that there are nine productive subject groups and based on uji results shows that the highest accuracy value was 81,48%, while the lowest accuracy value was 79,63%.