Prosiding Seminar Nasional Sains Dan Teknologi Fakultas Teknik
Vol 1, No 1 (2015): PROSIDING SEMINAR NASIONAL SAINS DAN TEKNOLOGI 6 2015

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM

Kemal Ade Sekarwati (Jurusan Sistem Informasi, Fakultas Ilmu Komputer dan Teknologi Informasi, Universitas Gunadarma Jl. Margonda Raya 100, Pondok Cina, Depok 16424.)
Lintang Yuniar Banowosari (Jurusan Manajemen Informatika, Direktorat Diploma Tiga Teknologi Informasi, Universitas Gunadarma Jl. Margonda Raya 100, Pondok Cina, Depok 16424.)
I Made Wiryana (Jurusan Manajemen Informatika, Direktorat Diploma Tiga Teknologi Informasi, Universitas Gunadarma Jl. Margonda Raya 100, Pondok Cina, Depok 16424.)
Djati Kerami (Jurusan Sistem Informasi, Fakultas Ilmu Komputer dan Teknologi Informasi, Universitas Gunadarma Jl. Margonda Raya 100, Pondok Cina, Depok 16424.)



Article Info

Publish Date
07 Jul 2015

Abstract

Gensim merupakan open-source model ruang vektor dan toolkit topic modeling, yang diimplementasikan dalam bahasa pemrograman Python. Untuk kinerja Gensim, digunakan NumPy, SciPy dan Cython (opsional). Gensim secara khusus ditujukan untuk menangani koleksi teks besar dengan menggunakan algoritma secara online. Gensim mengimplementasikan tf-idf, latent semantic analysis (LSA), Latent Dirichlet Analysis (LDA), dan lain-lain. Pada penelitian ini digunakan metode LSA yang terdapat pada Gensim dan beberapa rumus perhitungan kemiripan untuk mengukur kemiripan dokumen. Pengukuran kemiripan dokumen menggunakan rumus Cosine, Dice, dan Jaccard. Hasil perhitungan kemiripan berupa prosentase kemiripan. Dokumen yang digunakan adalah dokumen abstrak penulisan ilmiah berbahasa Indonesia. Pengujian dilakukan terhadap 30 pasang dokumen yang sama, 30 dokumen yang berbeda, 5 dokumen similar, dan 5 dokumen transposisi dua dan tiga kalimat. Hasil pengujian menunjukkan bahwa untuk dokumen yang sama terdapat kemiripan 100%, untuk dokumen yang berbeda dihasilkan prosentase kemiripan yang berbeda-beda, untuk pengujian dokumen similar menghasilkan kemiripan yang mendekati 100%, sedangkan untuk dokumen transposisi menunjukkan prosentase meningkat untuk transposisi dari dua kalimat ke tiga kalimat. Kata kunci: gensim, lsa, pengukuran kemiripan

Copyrights © 2015