Analisis Name Matching Untuk Nama Arab Menggunakan Metode N-gram Dan Jaccard Similarity

Muhammad Rizki Chairulloh (Telkom University)
Moch. Arif Bijaksana (Telkom University)
Bambang Ari Wahyudi (Telkom University)

01 Dec 2018


Abstrak Dalam ilmu Rijalul Hadis dijelaskan tentang sejarah ringkas para rawi hadis dan riwayat hidupnya, baik dari generasi sahabat, tabi’in maupun tabi’it tabi’in. Dari pengertian tersebut, kedudukan ilmu ini sangat penting, sebab nilai suatu hadis sangat dipengaruhi oleh karakter dan perilaku serta biografi perawi itu sendiri. sebagai contoh nama Muhammad dengan Muhamad, itu adalah nama yang sama meskipun dengan ejaan yang berbeda. Sehingga perlu adanya penelitian untuk menentukan kecocokan nama meskipun dengan ejaan yang berbeda. Pencocokan nama pada penelitian ini menggunakan metode n-gram untuk memecah nama menjadi bagian substring kemudian dihitung nilai kecocokannya dengan metode jaccard similarity dengan nilai treshold yang diberikan sebesar >= 0.7 Selain itu, dilakukan perhitungan untuk menilai kinerja dari metode yang digunakan yaitu n-gram dan jaccard similarity dengan menghitung nilai precision, recall, f-measure dan akurasi. Penilaian kinerja ini didapatkan dengan membandingkan hasil yang diberikan oleh sistem dengan gold standart yang telah dibuat dan diverifikasi oleh ahlinya. Dari pengujian yang telah dilakukan rata-rata akurasi yang didapatkan sebesar 0.85714286. ini berarti menunjukan sistem yang dibuat sudah baik. Kata kunci : n-gram, jaccard similarity, precision, recall, f-measure Abstract In the science of Rijalul Hadith it is explained about the concise history of the hadith narrators and their biographies, both from the generation of friends, tabi’in and tabi’it tabi’in. From this understanding, the position of science is very important, because the value of a hadith is strongly influenced by the character and behavior and the biography of the narrator itself. as an example of Muhammad’s name with Muhammad, that is the same name even though with a different spelling. So there needs to be research to determine the name match even with different spellings. Name matching in this study uses the n-gram method to break the name into a substring, then the suitability value is calculated with the jaccard similarity method with the given threshold value of >= 0.7. In addition, a calculation is performed to assess the performance of the method used is n-gram and jaccard similarity by calculating the values of precision, recall, f-measure and accuracy. This performance assessment is obtained by comparing the results provided by the system with gold standards that have been created and verified by experts. From the tests that have been done, the average accuracy obtained is 0.85714286. this means showing the system is already good. Keywords: n-gram, jaccard similarity, precision, recall, f-measure

