eProceedings of Engineering
Vol 5, No 3 (2018): Desember 2018

Analisis Word2vec untuk Perhitungan Kesamaan Semantik antar Kata

Nabila Nanda Widyastuti (Telkom University)
Arif Arif Bijaksana (Telkom University)
Indra Lukmana Sardi (Telkom University)



Article Info

Publish Date
01 Dec 2018

Abstract

Abstrak Implementasi perhitungan kesamaan semantik antar kata merupakan salah satu tugas yang dapat diselesaikan dalam bidang Natural Language Processing(NLP). Perhitungan kesamaan semantik antar kata dapat digunakan untuk membantu mesin dalam memahami bahasa manusia. Selain itu, perhitungan kesamaan semantik juga dapat digunakan sebagai dasar penelitian tahap selanjutnya pada bidang NLP. Penelitian ini dilatar belakangi oleh suatu masalah dimana pada saat ini pencarian sistem informasi banyak melibatkan teks atau dokumen, namun mesin belum dapat menyamakan persepsi manusia dengan baik sehingga mesin perlu dibantu untuk memahami teks atau dokumen tersebut. Sepasang kata dinyatakan mempunyai kesamaan semantik apabila memiliki kesamaan pada makna atau konsep. Pada penelitian ini, dilakukan implementasi perhitungan kesamaan semantik antar kata untuk bahasa Inggris. Korpus yang digunakan pada penelitian ini yaitu Brown Corpus, Berita Corpus, dan Harry Potter Corpus. Dokumen tersebut diubah kedalam bentuk vektor dengan Word2vec. Selanjutnya nilai kesamaan semantik yang dihasilkan dari vektor tersebut dibandingkan dengan dataset Gold Standard SimLex999 untuk mengukur nilai korelasinya. Hasil pengujian menunjukkan bahwa pengukuran Word2vec menghasilkan korelasi sebesar 0.192 dengan perhitungan korelasi Pearson. Kata kunci : Kesamaan Semantik, Natural Language Processing, Word2vec Abstract The implementation of calculation semantic similarity between word is one of task that can be done by Natural Language Processing. The calculation of semantic similarity between word can used to help the machine to understanding of human language(natural language). Beside that, calculation of semantic similarity can be used as a basic of the next step in NLP’s research. The main idea of this study is motivated by a problem where nowaday the seaarch of information sistem are involved by many text and document, so we need to help the machine to understand those texts or documents. A pair of word are similar if they have similarity to the level of meaning of concept. In this research, we are implement the calculation of semantic similarity between word in English. The corpus that used in this research are Brown Corpus, Berita Corpus, and Harry Potter Corpus. That documents are convert into vector space by using Word2vec. Next, the score of semantic similarity generated by vector are compared to SimLex999 Gold Standard dataset to measure their corelation. The result showed that Word2vec have corelation’s score of 0.192 in Pearson corelation. Keywords: Semantic Similarity, Natural Language Processing, Word2vec

Copyrights © 2018






Journal Info

Abbrev

engineering

Publisher

Subject

Computer Science & IT Control & Systems Engineering Electrical & Electronics Engineering Engineering Industrial & Manufacturing Engineering

Description

Merupakan media publikasi karya ilmiah lulusan Universitas Telkom yang berisi tentang kajian teknik. Karya Tulis ilmiah yang diunggah akan melalui prosedur pemeriksaan (reviewer) dan approval pembimbing ...