JUSTIN (Jurnal Sistem dan Teknologi Informasi)
Vol 5, No 1 (2017)

Rancang Bangun Aplikasi Web Scraping untuk Korpus Paralel Indonesia - Inggris dengan Metode HTML DOM

Mitra, Vivensius (Unknown)
Sujaini, Herry (Unknown)
Negara, Arif Bijaksana Putra (Unknown)



Article Info

Publish Date
11 Jan 2017

Abstract

Korpus paralel merupakan dua dokumen text yangsaling berhubungan dimana dokumen text pertama berisikumpulan kalimat sumber dan dokumen kedua berisi kumpulankalimat terjemahan. Korpus paralel berfungsi sebagai sumberutama dalam mengembangkan mesin penerjemah statistik.Pengumpulan korpus paralel secara manual memerlukan waktuyang lama dan biaya yang tidak sedikit. Web scraping adalahsuatu teknik penggalian informasi dari situs web. Pembuatanaplikasi web scraping dapat dikombinasikan dengan berbagaimetode, dalam penelitian ini metode yang digunakan adalahHTML DOM. Sistem ini dibangun untuk mengumpulkan korpusparalel Bahasa Indonesia dan Inggris. Pengujian dari aplikasi iniadalah menggunakan metode blackbox, serta beberaparangkaian pengujian secara manual untuk mengetahui tingkatkeberhasilan aplikasi ini dalam mengumpulkan data korpusparalel dan kecepatan sistem dalam mengumpulkan korpusparalel. Hasil implementasi dan pengujian akhir dari aplikasiweb scraping dengan metode HTML DOM adalah proses yangberjalan dalam aplikasi web scraping dengan metode HTMLDOM adalah proses scraping, tokenisasi, cleaning, danlowercased, semua proses tersebut berjalan secara otomatissehingga sangat menghemat waktu dan biaya dan menghasilkankorpus paralel Bahasa Indonesia dan Inggris.

Copyrights © 2017






Journal Info

Abbrev

justin

Publisher

Subject

Computer Science & IT

Description

JUSTIN aims to publish research results and thoughts among academics, researchers, scientists, and practitioners in the field of informatics/computer science so that they are freely available to the public, and support the exchange of knowledge. The scope of JUSTIN is but is not limited to the ...