Jurnal Nasional Komputasi dan Teknologi Informasi
Vol 5, No 4 (2022): Agustus 2022

Algoritme Logistic Regression untuk Mendeteksi Ujaran Kebencian dan Bahasa Kasar Multilabel pada Twitter Berbahasa Indonesia

Ayu Fransiska (Universitas Islam Negeri Sultan Syarif Kasim Riau)
Surya Agustian (Universitas Islam Negeri Sultan Syarif Kasim Riau)
Fitri Insani (Universitas Islam Negeri Sultan Syarif Kasim Riau)
Muhammad Fikry (Universitas Islam Negeri Sultan Syarif Kasim Riau)
Pizaini Pizaini (Universitas Islam Negeri Sultan Syarif Kasim Riau)



Article Info

Publish Date
28 Aug 2022

Abstract

Abstrak - Ujaran kebencian semakin meningkat bersamaan dengan banyaknya pengguna media sosial. Twitter merupakan salah satu media sosial yang membantu penyeberan ujaran ujaran melalui fitur twit-nya yang dilakukan berulang-ulang. Penelitian ini dilakukan untuk mengklasifikasi apakah sebuah twit mengandung ujaran kebencian atau bahasa kasar, dan jika terdeteksi mengandung ujaran kebencian maka akan diukur tingkatannya. Dataset yang digunakan diambil dari twitter sebanyak 13.126 twit asli. Klasifikasi menggunakan Algoritma logistic Regression dan fitur teks word embedding. Dilakukan beberapa kali percobaan untuk mendapatkan model terbaik agar pengujian didapatkan secara optimal. Rata-rata akurasi yang dari ketiga kelas sebesar 75,59%, untuk kelas hate speech 75,86%,kelas abusive 80,05%, kelas level 70,86% dengan komposisi 90:10.Kata kunci: Klasifikasi, Logistic Regression, Ujaran Kebencian, Twitter. Abstract - Hate speech is increasing along with the number of social media users. Twitter is one of the social media that helps spread utterances through its repeated tweet features. This study was conducted to classify whether a tweet contains hate speech or abusive language, and if it is detected to contain hate speech, the level will be measured. The dataset used was taken from twitter as many as 13,126 original tweets. Classification using Logistic Regression Algorithm and word embedding text feature. Several experiments were carried out to get the best model so that the test was obtained optimally. The average accuracy of the three classes is 75.59%, for the hate speech class is 75.86%, the abusive class is 80.05%, the level class is 70.86% with a composition of 90:10.Keyword : Classification, Logistic Regression, Hate Speech, Twitter.

Copyrights © 2022






Journal Info

Abbrev

jnkti

Publisher

Subject

Computer Science & IT Control & Systems Engineering Decision Sciences, Operations Research & Management Electrical & Electronics Engineering Engineering

Description

Jurnal Nasional Komputasi dan Teknologi Informasi adalah jurnal nasional yang diterbitkan oleh Program Studi Teknik Informatika Universitas Serambi Mekkah tahun 2018. Jurnal ini terbit sebanyak enam edisi dalam satu tahun yaitu setiap bulan Februari, April, Juni, Agustus, Oktober dan Desember baik ...