Deteksi Ujaran Kebencian dengan Metode Klasifikasi Naïve Bayes dan Metode N-Gram pada Dataset Multi-Label Twitter Berbahasa Indonesia

Informatics and Digital Expert (INDEX) Pub Date : 2023-01-17 DOI:10.36423/index.v4i2.894

Rija Muhamad Yazid, Fajri Rakhmat Umbara, Puspita Nurul Sabrina

{"title":"Deteksi Ujaran Kebencian dengan Metode Klasifikasi Naïve Bayes dan Metode N-Gram pada Dataset Multi-Label Twitter Berbahasa Indonesia","authors":"Rija Muhamad Yazid, Fajri Rakhmat Umbara, Puspita Nurul Sabrina","doi":"10.36423/index.v4i2.894","DOIUrl":null,"url":null,"abstract":"Ujaran kebencian adalah ungkapan atau bahasa yang digunakan untuk mengekspresikan kebencian terhadap seseorang atau sekelompok orang. Ujaran kebencian juga memiliki tingkatan ancaman, semakin tinggi tingkat ancaman ujaran kebencian maka akan semakin luas dan cepat penyebarannya sehingga dapat menimbulkan konflik antar individu sampai konflik antar kelompok. Untuk dapat mendeteksi dan mengklasifikasikan ujaran kebencian sekaligus tingkat ancamannya dalam penelitian ini digunakan dataset multi-label dari penelitian sebelumnya dengan menggunakan label yang masuk kedalam topik ujaran kebencian dan tingkat ancaman dengan total sebanyak 4 label. Dalam menyelesaikan permasalahan multi-label tersebut digunakan metode Naïve Bayes sebagai metode klasifikasi dan metode Label Power-set sebagai metode transformasi data, dalam penelitian ini juga digunakan pembobotan TF-IDF sekaligus melakukan beberapa skenario penelitian berdasarkan metode ekstraksi fitur n-gram. Hasil terbaik yang didapatkan berdasarkan hasil evaluasi F-score adalah sebesar 64,957% ketika menggunakan kombinasi metode ekstraksi fitur word unigram, word bigram dan character quadgram. Dari penelitian ini juga didapatkan bahwa semakin banyak fitur yang digunakan maka semakin baik nilai hasil evaluasinya terhadap jenis dataset yang digunakan.","PeriodicalId":355867,"journal":{"name":"Informatics and Digital Expert (INDEX)","volume":"97 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-01-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Informatics and Digital Expert (INDEX)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36423/index.v4i2.894","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Ujaran kebencian adalah ungkapan atau bahasa yang digunakan untuk mengekspresikan kebencian terhadap seseorang atau sekelompok orang. Ujaran kebencian juga memiliki tingkatan ancaman, semakin tinggi tingkat ancaman ujaran kebencian maka akan semakin luas dan cepat penyebarannya sehingga dapat menimbulkan konflik antar individu sampai konflik antar kelompok. Untuk dapat mendeteksi dan mengklasifikasikan ujaran kebencian sekaligus tingkat ancamannya dalam penelitian ini digunakan dataset multi-label dari penelitian sebelumnya dengan menggunakan label yang masuk kedalam topik ujaran kebencian dan tingkat ancaman dengan total sebanyak 4 label. Dalam menyelesaikan permasalahan multi-label tersebut digunakan metode Naïve Bayes sebagai metode klasifikasi dan metode Label Power-set sebagai metode transformasi data, dalam penelitian ini juga digunakan pembobotan TF-IDF sekaligus melakukan beberapa skenario penelitian berdasarkan metode ekstraksi fitur n-gram. Hasil terbaik yang didapatkan berdasarkan hasil evaluasi F-score adalah sebesar 64,957% ketika menggunakan kombinasi metode ekstraksi fitur word unigram, word bigram dan character quadgram. Dari penelitian ini juga didapatkan bahwa semakin banyak fitur yang digunakan maka semakin baik nilai hasil evaluasinya terhadap jenis dataset yang digunakan.

查看原文本刊更多论文

用英语Twitter上的Naive Bayes和N-Gram分类方法检测仇恨言论

仇恨言论是用来表达对某人或一群人的仇恨的表达或语言。仇恨言论也有一定程度的威胁，它们传播得越广，传播得越快，可能导致个人冲突到群体冲突。通过使用带有包含仇恨言论主题的标签以及共有4个标签的威胁水平的标签，从之前的研究中获得多标签分析和分类。在解决多标签问题时，“Naive Bayes”方法被用作分类方法，而“powerset标签法”则被用于数据转换，该研究还使用了远端侵入TF-IDF，并根据n克提取方法进行了多次研究。根据F-score的评估，最好的成绩是64.957%，使用组合的提取方法使用unigram、word bigram和character quadgram功能。从这项研究中还发现，使用的特性越多，对使用的数据集类型的评估结果的价值就越高。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Informatics and Digital Expert (INDEX)

自引率

0.00%

发文量