{"title":"Deteksi Ujaran Kebencian dengan Metode Klasifikasi Naïve Bayes dan Metode N-Gram pada Dataset Multi-Label Twitter Berbahasa Indonesia","authors":"Rija Muhamad Yazid, Fajri Rakhmat Umbara, Puspita Nurul Sabrina","doi":"10.36423/index.v4i2.894","DOIUrl":null,"url":null,"abstract":"Ujaran kebencian adalah ungkapan atau bahasa yang digunakan untuk mengekspresikan kebencian terhadap seseorang atau sekelompok orang. Ujaran kebencian juga memiliki tingkatan ancaman, semakin tinggi tingkat ancaman ujaran kebencian maka akan semakin luas dan cepat penyebarannya sehingga dapat menimbulkan konflik antar individu sampai konflik antar kelompok. Untuk dapat mendeteksi dan mengklasifikasikan ujaran kebencian sekaligus tingkat ancamannya dalam penelitian ini digunakan dataset multi-label dari penelitian sebelumnya dengan menggunakan label yang masuk kedalam topik ujaran kebencian dan tingkat ancaman dengan total sebanyak 4 label. Dalam menyelesaikan permasalahan multi-label tersebut digunakan metode Naïve Bayes sebagai metode klasifikasi dan metode Label Power-set sebagai metode transformasi data, dalam penelitian ini juga digunakan pembobotan TF-IDF sekaligus melakukan beberapa skenario penelitian berdasarkan metode ekstraksi fitur n-gram. Hasil terbaik yang didapatkan berdasarkan hasil evaluasi F-score adalah sebesar 64,957% ketika menggunakan kombinasi metode ekstraksi fitur word unigram, word bigram dan character quadgram. Dari penelitian ini juga didapatkan bahwa semakin banyak fitur yang digunakan maka semakin baik nilai hasil evaluasinya terhadap jenis dataset yang digunakan.","PeriodicalId":355867,"journal":{"name":"Informatics and Digital Expert (INDEX)","volume":"97 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-01-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Informatics and Digital Expert (INDEX)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36423/index.v4i2.894","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Ujaran kebencian adalah ungkapan atau bahasa yang digunakan untuk mengekspresikan kebencian terhadap seseorang atau sekelompok orang. Ujaran kebencian juga memiliki tingkatan ancaman, semakin tinggi tingkat ancaman ujaran kebencian maka akan semakin luas dan cepat penyebarannya sehingga dapat menimbulkan konflik antar individu sampai konflik antar kelompok. Untuk dapat mendeteksi dan mengklasifikasikan ujaran kebencian sekaligus tingkat ancamannya dalam penelitian ini digunakan dataset multi-label dari penelitian sebelumnya dengan menggunakan label yang masuk kedalam topik ujaran kebencian dan tingkat ancaman dengan total sebanyak 4 label. Dalam menyelesaikan permasalahan multi-label tersebut digunakan metode Naïve Bayes sebagai metode klasifikasi dan metode Label Power-set sebagai metode transformasi data, dalam penelitian ini juga digunakan pembobotan TF-IDF sekaligus melakukan beberapa skenario penelitian berdasarkan metode ekstraksi fitur n-gram. Hasil terbaik yang didapatkan berdasarkan hasil evaluasi F-score adalah sebesar 64,957% ketika menggunakan kombinasi metode ekstraksi fitur word unigram, word bigram dan character quadgram. Dari penelitian ini juga didapatkan bahwa semakin banyak fitur yang digunakan maka semakin baik nilai hasil evaluasinya terhadap jenis dataset yang digunakan.