Klasifikasi Berita Indonesia Menggunakan Naïve Bayes dengan Porter Stemmer

Gamaria Mandar, Abdul Haris Muhamamd, Sakinah Sudin
{"title":"Klasifikasi Berita Indonesia Menggunakan Naïve Bayes dengan Porter Stemmer","authors":"Gamaria Mandar, Abdul Haris Muhamamd, Sakinah Sudin","doi":"10.52046/j-tifa.v3i2.1121","DOIUrl":null,"url":null,"abstract":"Pertumbuhan media online yang semakin banyak membuktikankan bahwa pembaca berita lebih tertarik untuk membaca secara online, dikarenakan berita dapat diupdate setiap saat dan kapanpun serta mudah diakses dengan adanya internet. Tercatat ditahun 2019 terdapat 2.700 portal berita yang terverifikasi oleh dewan pers dari total 47.000. hal ini menandahkan bahwa jumlah data berita yang dikelolah setiap hari oleh masing-masing portal cukup sangat banyak. Teknologi website rata-rata digunakan oleh media kabar sudah cukup baik dalam mengelolah informasi berita yang akan ditampilkan, namun banyaknya data berita yang dikelompokan pada jenis-jenis berita saat ini masih dikelompokan secara manual oleh manusia. Oleh karena itu dengan adanya teknik data mining, dapat dimanfatkan dalam pengklasifikasian kategori/jenis/rubik berita yang dilakukan secara otomatis. Salah satunya dengan menggunakan metode Naive Bayes Classifier(NBC) namun sebelum diklasifikasi, data berita berupa teks terlebih dulu dilakukan teknik preprosessing untuk menemukan indeks kata dalam berita yang berbobot, diantara teknik case folding, tokenisasi, stopword dan stemming, algoritma stemming yang digunakan yaitu porter stemmer. Dari hasil uji terhadap 15 data berita yang diklasifikasikan oleh NBC pada tiga ketegori berita sport, otomotif dan finance memperoleh hasil lebih banyak relevan dengan data pakar. Sehingga disimpulkan bahwa penelitian ini mampu mengklasifikasi berita sesuai dengan kategori/rubik masing-masing dengan keakuratan sebesar 79%.","PeriodicalId":215465,"journal":{"name":"Jurnal Teknik Informatika (J-Tifa)","volume":"48 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2020-09-03","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknik Informatika (J-Tifa)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.52046/j-tifa.v3i2.1121","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 2

Abstract

Pertumbuhan media online yang semakin banyak membuktikankan bahwa pembaca berita lebih tertarik untuk membaca secara online, dikarenakan berita dapat diupdate setiap saat dan kapanpun serta mudah diakses dengan adanya internet. Tercatat ditahun 2019 terdapat 2.700 portal berita yang terverifikasi oleh dewan pers dari total 47.000. hal ini menandahkan bahwa jumlah data berita yang dikelolah setiap hari oleh masing-masing portal cukup sangat banyak. Teknologi website rata-rata digunakan oleh media kabar sudah cukup baik dalam mengelolah informasi berita yang akan ditampilkan, namun banyaknya data berita yang dikelompokan pada jenis-jenis berita saat ini masih dikelompokan secara manual oleh manusia. Oleh karena itu dengan adanya teknik data mining, dapat dimanfatkan dalam pengklasifikasian kategori/jenis/rubik berita yang dilakukan secara otomatis. Salah satunya dengan menggunakan metode Naive Bayes Classifier(NBC) namun sebelum diklasifikasi, data berita berupa teks terlebih dulu dilakukan teknik preprosessing untuk menemukan indeks kata dalam berita yang berbobot, diantara teknik case folding, tokenisasi, stopword dan stemming, algoritma stemming yang digunakan yaitu porter stemmer. Dari hasil uji terhadap 15 data berita yang diklasifikasikan oleh NBC pada tiga ketegori berita sport, otomotif dan finance memperoleh hasil lebih banyak relevan dengan data pakar. Sehingga disimpulkan bahwa penelitian ini mampu mengklasifikasi berita sesuai dengan kategori/rubik masing-masing dengan keakuratan sebesar 79%.
印尼新闻分类使用波特·斯坦默的天真报
越来越多的在线媒体已经认识到,新闻读者对在线阅读更感兴趣,因为新闻可以随时更新,也可以在互联网上方便获取。据记载,在2019年,共有2700个新闻门户被新闻委员会核实,共有47000个。值得注意的是,每天通过每个门户进行的新闻数据数量是相当可观的。新闻媒体平均使用的网站技术已经足够好地管理将要展示的新闻信息,但是今天不同类型新闻的新闻数据仍然由人类手工合成。因此,通过数据挖掘技术,可以应用于自动编辑的新闻类别/类型/魔方。其中一种方法是用Naive Bayes Classifier(NBC)来分类,但在被分类之前,新闻数据是一种预处理技术,用于在案件文件夹、脱模、秒表和印章技术、波特·斯坦默(porter stemmer)等重新闻中找到单词索引。美国广播公司在三种体育新闻上对15条新闻机密数据进行的测试显示,汽车和财务结果与专家的数据更相关。得出的结论是,这项研究能够准确地将新闻分类为每一个魔方,准确地分类为79%。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信