TF-IDF模型绩效比较与公众舆论对BLT食用油政策的分类

Dedy Sugiarto, Ema Utami, Ainul Yaqin
{"title":"TF-IDF模型绩效比较与公众舆论对BLT食用油政策的分类","authors":"Dedy Sugiarto, Ema Utami, Ainul Yaqin","doi":"10.25105/jti.v12i3.15669","DOIUrl":null,"url":null,"abstract":"Intisari— Penelitian ini bertujuan untuk membandingkan kinerja klasifikasi dari metode Naïve Bayes (NB) dan Regresi Logistik (LR) menggunakan dua model ekstraksi ciri, yaitu Count Bag of Word (BOW) dan Term Frequency-Inverse Document Frequency (TF-IDF). Kasus yang diangkat adalah opini publik dari data Twitter terkait kebijakan Bantuan Langsung Tunai (BLT) minyak goreng yang dikeluarkan oleh Pemerintah pada awal April 2022. Tahap penelitian diawali dengan proses crawling dengan bantuan Twitter API menggunakan kata kunci Minyak Goreng BLT dan dilanjutkan dengan tahap pra-pemrosesan data dan pelabelan secara manual. Data teks yang bersih dan memiliki label kemudian dibelah menjadi data latih (90%) dan data uji (10%) dan diubah menjadi data numerik dengan menggunakan model BOW dan TF-IDF untuk kemudian digunakan sebagai input pada algoritma klasifikasi. Proses crawling menghasilkan   5058 tweet dan menyusut menjadi 1335 tweet bersih setelah pra-pemrosesan data. Terdapat 25,62% tweet positif, 14,38 % tweet negatif, dan 60% tweet netral. Hasil perbandingan model ekstraksi ciri dan algoritma klasifikasi menunjukkan bahwa model dengan performansi tertinggi diperoleh melalui model regresi logistik dengan BOW (LR-BOW) yang menghasilkan F1-score sebesar 0,70 dan akurasi sebesar 0,72. Hasil prediksi sentiment dengan model terbaik dapat menjadi bahan pertimbangan bagi pemerintah khususnya Kementerian Sosial dan Kementerian Perdagangan untuk lebih memperkuat tema kebijakan BLT yang membangkitkan sentiment positif serta memperbaiki tema yang membangkitkan sentiment negative. \nAbstract—This study aims to compare the classification performance of the Naïve Bayes (NB) and Logistics Regression (LR) methods using two feature extraction models, namely Count Bag of Word. (BOW) and Term Frequency-Inverse Document Frequency (TF-IDF). The case raised is public opinion from Twitter data related to the Cooking Oil Direct Cash Assistance (BLT) policy issued by the Government in early April 2022. The research phase begins with a crawling process with the help of the Twitter API using the keyword BLT Cooking Oil and continues with the pre-processing stage of data and manual labeling.. The clean and labeled text data were then split into training data (90%) and test data (10%) and converted into numeric data using the BOW and TF-IDF models to be used as input to the classification algorithm. The crawling process resulted in 5058 tweets and shrunk to 1335 clean tweets after data pre-processing. There were 25.62% positive tweets, 14.38% negative tweets, and 60% neutral tweets. The results of the comparison of feature extraction models and classification algorithms show that the model with the highest performance is obtained through a logistic regression model with BOW (LR-BOW) which produces an F1-score of 0.70 and an accuracy of 0.72. The results of sentiment prediction with the best model can be taken into consideration for the government, especially the Ministry of Social Affairs and the Ministry of Trade to further strengthen the BLT policy theme that evokes positive sentiment and improves the theme that evokes negative sentiment.","PeriodicalId":32828,"journal":{"name":"Jurnal Teknik Industri","volume":"25 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-12-22","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Perbandingan Kinerja Model TF-IDF dan BOW untuk Klasifikasi Opini Publik Tentang Kebijakan BLT Minyak Goreng\",\"authors\":\"Dedy Sugiarto, Ema Utami, Ainul Yaqin\",\"doi\":\"10.25105/jti.v12i3.15669\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Intisari— Penelitian ini bertujuan untuk membandingkan kinerja klasifikasi dari metode Naïve Bayes (NB) dan Regresi Logistik (LR) menggunakan dua model ekstraksi ciri, yaitu Count Bag of Word (BOW) dan Term Frequency-Inverse Document Frequency (TF-IDF). Kasus yang diangkat adalah opini publik dari data Twitter terkait kebijakan Bantuan Langsung Tunai (BLT) minyak goreng yang dikeluarkan oleh Pemerintah pada awal April 2022. Tahap penelitian diawali dengan proses crawling dengan bantuan Twitter API menggunakan kata kunci Minyak Goreng BLT dan dilanjutkan dengan tahap pra-pemrosesan data dan pelabelan secara manual. Data teks yang bersih dan memiliki label kemudian dibelah menjadi data latih (90%) dan data uji (10%) dan diubah menjadi data numerik dengan menggunakan model BOW dan TF-IDF untuk kemudian digunakan sebagai input pada algoritma klasifikasi. Proses crawling menghasilkan   5058 tweet dan menyusut menjadi 1335 tweet bersih setelah pra-pemrosesan data. Terdapat 25,62% tweet positif, 14,38 % tweet negatif, dan 60% tweet netral. Hasil perbandingan model ekstraksi ciri dan algoritma klasifikasi menunjukkan bahwa model dengan performansi tertinggi diperoleh melalui model regresi logistik dengan BOW (LR-BOW) yang menghasilkan F1-score sebesar 0,70 dan akurasi sebesar 0,72. Hasil prediksi sentiment dengan model terbaik dapat menjadi bahan pertimbangan bagi pemerintah khususnya Kementerian Sosial dan Kementerian Perdagangan untuk lebih memperkuat tema kebijakan BLT yang membangkitkan sentiment positif serta memperbaiki tema yang membangkitkan sentiment negative. \\nAbstract—This study aims to compare the classification performance of the Naïve Bayes (NB) and Logistics Regression (LR) methods using two feature extraction models, namely Count Bag of Word. (BOW) and Term Frequency-Inverse Document Frequency (TF-IDF). The case raised is public opinion from Twitter data related to the Cooking Oil Direct Cash Assistance (BLT) policy issued by the Government in early April 2022. The research phase begins with a crawling process with the help of the Twitter API using the keyword BLT Cooking Oil and continues with the pre-processing stage of data and manual labeling.. The clean and labeled text data were then split into training data (90%) and test data (10%) and converted into numeric data using the BOW and TF-IDF models to be used as input to the classification algorithm. The crawling process resulted in 5058 tweets and shrunk to 1335 clean tweets after data pre-processing. There were 25.62% positive tweets, 14.38% negative tweets, and 60% neutral tweets. The results of the comparison of feature extraction models and classification algorithms show that the model with the highest performance is obtained through a logistic regression model with BOW (LR-BOW) which produces an F1-score of 0.70 and an accuracy of 0.72. The results of sentiment prediction with the best model can be taken into consideration for the government, especially the Ministry of Social Affairs and the Ministry of Trade to further strengthen the BLT policy theme that evokes positive sentiment and improves the theme that evokes negative sentiment.\",\"PeriodicalId\":32828,\"journal\":{\"name\":\"Jurnal Teknik Industri\",\"volume\":\"25 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-12-22\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal Teknik Industri\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.25105/jti.v12i3.15669\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknik Industri","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25105/jti.v12i3.15669","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

本质——本研究旨在比较Naive Bayes (NB)和物流回归(LR)方法的分类性能,使用两种特征提取模型,即Word (BOW)伯爵和TF-IDF文件归档(TF-IDF)。这起案件的公众意见来自Twitter数据中有关政府在2022年4月初发放的食用油政策(BLT)。研究阶段始于火特使用BLT (BLT)关键字跟踪过程,然后是数据处理和标签手动进行的前阶段。干净的文本数据与标签将其分解为培训数据(90%)和测试数据(10%),并通过使用弓和TF-IDF模型将其转换为数字数据,然后用于分类算法的输入。爬虫过程产生5058条推文,直到数据处理前1335条推文是干净的。我们有2562%的推文是正的,14.38 %的推文是负的,60%的推文是中性的。提取模型和分类算法比较结果表明,用弓(lr -弓)进行的物流回归模型获得了最高的绩效模型,其结果为0.70华氏度和0.72度。对情绪的最佳预测可以作为政府特别是社会和商业部会考虑的因素,以进一步加强影响积极情绪的BLT政策主题和改善负面情绪的主题。抽象研究——这些研究表明了天真的贝斯(NB)和回报性回归(LR)方法使用两种不同的特征模型,namely总结道。(弓)和Term共阵频率(TF-IDF)。案件在2013年4月22日由政府发布的cows石油直接现金援助数据与推特相关。这项研究的阶段始于Twitter上的爬虫处理程序,利用关键词BLT烹饪油,继续使用前期数据和手册的分析。干净的和附加的数据数据将分裂成数据培训(90%)和测试数据(10%),并转换成数据数据,使用弓和tf idf模型进行输入经典算法。在5058条推文和shrunk至1335的推文恢复进程。有25.62%的正tweets, 14.38%的负tweets, 60%的中性tweets。模型模型和经典算法的结果显示,最极端表现的模型通过桶的f1 - 70和0.72的计算模型实现了最重要的回归模型。考虑到最好的榜样所带来的情感预测性,特别是对政府的社会事务和商业事务的影响,尤其是那些积极影响影响负面情绪的警察。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Perbandingan Kinerja Model TF-IDF dan BOW untuk Klasifikasi Opini Publik Tentang Kebijakan BLT Minyak Goreng
Intisari— Penelitian ini bertujuan untuk membandingkan kinerja klasifikasi dari metode Naïve Bayes (NB) dan Regresi Logistik (LR) menggunakan dua model ekstraksi ciri, yaitu Count Bag of Word (BOW) dan Term Frequency-Inverse Document Frequency (TF-IDF). Kasus yang diangkat adalah opini publik dari data Twitter terkait kebijakan Bantuan Langsung Tunai (BLT) minyak goreng yang dikeluarkan oleh Pemerintah pada awal April 2022. Tahap penelitian diawali dengan proses crawling dengan bantuan Twitter API menggunakan kata kunci Minyak Goreng BLT dan dilanjutkan dengan tahap pra-pemrosesan data dan pelabelan secara manual. Data teks yang bersih dan memiliki label kemudian dibelah menjadi data latih (90%) dan data uji (10%) dan diubah menjadi data numerik dengan menggunakan model BOW dan TF-IDF untuk kemudian digunakan sebagai input pada algoritma klasifikasi. Proses crawling menghasilkan   5058 tweet dan menyusut menjadi 1335 tweet bersih setelah pra-pemrosesan data. Terdapat 25,62% tweet positif, 14,38 % tweet negatif, dan 60% tweet netral. Hasil perbandingan model ekstraksi ciri dan algoritma klasifikasi menunjukkan bahwa model dengan performansi tertinggi diperoleh melalui model regresi logistik dengan BOW (LR-BOW) yang menghasilkan F1-score sebesar 0,70 dan akurasi sebesar 0,72. Hasil prediksi sentiment dengan model terbaik dapat menjadi bahan pertimbangan bagi pemerintah khususnya Kementerian Sosial dan Kementerian Perdagangan untuk lebih memperkuat tema kebijakan BLT yang membangkitkan sentiment positif serta memperbaiki tema yang membangkitkan sentiment negative. Abstract—This study aims to compare the classification performance of the Naïve Bayes (NB) and Logistics Regression (LR) methods using two feature extraction models, namely Count Bag of Word. (BOW) and Term Frequency-Inverse Document Frequency (TF-IDF). The case raised is public opinion from Twitter data related to the Cooking Oil Direct Cash Assistance (BLT) policy issued by the Government in early April 2022. The research phase begins with a crawling process with the help of the Twitter API using the keyword BLT Cooking Oil and continues with the pre-processing stage of data and manual labeling.. The clean and labeled text data were then split into training data (90%) and test data (10%) and converted into numeric data using the BOW and TF-IDF models to be used as input to the classification algorithm. The crawling process resulted in 5058 tweets and shrunk to 1335 clean tweets after data pre-processing. There were 25.62% positive tweets, 14.38% negative tweets, and 60% neutral tweets. The results of the comparison of feature extraction models and classification algorithms show that the model with the highest performance is obtained through a logistic regression model with BOW (LR-BOW) which produces an F1-score of 0.70 and an accuracy of 0.72. The results of sentiment prediction with the best model can be taken into consideration for the government, especially the Ministry of Social Affairs and the Ministry of Trade to further strengthen the BLT policy theme that evokes positive sentiment and improves the theme that evokes negative sentiment.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
1
审稿时长
4 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信