Analisis Klasifikasi Sentimen Terhadap Isu Kebocoran Data Kartu Identitas Ponsel di Twitter

Muhammad Ichlasul Amal, Elsa Syafira Rahmasita, Edward Suryaputra, Nur Aini Rakhmawati
{"title":"Analisis Klasifikasi Sentimen Terhadap Isu Kebocoran Data Kartu Identitas Ponsel di Twitter","authors":"Muhammad Ichlasul Amal, Elsa Syafira Rahmasita, Edward Suryaputra, Nur Aini Rakhmawati","doi":"10.28932/jutisi.v8i3.5483","DOIUrl":null,"url":null,"abstract":"Perkembangan teknologi dan internet membawa ancaman besar terkait dengan privasi dan keamanan data pribadi. Pada bulan September 2022, terdapat insiden bocornya 1,3 miliar data pendaftaran kartu identitas ponsel atau kartu SIM yang berisi data pribadi pengguna di situs gelap. Twitter sebagai salah satu media sosial terpopuler di Indonesia menjadi tempat masyarakat Indonesia menyuarakan opininya terkait isu kebocoran data tersebut. Penelitian ini bertujuan untuk mencari tahu sebaran kata dan analisis klasifikasi sentimen dari opini masyarakat di Twitter terkait dengan isu tersebut. Analisis klasifikasi sentimen dilakukan menggunakan pendekatan machine learning dengan empat metode, yaitu Random Forest, Logistic Regresssion, Support-Vector Machine, dan model IndoBERT. Keempat metode tersebut akan dibandingkan untuk melihat model mana yang menghasilkan performa terbaik dalam mendeteksi sentimen. Dari proses crawling, didapatkan 957 tweet, di mana 609 tweet diberi label dan akan dilatih menggunakan empat metode tersebut. Dari data yang didapatkan, terdapat ketidakseimbangan antar kelas, di mana sentimen positif memiliki jumlah yang jauh lebih sedikti dibandingkan sentimen negatif dan netral. Beberapa kata yang sering digunakan dalam data tweet yang diambil adalah sim card, data sim, bocor data, miliar data, dan kominfo. Hasil pembangunan model menunjukkan algoritma Support-Vector Machine memiliki performa terbaik dengan nilai f1-score 0.81, dilanjutkan dengan Random Forest sebesar 0.78, IndoBERT sebesar 0.76, dan Logistic Regression sebesar 0.74. Ketidakseimbangan kelas dan kurangnya data latih membuat performa IndoBERT sebagai salah satu state-of-the-art dalam NLP memiliki performa yang rendah dibandingkan algoritma lainnya. Hasil dari penelitian ini dapat digunakan pihak berwenang untuk mengevaluasi kebijakan dalam menangani isu keamanan data dengan mendengarkan opini dari masyarakat Indonesia.","PeriodicalId":185279,"journal":{"name":"Jurnal Teknik Informatika dan Sistem Informasi","volume":"2 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-12-21","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknik Informatika dan Sistem Informasi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.28932/jutisi.v8i3.5483","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Perkembangan teknologi dan internet membawa ancaman besar terkait dengan privasi dan keamanan data pribadi. Pada bulan September 2022, terdapat insiden bocornya 1,3 miliar data pendaftaran kartu identitas ponsel atau kartu SIM yang berisi data pribadi pengguna di situs gelap. Twitter sebagai salah satu media sosial terpopuler di Indonesia menjadi tempat masyarakat Indonesia menyuarakan opininya terkait isu kebocoran data tersebut. Penelitian ini bertujuan untuk mencari tahu sebaran kata dan analisis klasifikasi sentimen dari opini masyarakat di Twitter terkait dengan isu tersebut. Analisis klasifikasi sentimen dilakukan menggunakan pendekatan machine learning dengan empat metode, yaitu Random Forest, Logistic Regresssion, Support-Vector Machine, dan model IndoBERT. Keempat metode tersebut akan dibandingkan untuk melihat model mana yang menghasilkan performa terbaik dalam mendeteksi sentimen. Dari proses crawling, didapatkan 957 tweet, di mana 609 tweet diberi label dan akan dilatih menggunakan empat metode tersebut. Dari data yang didapatkan, terdapat ketidakseimbangan antar kelas, di mana sentimen positif memiliki jumlah yang jauh lebih sedikti dibandingkan sentimen negatif dan netral. Beberapa kata yang sering digunakan dalam data tweet yang diambil adalah sim card, data sim, bocor data, miliar data, dan kominfo. Hasil pembangunan model menunjukkan algoritma Support-Vector Machine memiliki performa terbaik dengan nilai f1-score 0.81, dilanjutkan dengan Random Forest sebesar 0.78, IndoBERT sebesar 0.76, dan Logistic Regression sebesar 0.74. Ketidakseimbangan kelas dan kurangnya data latih membuat performa IndoBERT sebagai salah satu state-of-the-art dalam NLP memiliki performa yang rendah dibandingkan algoritma lainnya. Hasil dari penelitian ini dapat digunakan pihak berwenang untuk mengevaluasi kebijakan dalam menangani isu keamanan data dengan mendengarkan opini dari masyarakat Indonesia.
Twitter上对手机身份泄露问题的分类分析
技术进步和互联网对隐私和个人数据安全构成重大威胁。到2022年9月,黑暗网站上有13亿用户的手机身份证或SIM卡登记资料泄露。Twitter是印尼最受欢迎的社交媒体之一,也是印尼对此类数据泄露问题发表意见的地方。本研究旨在探讨Twitter上公众舆论对该问题的分类情绪分析。感情分析是用四种方法进行的:随机森林、逻辑回归、矢量机器和IndoBERT模型。这四种方法将比较哪些模式在检测情绪方面表现最好。从爬爬过程中,它得到了957条推文,其中609条被标记,并将接受这四种方法的培训。从所获得的数据来看,在课堂上存在着不平衡,正情绪比正情绪和中性情绪要小得多。在twitter数据中最常用的几个词是sim卡、sim卡、数据泄漏、数十亿数据和kominfo。开发模型表明,矢量矢量算法的f1-得分0.81,然后是随机森林0.78,IndoBERT 0.76,和逻辑反射0.74。课堂不平衡和缺乏数据培训使IndoBERT作为NLP中最先进的表现比其他算法表现得更差。本研究的结果可以通过听取印度尼西亚人民的意见来评估处理数据安全问题的政策。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信