Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier

Mutiara Persada Pulungan, A. Purnomo, Aliyah Kurniasih
{"title":"Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier","authors":"Mutiara Persada Pulungan, A. Purnomo, Aliyah Kurniasih","doi":"10.25126/jtiik.1077989","DOIUrl":null,"url":null,"abstract":"Kepribadian Myers-Briggs Type Indicator ( MBTI ) telah menjadi topik populer dalam memahami karakteristik individu dan dampaknya pada interaksi sosial, karir, dan pengambilan keputusan. Model Machine Learning dengan algoritma Naive Bayes Classifier sering digunakan untuk memprediksi kepribadian MBTI berdasarkan data Twitter. Namun, seringkali terjadi ketidakseimbangan kelas, dengan beberapa jenis kepribadian yang memiliki sampel lebih sedikit. Untuk mengatasi hal ini, penelitian ini menggunakan teknik Synthetic Minority Over-sampling Technique (SMOTE) untuk meningkatkan jumlah sampel pada kelas minoritas. Selain itu, metode Term Frequency-Inverse Document Frequency (TF-IDF) digunakan untuk mengekstraksi fitur penting dari teks. Penelitian ini bertujuan menerapkan teknik SMOTE untuk mengatasi ketidakseimbangan kelas dalam klasifikasi kepribadian MBTI menggunakan beberapa algoritma Naive Bayes Classifier, termasuk Gaussian, Multinomial, Bernoulli, Complement, dan Logistic Regression berdasarkan model Keirsey: Artisan, Guardian, Rational, dan Idealist. Evaluasi menggunakan metode Hold-Out-Validation dengan membagi data menjadi 90% data latih dan 10% data uji. Hasil evaluasi menunjukkan performa rendah algoritma Naive Bayes Classifier untuk kelas Artisan dan Guardian, tetapi baik untuk kelas Rational dan Idealist. Algoritma Logistic Regression memiliki akurasi tertinggi 80% dan performa yang lebih baik secara keseluruhan, meskipun masih rendah untuk kelas Artisan dan Guardian. Dengan demikian, penelitian ini memberikan pemahaman tentang penggunaan algoritma Naive Bayes Classifier dan teknik SMOTE dalam prediksi kepribadian MBTI, dengan potensi peningkatan kinerja melalui penggunaan algoritma Logistic Regression.   Abstract   Myers-Briggs Type Indicator (MBTI) personality is becoming a popular topic in understanding individual characteristics and their impact on social interaction, career, and decision-making. Machine Learning models with Naive Bayes Classifier algorithms are often used to predict MBTI personalities from Twitter data. However, there is often a class imbalance, with some personality types having a smaller sample. To overcome this, this study used the Synthetic Minority Over-sampling Technique (SMOTE) technique to increase the number of samples in minority classes. Additionally, the Term Frequency-Inverse Document Frequency (TF-IDF) method is used to extract important features from text. This study aims to apply SMOTE techniques to address class imbalances in MBTI personality classification using several Naïve Bayes Classifier algorithms, including Gaussian, Multinomial, Bernoulli, Complement, and Logistic Regression based on Keirsey's model: Artisan, Guardian, Rational, and Idealist. Evaluation using the Hold-Out-Validation method by dividing the data into 90% training data and 10% test data. The evaluation results showed low performance of the Naive Bayes Classifier algorithm for the Artisan and Guardian classes, but both for the Rational and Idealist classes. The Logistic Regression algorithm has the highest accuracy of 79% and better performance overall, although it is still low for the Artisan and Guardian classes. Thus, this study provides insight into the use of Naive Bayes Classifier algorithm and SMOTE technique in MBTI personality prediction, with potential performance improvement through the use of Logistic Regression algorithm.","PeriodicalId":32501,"journal":{"name":"Jurnal Teknologi Informasi dan Ilmu Komputer","volume":" 24","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi Informasi dan Ilmu Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25126/jtiik.1077989","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Kepribadian Myers-Briggs Type Indicator ( MBTI ) telah menjadi topik populer dalam memahami karakteristik individu dan dampaknya pada interaksi sosial, karir, dan pengambilan keputusan. Model Machine Learning dengan algoritma Naive Bayes Classifier sering digunakan untuk memprediksi kepribadian MBTI berdasarkan data Twitter. Namun, seringkali terjadi ketidakseimbangan kelas, dengan beberapa jenis kepribadian yang memiliki sampel lebih sedikit. Untuk mengatasi hal ini, penelitian ini menggunakan teknik Synthetic Minority Over-sampling Technique (SMOTE) untuk meningkatkan jumlah sampel pada kelas minoritas. Selain itu, metode Term Frequency-Inverse Document Frequency (TF-IDF) digunakan untuk mengekstraksi fitur penting dari teks. Penelitian ini bertujuan menerapkan teknik SMOTE untuk mengatasi ketidakseimbangan kelas dalam klasifikasi kepribadian MBTI menggunakan beberapa algoritma Naive Bayes Classifier, termasuk Gaussian, Multinomial, Bernoulli, Complement, dan Logistic Regression berdasarkan model Keirsey: Artisan, Guardian, Rational, dan Idealist. Evaluasi menggunakan metode Hold-Out-Validation dengan membagi data menjadi 90% data latih dan 10% data uji. Hasil evaluasi menunjukkan performa rendah algoritma Naive Bayes Classifier untuk kelas Artisan dan Guardian, tetapi baik untuk kelas Rational dan Idealist. Algoritma Logistic Regression memiliki akurasi tertinggi 80% dan performa yang lebih baik secara keseluruhan, meskipun masih rendah untuk kelas Artisan dan Guardian. Dengan demikian, penelitian ini memberikan pemahaman tentang penggunaan algoritma Naive Bayes Classifier dan teknik SMOTE dalam prediksi kepribadian MBTI, dengan potensi peningkatan kinerja melalui penggunaan algoritma Logistic Regression.   Abstract   Myers-Briggs Type Indicator (MBTI) personality is becoming a popular topic in understanding individual characteristics and their impact on social interaction, career, and decision-making. Machine Learning models with Naive Bayes Classifier algorithms are often used to predict MBTI personalities from Twitter data. However, there is often a class imbalance, with some personality types having a smaller sample. To overcome this, this study used the Synthetic Minority Over-sampling Technique (SMOTE) technique to increase the number of samples in minority classes. Additionally, the Term Frequency-Inverse Document Frequency (TF-IDF) method is used to extract important features from text. This study aims to apply SMOTE techniques to address class imbalances in MBTI personality classification using several Naïve Bayes Classifier algorithms, including Gaussian, Multinomial, Bernoulli, Complement, and Logistic Regression based on Keirsey's model: Artisan, Guardian, Rational, and Idealist. Evaluation using the Hold-Out-Validation method by dividing the data into 90% training data and 10% test data. The evaluation results showed low performance of the Naive Bayes Classifier algorithm for the Artisan and Guardian classes, but both for the Rational and Idealist classes. The Logistic Regression algorithm has the highest accuracy of 79% and better performance overall, although it is still low for the Artisan and Guardian classes. Thus, this study provides insight into the use of Naive Bayes Classifier algorithm and SMOTE technique in MBTI personality prediction, with potential performance improvement through the use of Logistic Regression algorithm.
应用 SMOTE 克服使用 Naive Bayes 分类器进行 MBTI 性格分类时的类别不平衡问题
迈尔斯-布里格斯(Myers-Briggs)性格类型指标(MBTI)是了解个人性格特征和社会、家庭和社会交往的首选工具。机器学习模型采用 Naive Bayes 分类器算法,通过 Twitter 数据对 MBTI 数据进行预测。因此,我们可以从推特数据中找到对 MBTI 性格的预测结果,同时也可以找到对 MBTI 性格的预测样本。为了实现这一目标,本研究采用了合成少数群体过度取样技术(SMOTE),以便在少数群体中采集大量样本。在此基础上,术语频率-反向文档频率(TF-IDF)测量法可提高对少数群体的采样率。在此基础上,我们开发了 SMOTE 技术,用于在 MBTI 测评中使用 Naive Bayes 分类器、高斯算法、多项式算法、伯努利算法、补全算法和逻辑回归算法,以及 Keirsey 模型:工匠型、守护型、理性型和理想型。评估采用了 "保持-淘汰-验证 "的方法,将 90% 的数据和 10% 的数据分开。评估结果显示,"工匠 "和 "守护者 "使用的算法为奈维贝叶斯分类器,而 "理性 "和 "理想主义 "使用的算法则较为简单。逻辑回归算法的准确率为 80%,而且在计算过程中表现也很好,但对 "艺术家 "和 "守护者 "来说却不尽人意。从数据上看,这篇文章介绍了奈何贝叶斯分类法和 SMOTE 技术对 MBTI 预测的作用,以及利用逻辑回归算法提高预测结果的潜力。 摘要 迈尔斯-布里格斯性格类型指标(MBTI)正在成为了解个人特征及其对社会交往、职业和决策影响的热门话题。采用 Naive Bayes 分类器算法的机器学习模型通常用于从 Twitter 数据中预测 MBTI 性格。然而,通常会出现类别不平衡的情况,一些人格类型的样本较少。为了克服这一问题,本研究使用了合成少数群体过度采样技术(SMOTE)来增加少数群体的样本数量。此外,还使用词频-反向文档频率(TF-IDF)方法从文本中提取重要特征。本研究旨在应用 SMOTE 技术来解决 MBTI 人格分类中的类不平衡问题,使用了几种基于 Keirsey 模型的奈夫贝叶斯分类器算法,包括高斯、多项式、伯努利、补全和逻辑回归:工匠型、守护型、理性型和理想型。通过将数据分为 90% 的训练数据和 10% 的测试数据,使用保持不变验证法进行评估。评估结果显示,Naive Bayes 分类器算法在 "工匠 "和 "守护者 "类别中的性能较低,但在 "理性 "和 "理想主义者 "类别中的性能都很高。逻辑回归算法的准确率最高,达到 79%,总体表现较好,但在 "工匠 "和 "守护者 "类别中准确率仍然较低。因此,本研究为在 MBTI 性格预测中使用 Naive Bayes 分类器算法和 SMOTE 技术提供了启示,而使用 Logistic 回归算法则有可能提高性能。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
审稿时长
16 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信