利用超参数调整贝叶斯搜索实现 catboost,预测糖尿病疾病

Arif Darmawan, Muliadi Muliadi, Dwi Kartini, Triando Hamonangan Saragih, Radityo Adi Nugraha
{"title":"利用超参数调整贝叶斯搜索实现 catboost,预测糖尿病疾病","authors":"Arif Darmawan, Muliadi Muliadi, Dwi Kartini, Triando Hamonangan Saragih, Radityo Adi Nugraha","doi":"10.23960/komputasi.v11i2.13746","DOIUrl":null,"url":null,"abstract":"Diabetes merupakan masalah kesehatan masyarakat dunia dengan prevalensi yang selalu meningkat setiap tahun. Penyakit Diabetes ini perlu didiagnosis sejak dini menggunakan algoritma klasifikasi. Dataset yang digunakan yaitu PIMA Indians Diabetes Database dari Kaggle dengan 768 data dan 8 fitur. Metode pengklasifikasi yang digunakan yaitu Catboost. Klasifikasi Catboost dapat bekerja baik dalam menangani ketidak seimbangan data, namun kinerja algoritma ini masih bisa ditingkatkan lagi. Untuk mengatasi permasalahan tersebut peneliti menggunakan solusi Hyper-parameter tuning. Catboost memiliki beberapa Hyper-parameter yang dapat dikonfigurasi untuk meningkatkan kinerja dari model. Masalah mengidentifikasi nilai yang baik untuk Hyper-parameter disebut Hyper-parameter tuning. Metode Hyper-parameter tuning yang digunakan yaitu Bayesian Search yang kemudian divalidasi menggunakan 10-Fold Cross Validation sebanyak 10 iterasi. Hyper-parameter Catboost yang dikonfigurasi antara lain depth, learning_rate dan Iterations. Pengujian pada Catboost tanpa Hyper-parameter tuning memperoleh nilai presisi sebesar 0,625% dan nilai AUC sebesar 0,868%. Untuk pengujian Catboost dengan Hyper-parameter tuning memperoleh presisi sebesar 0,634 % dan AUC sebesar 0,901%. Menambahkan Hyper-parameter tuning Bayesian Search pada metode klasifikasi Catboost dapat meningkatkan hasil nilai akurasi dan nilai AUC.","PeriodicalId":292117,"journal":{"name":"Jurnal Komputasi","volume":"93 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-10-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"IMPLEMENTASI CATBOOST DENGAN MENGGUNAKAN HYPER-PARAMETER TUNING BAYESIAN SEARCH UNTUK MEMPREDIKSI PENYAKIT DIABETES\",\"authors\":\"Arif Darmawan, Muliadi Muliadi, Dwi Kartini, Triando Hamonangan Saragih, Radityo Adi Nugraha\",\"doi\":\"10.23960/komputasi.v11i2.13746\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Diabetes merupakan masalah kesehatan masyarakat dunia dengan prevalensi yang selalu meningkat setiap tahun. Penyakit Diabetes ini perlu didiagnosis sejak dini menggunakan algoritma klasifikasi. Dataset yang digunakan yaitu PIMA Indians Diabetes Database dari Kaggle dengan 768 data dan 8 fitur. Metode pengklasifikasi yang digunakan yaitu Catboost. Klasifikasi Catboost dapat bekerja baik dalam menangani ketidak seimbangan data, namun kinerja algoritma ini masih bisa ditingkatkan lagi. Untuk mengatasi permasalahan tersebut peneliti menggunakan solusi Hyper-parameter tuning. Catboost memiliki beberapa Hyper-parameter yang dapat dikonfigurasi untuk meningkatkan kinerja dari model. Masalah mengidentifikasi nilai yang baik untuk Hyper-parameter disebut Hyper-parameter tuning. Metode Hyper-parameter tuning yang digunakan yaitu Bayesian Search yang kemudian divalidasi menggunakan 10-Fold Cross Validation sebanyak 10 iterasi. Hyper-parameter Catboost yang dikonfigurasi antara lain depth, learning_rate dan Iterations. Pengujian pada Catboost tanpa Hyper-parameter tuning memperoleh nilai presisi sebesar 0,625% dan nilai AUC sebesar 0,868%. Untuk pengujian Catboost dengan Hyper-parameter tuning memperoleh presisi sebesar 0,634 % dan AUC sebesar 0,901%. Menambahkan Hyper-parameter tuning Bayesian Search pada metode klasifikasi Catboost dapat meningkatkan hasil nilai akurasi dan nilai AUC.\",\"PeriodicalId\":292117,\"journal\":{\"name\":\"Jurnal Komputasi\",\"volume\":\"93 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-10-30\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal Komputasi\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.23960/komputasi.v11i2.13746\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Komputasi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.23960/komputasi.v11i2.13746","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

糖尿病是一个全球性的公共卫生问题,发病率逐年上升。需要使用分类算法及早诊断糖尿病。使用的数据集是来自 Kaggle 的 PIMA 印度糖尿病数据库,包含 768 个数据和 8 个特征。使用的分类方法是 Catboost。Catboost 分类法能很好地处理数据不平衡问题,但该算法的性能仍有待提高。为了克服这些问题,研究人员使用了超参数调整解决方案。Catboost 有几个超参数,可以通过配置来提高模型的性能。确定超参数良好值的问题称为超参数调整。使用的超参数调整方法是贝叶斯搜索,然后使用 10 倍交叉验证进行 10 次迭代验证。配置的 Catboost 超参数包括深度、学习率和迭代次数。在不调整超参数的情况下,Catboost 测试的精度值为 0.625%,AUC 值为 0.868%。对于使用超参数调整的 Catboost 测试,精确度为 0.634%,AUC 为 0.901%。在 Catboost 分类方法中加入贝叶斯搜索超参数调整可以提高精确度和 AUC 值。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
IMPLEMENTASI CATBOOST DENGAN MENGGUNAKAN HYPER-PARAMETER TUNING BAYESIAN SEARCH UNTUK MEMPREDIKSI PENYAKIT DIABETES
Diabetes merupakan masalah kesehatan masyarakat dunia dengan prevalensi yang selalu meningkat setiap tahun. Penyakit Diabetes ini perlu didiagnosis sejak dini menggunakan algoritma klasifikasi. Dataset yang digunakan yaitu PIMA Indians Diabetes Database dari Kaggle dengan 768 data dan 8 fitur. Metode pengklasifikasi yang digunakan yaitu Catboost. Klasifikasi Catboost dapat bekerja baik dalam menangani ketidak seimbangan data, namun kinerja algoritma ini masih bisa ditingkatkan lagi. Untuk mengatasi permasalahan tersebut peneliti menggunakan solusi Hyper-parameter tuning. Catboost memiliki beberapa Hyper-parameter yang dapat dikonfigurasi untuk meningkatkan kinerja dari model. Masalah mengidentifikasi nilai yang baik untuk Hyper-parameter disebut Hyper-parameter tuning. Metode Hyper-parameter tuning yang digunakan yaitu Bayesian Search yang kemudian divalidasi menggunakan 10-Fold Cross Validation sebanyak 10 iterasi. Hyper-parameter Catboost yang dikonfigurasi antara lain depth, learning_rate dan Iterations. Pengujian pada Catboost tanpa Hyper-parameter tuning memperoleh nilai presisi sebesar 0,625% dan nilai AUC sebesar 0,868%. Untuk pengujian Catboost dengan Hyper-parameter tuning memperoleh presisi sebesar 0,634 % dan AUC sebesar 0,901%. Menambahkan Hyper-parameter tuning Bayesian Search pada metode klasifikasi Catboost dapat meningkatkan hasil nilai akurasi dan nilai AUC.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信