Perbandingan Metode LightGBM dan XGBoost dalam Menangani Data dengan Kelas Tidak Seimbang

J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika Pub Date : 2022-12-31 DOI:10.36456/jstat.vol15.no2.a5548

Putri Septiana Rizky, Ristu Haiban Hirzi, Umam Hidayaturrohman

{"title":"Perbandingan Metode LightGBM dan XGBoost dalam Menangani Data dengan Kelas Tidak Seimbang","authors":"Putri Septiana Rizky, Ristu Haiban Hirzi, Umam Hidayaturrohman","doi":"10.36456/jstat.vol15.no2.a5548","DOIUrl":null,"url":null,"abstract":"Masalah ketidakseimbangan kelas telah menjadi salah satu tantangan dalam kinerja banyak algoritma klasifikasi. Kelas tidak seimbang merupakan suatu kondisi dimana terdapat dataset yang jumlah kelasnya terdapat perbedaan yang signifikan terhadap masing-masing jumlah kelas. Dalam kumpulan data yang terdiri dari dua kelas, ukuran sampel kategori mayoritas (lebih besar) mendominasi sampel kategori minoritas (lebih kecil) dengan rasio sebesar 1:100, 1:1.000 atau 1:10.000. Dampak ketidakseimbangan ini menyebabkan klasifikasi menjadi buruk dan tidak optimal. Sebagian besar algoritma klasifikasi standar cenderung mengklasifikasikan kelas mayoritas dengan tingkat akurasi tinggi dan kelas minoritas dengan tingkat akurasi rendah, sehingga mengakibatkan terjadinya bias. Dalam banyak aplikasi, lebih penting untuk mengidentifikasi kelas minoritas dari pada kelas mayoritas. Pada penelitian ini diusulkan pendekatan berbasis ensemble dengan pengklasifikasi yang digunakan adalah LightGBM dan XGBoost, kedua metode ini merupakan metode gradien efisien yang beberapa tahun terakhir telah disarankan berdasarkan pohon keputusan sehingga mampu menangani masalah data dengan skala besar. Data yang digunakan diperoleh dari UCI Repository dengan 5 data, 3 diantaranya memiliki tingkat ketidakseimbangan tinggi dan sisanya dengan tingkat ketidakseimbangan rendah. Jumlah kelas yang digunakan pada penelitian adalah dua kelas. Hasil penelitian menunjukkan bahwa kinerja metode XGBoost dalam akurasi dan sensitivitas lebih baik dibandingkan LightGBM di hampir seluruh data. Sedangkan kemampuan dalam menebak kelas minoritas (spesifisitas), metode LightGBM lebih baik dibandingkan XGBoost dengan nilai keseluruhan rata-rata sebesar 80,41% : 74,64%.","PeriodicalId":118320,"journal":{"name":"J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36456/jstat.vol15.no2.a5548","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 3

Abstract

Masalah ketidakseimbangan kelas telah menjadi salah satu tantangan dalam kinerja banyak algoritma klasifikasi. Kelas tidak seimbang merupakan suatu kondisi dimana terdapat dataset yang jumlah kelasnya terdapat perbedaan yang signifikan terhadap masing-masing jumlah kelas. Dalam kumpulan data yang terdiri dari dua kelas, ukuran sampel kategori mayoritas (lebih besar) mendominasi sampel kategori minoritas (lebih kecil) dengan rasio sebesar 1:100, 1:1.000 atau 1:10.000. Dampak ketidakseimbangan ini menyebabkan klasifikasi menjadi buruk dan tidak optimal. Sebagian besar algoritma klasifikasi standar cenderung mengklasifikasikan kelas mayoritas dengan tingkat akurasi tinggi dan kelas minoritas dengan tingkat akurasi rendah, sehingga mengakibatkan terjadinya bias. Dalam banyak aplikasi, lebih penting untuk mengidentifikasi kelas minoritas dari pada kelas mayoritas. Pada penelitian ini diusulkan pendekatan berbasis ensemble dengan pengklasifikasi yang digunakan adalah LightGBM dan XGBoost, kedua metode ini merupakan metode gradien efisien yang beberapa tahun terakhir telah disarankan berdasarkan pohon keputusan sehingga mampu menangani masalah data dengan skala besar. Data yang digunakan diperoleh dari UCI Repository dengan 5 data, 3 diantaranya memiliki tingkat ketidakseimbangan tinggi dan sisanya dengan tingkat ketidakseimbangan rendah. Jumlah kelas yang digunakan pada penelitian adalah dua kelas. Hasil penelitian menunjukkan bahwa kinerja metode XGBoost dalam akurasi dan sensitivitas lebih baik dibandingkan LightGBM di hampir seluruh data. Sedangkan kemampuan dalam menebak kelas minoritas (spesifisitas), metode LightGBM lebih baik dibandingkan XGBoost dengan nilai keseluruhan rata-rata sebesar 80,41% : 74,64%.

查看原文本刊更多论文

LightGBM和XGBoost处理不平衡的数据的方法比较

课堂失衡问题已成为许多分类算法工作中的挑战之一。不平衡的类是一个数据集，其类的数量与每个类的数量有显著差异。在一个由两个类组成的数据集中，占多数的样本大小(较大)支配了少数类别样本(较小)，其比例为1:100、1:1万或1:10万。这种不平衡的影响导致分类变得丑陋和不最佳。大多数标准分类算法倾向于将多数类别的精确度高，少数类别的精确率低，从而产生偏见。在许多应用程序中，确定少数阶级比多数阶级更重要。在这项研究中，提出了一种基于凝聚的方法，使用的分类方法是LightGBM和XGBoost，这两种方法都是一种有效的梯级方法，在过去几年里，这两种方法都是建立在决策树的基础上的，因此能够在很大程度上处理数据问题。使用的数据来自UCI存储库中有5个，其中3个处于高不平衡状态，其余的处于低不平衡状态。用于研究的类的数量是两个类。研究结果表明，XGBoost方法的准确性和敏感度比几乎所有数据中的光bm表现更好。对于少数族裔的猜测能力来说，LightGBM方法比XGBoost好，总平均值为80,41%:74.64%。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika

自引率

0.00%

发文量