{"title":"还原属性使用Chi平方来优化确定树C4.5的方法","authors":"Anirma Kandida Br Ginting, Maya Silvi Lydia, Elviawaty Muisa Zamzami","doi":"10.26418/jp.v9i1.56542","DOIUrl":null,"url":null,"abstract":"Pada metode decision tree C4.5, proses split atribut masih belum dapat secara maksimal mengoptimalkan kinerja akurasi pada decision tree yang disebabkan oleh noisy pada atribut yang kurang relevan. Hal tersebut berimplikasi terhadap ukuran dari pohon keputusan menjadi over-fitting sehingga perolehan akurasi pengujian menjadi kurang maksimal. Reduksi atribut merupakan salah satu cara yang dapat dilakukan dalam melakukan seleksi terhadap atribut data yang memiliki persentase pengaruh cenderung kecil sehingga diharapkan mampu dalam meningkatkan akurasi pada metode klasifikasi data. Adapun metode yang diusulkan pada penelitian ini yang digunakan untuk mereduksi atribut yang kurang relevan dari dataset yaitu dengan metode Chi Square sehingga menghasilkan atribut yang mempunyai pengaruh besar terhadap data dan kemudian diklasifikasikan menggunakan decision tree C4.5. Untuk melakukan pengujian terhadap model yang diusulkan, maka penelitian ini menggunakan dataset dari kaggle.com yaitu South Germany Credit yang terdiri dari 1000 records data dengan 20 atribut. Evaluasi kinerja klasikasi yang diusulkan yaitu berdasarkan Confusion Matrix. Dari hasil uji metode yang diusulkan, didapatkan kesimpulan bahwa metode yang diusulkan mampu meningkatkan akurasi decision tree c4.5 dengan rata-rata peningkatan akurasi sebesar 2.5%.","PeriodicalId":31793,"journal":{"name":"JEPIN Jurnal Edukasi dan Penelitian Informatika","volume":"43 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-04-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Reduksi Atribut Menggunakan Chi Square untuk Optimasi Kinerja Metode Decision Tree C4.5\",\"authors\":\"Anirma Kandida Br Ginting, Maya Silvi Lydia, Elviawaty Muisa Zamzami\",\"doi\":\"10.26418/jp.v9i1.56542\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Pada metode decision tree C4.5, proses split atribut masih belum dapat secara maksimal mengoptimalkan kinerja akurasi pada decision tree yang disebabkan oleh noisy pada atribut yang kurang relevan. Hal tersebut berimplikasi terhadap ukuran dari pohon keputusan menjadi over-fitting sehingga perolehan akurasi pengujian menjadi kurang maksimal. Reduksi atribut merupakan salah satu cara yang dapat dilakukan dalam melakukan seleksi terhadap atribut data yang memiliki persentase pengaruh cenderung kecil sehingga diharapkan mampu dalam meningkatkan akurasi pada metode klasifikasi data. Adapun metode yang diusulkan pada penelitian ini yang digunakan untuk mereduksi atribut yang kurang relevan dari dataset yaitu dengan metode Chi Square sehingga menghasilkan atribut yang mempunyai pengaruh besar terhadap data dan kemudian diklasifikasikan menggunakan decision tree C4.5. Untuk melakukan pengujian terhadap model yang diusulkan, maka penelitian ini menggunakan dataset dari kaggle.com yaitu South Germany Credit yang terdiri dari 1000 records data dengan 20 atribut. Evaluasi kinerja klasikasi yang diusulkan yaitu berdasarkan Confusion Matrix. Dari hasil uji metode yang diusulkan, didapatkan kesimpulan bahwa metode yang diusulkan mampu meningkatkan akurasi decision tree c4.5 dengan rata-rata peningkatan akurasi sebesar 2.5%.\",\"PeriodicalId\":31793,\"journal\":{\"name\":\"JEPIN Jurnal Edukasi dan Penelitian Informatika\",\"volume\":\"43 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-04-25\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"JEPIN Jurnal Edukasi dan Penelitian Informatika\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.26418/jp.v9i1.56542\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"JEPIN Jurnal Edukasi dan Penelitian Informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.26418/jp.v9i1.56542","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
摘要
在确定树的方法C4.5中,分割属性的过程仍然不能最大限度地优化由noisy造成的树的决定论的准确性。这将影响决策树的大小,从而降低测试准确率。还原属性是对数据属性进行选择的一种方法,数据属性的影响力极小,人们希望其能够提高数据分类方法的准确性。至于这项研究的建议方法,它被用来简化数据集中不太相关的属性,即Chi Square方法,从而产生对数据产生重大影响的属性,然后使用decision tree C4.5进行分类。为了对建议的模型进行测试,该研究使用了kaggle.com (South Germany Credit)的数据集,其中包含1000个属性。提议的分类性能评价是基于孔子矩阵。从提议的方法测试中,得出的结论是,建议的方法可以增加c4 - 5树的估计准确率,平均提高2.5%。
Reduksi Atribut Menggunakan Chi Square untuk Optimasi Kinerja Metode Decision Tree C4.5
Pada metode decision tree C4.5, proses split atribut masih belum dapat secara maksimal mengoptimalkan kinerja akurasi pada decision tree yang disebabkan oleh noisy pada atribut yang kurang relevan. Hal tersebut berimplikasi terhadap ukuran dari pohon keputusan menjadi over-fitting sehingga perolehan akurasi pengujian menjadi kurang maksimal. Reduksi atribut merupakan salah satu cara yang dapat dilakukan dalam melakukan seleksi terhadap atribut data yang memiliki persentase pengaruh cenderung kecil sehingga diharapkan mampu dalam meningkatkan akurasi pada metode klasifikasi data. Adapun metode yang diusulkan pada penelitian ini yang digunakan untuk mereduksi atribut yang kurang relevan dari dataset yaitu dengan metode Chi Square sehingga menghasilkan atribut yang mempunyai pengaruh besar terhadap data dan kemudian diklasifikasikan menggunakan decision tree C4.5. Untuk melakukan pengujian terhadap model yang diusulkan, maka penelitian ini menggunakan dataset dari kaggle.com yaitu South Germany Credit yang terdiri dari 1000 records data dengan 20 atribut. Evaluasi kinerja klasikasi yang diusulkan yaitu berdasarkan Confusion Matrix. Dari hasil uji metode yang diusulkan, didapatkan kesimpulan bahwa metode yang diusulkan mampu meningkatkan akurasi decision tree c4.5 dengan rata-rata peningkatan akurasi sebesar 2.5%.