还原属性使用Chi平方来优化确定树C4.5的方法

Anirma Kandida Br Ginting, Maya Silvi Lydia, Elviawaty Muisa Zamzami
{"title":"还原属性使用Chi平方来优化确定树C4.5的方法","authors":"Anirma Kandida Br Ginting, Maya Silvi Lydia, Elviawaty Muisa Zamzami","doi":"10.26418/jp.v9i1.56542","DOIUrl":null,"url":null,"abstract":"Pada metode decision tree C4.5, proses split atribut masih belum dapat secara maksimal mengoptimalkan kinerja akurasi pada decision tree yang disebabkan oleh noisy pada atribut yang kurang relevan. Hal tersebut berimplikasi terhadap ukuran dari pohon keputusan menjadi over-fitting sehingga perolehan akurasi pengujian menjadi kurang maksimal. Reduksi atribut merupakan salah satu cara yang dapat dilakukan dalam melakukan seleksi terhadap atribut data yang memiliki persentase pengaruh cenderung kecil sehingga diharapkan mampu dalam meningkatkan akurasi pada metode klasifikasi data. Adapun metode yang diusulkan pada penelitian ini yang digunakan untuk mereduksi atribut yang kurang relevan dari dataset yaitu dengan metode Chi Square sehingga menghasilkan atribut yang mempunyai pengaruh besar terhadap data dan kemudian diklasifikasikan menggunakan decision tree C4.5. Untuk melakukan pengujian terhadap model yang diusulkan, maka penelitian ini menggunakan dataset dari kaggle.com yaitu South Germany Credit yang terdiri dari 1000 records data dengan 20 atribut. Evaluasi kinerja klasikasi yang diusulkan yaitu berdasarkan Confusion Matrix. Dari hasil uji metode yang diusulkan, didapatkan kesimpulan bahwa metode yang diusulkan mampu meningkatkan akurasi decision tree c4.5 dengan rata-rata peningkatan akurasi sebesar 2.5%.","PeriodicalId":31793,"journal":{"name":"JEPIN Jurnal Edukasi dan Penelitian Informatika","volume":"43 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-04-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Reduksi Atribut Menggunakan Chi Square untuk Optimasi Kinerja Metode Decision Tree C4.5\",\"authors\":\"Anirma Kandida Br Ginting, Maya Silvi Lydia, Elviawaty Muisa Zamzami\",\"doi\":\"10.26418/jp.v9i1.56542\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Pada metode decision tree C4.5, proses split atribut masih belum dapat secara maksimal mengoptimalkan kinerja akurasi pada decision tree yang disebabkan oleh noisy pada atribut yang kurang relevan. Hal tersebut berimplikasi terhadap ukuran dari pohon keputusan menjadi over-fitting sehingga perolehan akurasi pengujian menjadi kurang maksimal. Reduksi atribut merupakan salah satu cara yang dapat dilakukan dalam melakukan seleksi terhadap atribut data yang memiliki persentase pengaruh cenderung kecil sehingga diharapkan mampu dalam meningkatkan akurasi pada metode klasifikasi data. Adapun metode yang diusulkan pada penelitian ini yang digunakan untuk mereduksi atribut yang kurang relevan dari dataset yaitu dengan metode Chi Square sehingga menghasilkan atribut yang mempunyai pengaruh besar terhadap data dan kemudian diklasifikasikan menggunakan decision tree C4.5. Untuk melakukan pengujian terhadap model yang diusulkan, maka penelitian ini menggunakan dataset dari kaggle.com yaitu South Germany Credit yang terdiri dari 1000 records data dengan 20 atribut. Evaluasi kinerja klasikasi yang diusulkan yaitu berdasarkan Confusion Matrix. Dari hasil uji metode yang diusulkan, didapatkan kesimpulan bahwa metode yang diusulkan mampu meningkatkan akurasi decision tree c4.5 dengan rata-rata peningkatan akurasi sebesar 2.5%.\",\"PeriodicalId\":31793,\"journal\":{\"name\":\"JEPIN Jurnal Edukasi dan Penelitian Informatika\",\"volume\":\"43 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-04-25\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"JEPIN Jurnal Edukasi dan Penelitian Informatika\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.26418/jp.v9i1.56542\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"JEPIN Jurnal Edukasi dan Penelitian Informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.26418/jp.v9i1.56542","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

在确定树的方法C4.5中,分割属性的过程仍然不能最大限度地优化由noisy造成的树的决定论的准确性。这将影响决策树的大小,从而降低测试准确率。还原属性是对数据属性进行选择的一种方法,数据属性的影响力极小,人们希望其能够提高数据分类方法的准确性。至于这项研究的建议方法,它被用来简化数据集中不太相关的属性,即Chi Square方法,从而产生对数据产生重大影响的属性,然后使用decision tree C4.5进行分类。为了对建议的模型进行测试,该研究使用了kaggle.com (South Germany Credit)的数据集,其中包含1000个属性。提议的分类性能评价是基于孔子矩阵。从提议的方法测试中,得出的结论是,建议的方法可以增加c4 - 5树的估计准确率,平均提高2.5%。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Reduksi Atribut Menggunakan Chi Square untuk Optimasi Kinerja Metode Decision Tree C4.5
Pada metode decision tree C4.5, proses split atribut masih belum dapat secara maksimal mengoptimalkan kinerja akurasi pada decision tree yang disebabkan oleh noisy pada atribut yang kurang relevan. Hal tersebut berimplikasi terhadap ukuran dari pohon keputusan menjadi over-fitting sehingga perolehan akurasi pengujian menjadi kurang maksimal. Reduksi atribut merupakan salah satu cara yang dapat dilakukan dalam melakukan seleksi terhadap atribut data yang memiliki persentase pengaruh cenderung kecil sehingga diharapkan mampu dalam meningkatkan akurasi pada metode klasifikasi data. Adapun metode yang diusulkan pada penelitian ini yang digunakan untuk mereduksi atribut yang kurang relevan dari dataset yaitu dengan metode Chi Square sehingga menghasilkan atribut yang mempunyai pengaruh besar terhadap data dan kemudian diklasifikasikan menggunakan decision tree C4.5. Untuk melakukan pengujian terhadap model yang diusulkan, maka penelitian ini menggunakan dataset dari kaggle.com yaitu South Germany Credit yang terdiri dari 1000 records data dengan 20 atribut. Evaluasi kinerja klasikasi yang diusulkan yaitu berdasarkan Confusion Matrix. Dari hasil uji metode yang diusulkan, didapatkan kesimpulan bahwa metode yang diusulkan mampu meningkatkan akurasi decision tree c4.5 dengan rata-rata peningkatan akurasi sebesar 2.5%.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
1
审稿时长
10 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信