在随机森林算法中通过数据科学方法对咖啡质量的预测

Kalvintirta Ciptady, M. Harahap, Jonvin Jonvin, Yonata Ndruru, Ibadurrahman Ibadurrahman
{"title":"在随机森林算法中通过数据科学方法对咖啡质量的预测","authors":"Kalvintirta Ciptady, M. Harahap, Jonvin Jonvin, Yonata Ndruru, Ibadurrahman Ibadurrahman","doi":"10.47709/dsi.v2i1.1708","DOIUrl":null,"url":null,"abstract":"Perusahaan yang bergerak dibidang produksi kopi, selalu mementingkan kualitas kopi untuk menghasilkan produk yang dapat bersaing dengan kompetitor lainnya \n. Adapun sistem yang dapat dibangun untuk mengatasi permasalahan tersebut yaitu berupa prediksi dalam menentukan kualitas kopi. Data kopi yang digunakan pada penelitian ini didapatkan dari Coffee Quality Institute. Data ini memiliki 44 kolom atau variabel dengan jumlah data sebanyak 1339 data. Tahapan yang dilakukan dengan pendekatan data science dengan algoritma random forest terdiri dari proses pengumpulan data, preprocessing, pengumpulan data, split data, pemrosesan dengan algoritma Random Forest yang menghasilkan hasil prediksi, hingga yang terakhir adalah proses evaluasi performa algoritma Random Forest dalam memprediksi kualitas kopi. \nVariabel dependen yang diprediksi pada penelitian ini secara berurutan dari kualitas terbaik hingga terburuk antara lain adalah kualitas kopi Specialty Grade, Premium, Exchange, dan Below Standard. Kualitas kopi premium adalah hasil prediksi paling baik dengan hasil actual 135. Jumlah data yang cukup untuk memastikan algoritma random forest dapat memprediksi dengan cukup baik dengan akurasi yang mencapai 79% masih memiliki ruang untuk perkembangan sehingga bisa mendekati 100%. Kurang optimalnya nilai akurasi pada penelitian ini dapat diakibatkan oleh kurangnya variabel independen yang digunakan. Penelitian ini hanya menggunakan 8 variabel dari 43 variabel yang tersedia. Sehingga masih terdapat variabel yang berpotensi dapat meningkatkan akurasi. Tidak dilakukannya penyetelan parameter Random Forest yang tersedia untuk meningkatkan akurasi.","PeriodicalId":155875,"journal":{"name":"Data Sciences Indonesia (DSI)","volume":"28 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-09-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"Prediksi Kualitas Kopi Dengan Algoritma Random Forest Melalui Pendekatan Data Science\",\"authors\":\"Kalvintirta Ciptady, M. Harahap, Jonvin Jonvin, Yonata Ndruru, Ibadurrahman Ibadurrahman\",\"doi\":\"10.47709/dsi.v2i1.1708\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Perusahaan yang bergerak dibidang produksi kopi, selalu mementingkan kualitas kopi untuk menghasilkan produk yang dapat bersaing dengan kompetitor lainnya \\n. Adapun sistem yang dapat dibangun untuk mengatasi permasalahan tersebut yaitu berupa prediksi dalam menentukan kualitas kopi. Data kopi yang digunakan pada penelitian ini didapatkan dari Coffee Quality Institute. Data ini memiliki 44 kolom atau variabel dengan jumlah data sebanyak 1339 data. Tahapan yang dilakukan dengan pendekatan data science dengan algoritma random forest terdiri dari proses pengumpulan data, preprocessing, pengumpulan data, split data, pemrosesan dengan algoritma Random Forest yang menghasilkan hasil prediksi, hingga yang terakhir adalah proses evaluasi performa algoritma Random Forest dalam memprediksi kualitas kopi. \\nVariabel dependen yang diprediksi pada penelitian ini secara berurutan dari kualitas terbaik hingga terburuk antara lain adalah kualitas kopi Specialty Grade, Premium, Exchange, dan Below Standard. Kualitas kopi premium adalah hasil prediksi paling baik dengan hasil actual 135. Jumlah data yang cukup untuk memastikan algoritma random forest dapat memprediksi dengan cukup baik dengan akurasi yang mencapai 79% masih memiliki ruang untuk perkembangan sehingga bisa mendekati 100%. Kurang optimalnya nilai akurasi pada penelitian ini dapat diakibatkan oleh kurangnya variabel independen yang digunakan. Penelitian ini hanya menggunakan 8 variabel dari 43 variabel yang tersedia. Sehingga masih terdapat variabel yang berpotensi dapat meningkatkan akurasi. Tidak dilakukannya penyetelan parameter Random Forest yang tersedia untuk meningkatkan akurasi.\",\"PeriodicalId\":155875,\"journal\":{\"name\":\"Data Sciences Indonesia (DSI)\",\"volume\":\"28 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-09-08\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Data Sciences Indonesia (DSI)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.47709/dsi.v2i1.1708\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Data Sciences Indonesia (DSI)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.47709/dsi.v2i1.1708","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

摘要

从事咖啡生产的公司,总是专注于咖啡的质量,以生产能够与其他竞争对手竞争的产品。至于可以建立起来解决这个问题的系统,那就是对咖啡质量的预测。用于这项研究的咖啡数据来自咖啡质量研究所。此数据有44个列或变量,数据数相当于1339个数据。科学方法与随机森林算法的方法相结合的步骤包括数据收集、预处理、数据收集、数据分割、与随机森林算法进行处理,从而产生预测结果,直到最后是一个评估咖啡的性能算法的过程。本研究预测的依赖变量从最好的到最坏的质量顺序包括咖啡的特殊质量、优质、交易质量和低于标准标准。优质咖啡的质量是实际产量135的最好预测。足够的数据来确保random forest算法能够很好地预测到79%的算法仍然有改进的空间,因此接近100%。本研究不太准确,可能是由于没有使用独立变量造成的。本研究只使用43个可用变量中的8个变量。所以仍然有一个变量可以增加准确性。他没有对可用的随机森林参数进行校准来增加准确性。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Prediksi Kualitas Kopi Dengan Algoritma Random Forest Melalui Pendekatan Data Science
Perusahaan yang bergerak dibidang produksi kopi, selalu mementingkan kualitas kopi untuk menghasilkan produk yang dapat bersaing dengan kompetitor lainnya . Adapun sistem yang dapat dibangun untuk mengatasi permasalahan tersebut yaitu berupa prediksi dalam menentukan kualitas kopi. Data kopi yang digunakan pada penelitian ini didapatkan dari Coffee Quality Institute. Data ini memiliki 44 kolom atau variabel dengan jumlah data sebanyak 1339 data. Tahapan yang dilakukan dengan pendekatan data science dengan algoritma random forest terdiri dari proses pengumpulan data, preprocessing, pengumpulan data, split data, pemrosesan dengan algoritma Random Forest yang menghasilkan hasil prediksi, hingga yang terakhir adalah proses evaluasi performa algoritma Random Forest dalam memprediksi kualitas kopi. Variabel dependen yang diprediksi pada penelitian ini secara berurutan dari kualitas terbaik hingga terburuk antara lain adalah kualitas kopi Specialty Grade, Premium, Exchange, dan Below Standard. Kualitas kopi premium adalah hasil prediksi paling baik dengan hasil actual 135. Jumlah data yang cukup untuk memastikan algoritma random forest dapat memprediksi dengan cukup baik dengan akurasi yang mencapai 79% masih memiliki ruang untuk perkembangan sehingga bisa mendekati 100%. Kurang optimalnya nilai akurasi pada penelitian ini dapat diakibatkan oleh kurangnya variabel independen yang digunakan. Penelitian ini hanya menggunakan 8 variabel dari 43 variabel yang tersedia. Sehingga masih terdapat variabel yang berpotensi dapat meningkatkan akurasi. Tidak dilakukannya penyetelan parameter Random Forest yang tersedia untuk meningkatkan akurasi.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信