{"title":"A Software Implementation and Research of Homogeneous Ensemble Algorithms for Solving the Data Classification Problem of Agricultural Indicators","authors":"Н.А. Зеленчук, О.К. Альсова","doi":"10.25699/sssb.2023.49.3.026","DOIUrl":null,"url":null,"abstract":"К настоящему времени разработано и изучено множество алгоритмов для решения задач классификации, однако остается актуальной проблема повышения качества (точности, устойчивости) результатов классификации при решении прикладных задач в разных отраслях экономики, в том числе в сельском хозяйстве. Вариантом решения этой проблемы является разработка алгоритмов и методики классификации, основанных на ансамблевом подходе. В данной работе представлен разработанный многоэтапный алгоритм для решения задачи классификации сельскохозяйственных показателей, объединяющий комплекс методов интеллектуального анализа данных и машинного обучения, основанный на применении ансамблевых моделей. Укрупненно алгоритм заключается в последовательном выполнении следующих основных этапов: первичный анализ и обработка данных; устранение несбалансированности классов на основе методов семплирования; классификация с помощью одиночных и ансамблевых моделей машинного обучения с автоматическим подбором параметров; оценка качества классификационного решения. Предложенный алгоритм реализован в интерактивном веб-приложении, объединяющем ядро статистических вычислений на языке R и графический пользовательский интерфейс, созданном с использованием связки современных технологий: фреймворк Shiny, JavaScript, CSS, HTML. Выполнено исследование алгоритма на реальных сельскохозяйственных данных по уровню засоренности с/х участка (выделено четыре уровня засоренности). В статьеподробно описан этап алгоритма, связанный с построением и сравнительным анализом разных вариантов одиночных и ансамблевых моделей классификации и выбором наилучшего варианта. Результаты вычислительных экспериментов показали преимущества использования ансамблевых алгоритмов по сравнению с одиночными классификаторами (повышение точности классификации) при исследовании уровня засоренности с/х участка. Наиболее эффективным по точности классификации оказался алгоритм градиентного бустинга. Значение меры AUC составило на тестовой выборке 0.8918, F-меры — 0.6246, МСС (коэффициент Мэттьюса) — 0.6260, ВА (сбалансированная точность) — 0.7951, что говорит о сравнительно высокой точности построенного классификатора. Для прогнозирования уровней засоренности с/х участков наиболее важными являются классы (уровни) «высокий» и «средний», так как эти уровни могут негативно влиять на урожайность культурных растений. Использование однородных ансамблей позволило повысить доли правильных ответов на уровне «средний» (в среднем на 15%) и на уровне «высокий» (в среднем на 24%).\n By now, numerous algorithms have been developed and studied to solve classification problems, but the issue of improving the quality (accuracy and stability) of classification results in various economic sectors, including agriculture, remains relevant. One solution to this problem is the development of algorithms and classification methodologies based on the ensemble approach. This study presents a developed multi-stage algorithm for solving the classification problem of agricultural indicators, which combines a set of intelligent data analysis and machine learning methods based on the application of ensemble models. In summary, the algorithm consists of the following main stages: initial data analysis and processing; addressing class imbalance using sampling methods; classification using single and ensemble machine learning models with automatic parameter tuning; evaluation of the classification solution's quality. The proposed algorithm has been implemented in an interactive web application that combines the core of statistical computations in the R language with a graphical user interface created using a combination of modern technologies: the Shiny framework, JavaScript, CSS, and HTML. The algorithm was tested on real agricultural data related to the levels of weediness of agricultural plots (four levels of site weediness). The article provides a detailed description of the algorithm stage associated with the construction and comparative analysis of different options for single and ensemble classification models, leading to the selection of the best-performing variant. The results of computational experiments demonstrated the advantages of using ensemble algorithms compared to single classifiers, resulting in improved classification accuracy when investigating the level of weediness of agricultural plots. The gradient boosting algorithm proved to be the most effective in terms of classification accuracy. The AUC measure achieved a value of 0.8918 on the test dataset, with an F-measure of 0.6246, Matthews correlation coefficient (MCC) of 0.6260, and balanced accuracy (BA) of 0.7951, indicating a relatively high accuracy of the constructed classifier. For predicting the level of weediness of an agricultural plot, the most important classes (levels) were “high” and “medium”, as these levels can negatively affect crop yields. Using homogeneous ensembles significantly increased the proportion of correct answers for the \"medium\" level (on average by 15%) and for the “high” level (on average by 24%).","PeriodicalId":133432,"journal":{"name":"Южно-Сибирский научный вестник","volume":"20 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Южно-Сибирский научный вестник","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25699/sssb.2023.49.3.026","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
К настоящему времени разработано и изучено множество алгоритмов для решения задач классификации, однако остается актуальной проблема повышения качества (точности, устойчивости) результатов классификации при решении прикладных задач в разных отраслях экономики, в том числе в сельском хозяйстве. Вариантом решения этой проблемы является разработка алгоритмов и методики классификации, основанных на ансамблевом подходе. В данной работе представлен разработанный многоэтапный алгоритм для решения задачи классификации сельскохозяйственных показателей, объединяющий комплекс методов интеллектуального анализа данных и машинного обучения, основанный на применении ансамблевых моделей. Укрупненно алгоритм заключается в последовательном выполнении следующих основных этапов: первичный анализ и обработка данных; устранение несбалансированности классов на основе методов семплирования; классификация с помощью одиночных и ансамблевых моделей машинного обучения с автоматическим подбором параметров; оценка качества классификационного решения. Предложенный алгоритм реализован в интерактивном веб-приложении, объединяющем ядро статистических вычислений на языке R и графический пользовательский интерфейс, созданном с использованием связки современных технологий: фреймворк Shiny, JavaScript, CSS, HTML. Выполнено исследование алгоритма на реальных сельскохозяйственных данных по уровню засоренности с/х участка (выделено четыре уровня засоренности). В статьеподробно описан этап алгоритма, связанный с построением и сравнительным анализом разных вариантов одиночных и ансамблевых моделей классификации и выбором наилучшего варианта. Результаты вычислительных экспериментов показали преимущества использования ансамблевых алгоритмов по сравнению с одиночными классификаторами (повышение точности классификации) при исследовании уровня засоренности с/х участка. Наиболее эффективным по точности классификации оказался алгоритм градиентного бустинга. Значение меры AUC составило на тестовой выборке 0.8918, F-меры — 0.6246, МСС (коэффициент Мэттьюса) — 0.6260, ВА (сбалансированная точность) — 0.7951, что говорит о сравнительно высокой точности построенного классификатора. Для прогнозирования уровней засоренности с/х участков наиболее важными являются классы (уровни) «высокий» и «средний», так как эти уровни могут негативно влиять на урожайность культурных растений. Использование однородных ансамблей позволило повысить доли правильных ответов на уровне «средний» (в среднем на 15%) и на уровне «высокий» (в среднем на 24%).
By now, numerous algorithms have been developed and studied to solve classification problems, but the issue of improving the quality (accuracy and stability) of classification results in various economic sectors, including agriculture, remains relevant. One solution to this problem is the development of algorithms and classification methodologies based on the ensemble approach. This study presents a developed multi-stage algorithm for solving the classification problem of agricultural indicators, which combines a set of intelligent data analysis and machine learning methods based on the application of ensemble models. In summary, the algorithm consists of the following main stages: initial data analysis and processing; addressing class imbalance using sampling methods; classification using single and ensemble machine learning models with automatic parameter tuning; evaluation of the classification solution's quality. The proposed algorithm has been implemented in an interactive web application that combines the core of statistical computations in the R language with a graphical user interface created using a combination of modern technologies: the Shiny framework, JavaScript, CSS, and HTML. The algorithm was tested on real agricultural data related to the levels of weediness of agricultural plots (four levels of site weediness). The article provides a detailed description of the algorithm stage associated with the construction and comparative analysis of different options for single and ensemble classification models, leading to the selection of the best-performing variant. The results of computational experiments demonstrated the advantages of using ensemble algorithms compared to single classifiers, resulting in improved classification accuracy when investigating the level of weediness of agricultural plots. The gradient boosting algorithm proved to be the most effective in terms of classification accuracy. The AUC measure achieved a value of 0.8918 on the test dataset, with an F-measure of 0.6246, Matthews correlation coefficient (MCC) of 0.6260, and balanced accuracy (BA) of 0.7951, indicating a relatively high accuracy of the constructed classifier. For predicting the level of weediness of an agricultural plot, the most important classes (levels) were “high” and “medium”, as these levels can negatively affect crop yields. Using homogeneous ensembles significantly increased the proportion of correct answers for the "medium" level (on average by 15%) and for the “high” level (on average by 24%).