SPECTROSCOPY DATA CALIBRATION USING STACKED ENSEMBLE MACHINE LEARNING

IF 0.7 Q3 ENGINEERING, MULTIDISCIPLINARY

IIUM Engineering Journal Pub Date : 2024-01-01 DOI:10.31436/iiumej.v25i1.2796

Mahmud Iwan Solihin, Chan Jin Yuan, Wan Siu Hong, L. Pui, A. Kit, Wafa Hossain, A. Machmudah

{"title":"SPECTROSCOPY DATA CALIBRATION USING STACKED ENSEMBLE MACHINE LEARNING","authors":"Mahmud Iwan Solihin, Chan Jin Yuan, Wan Siu Hong, L. Pui, A. Kit, Wafa Hossain, A. Machmudah","doi":"10.31436/iiumej.v25i1.2796","DOIUrl":null,"url":null,"abstract":"Near infrared spectroscopy (NIRS) is a widely used analytical technique for non-destructive analysis of various materials including food fraud detection. However, the accurate calibration of NIRS data can be challenging due to the complexity of the underlying relationships between the spectral data and the target variables of interest. Ensemble learning, which combines multiple models to make predictions, has been shown to improve the accuracy and robustness of predictive models in various domains. This paper proposes stacking ensemble machine learning (SEML) for calibration of NIRS data with two levels of learning involved. Eight (8) spectroscopy datasets from public repository and previously published works by the authors are used as the case study. The model well generalized the data in the respective regression tasks with of at least »0.8 in the test samples and in the respective classification tasks with classification accuracy (CA) of at least »0.8 also. In addition, the proposed SEML can improve, or at least reach par with, the accuracy of individual base learners in both train and test samples for all cases of regression and classification datasets. It shows superior performance in test samples for both regression and classification datasets with respectively ranging from 0.86 to nearly 1 and CA ranging from 0.89 to 1. ABSTRAK: Spektroskopi inframerah dekat (NIRS) adalah teknik analitikal yang banyak digunakan bagi analisa pelbagai bahan tanpa merosakkan bahan termasuk ketika mengesan penipuan makanan. Walau bagaimanapun, kalibrasi yang tepat bagi data NIRS adalah sangat mencabar kerana hubungan antara data spektral dan pemboleh ubah sasaran yang ingin dikaji bersifat kompleks. Gabungan pembelajaran (Ensemble learning), iaitu gabungan pelbagai model bagi membuat prediksi, telah terbukti dapat meningkatkan ketepatan dan kecekapan model prediksi dalam pelbagai bentuk. Kajian ini mencadangkan Turutan Gabungan Pembelajaran Mesin (Stacking Ensemble Machine Learning ) (SEML), bagi teknik penentu ukuran data NIRS melibatkan dua tahap pembelajaran. Lapan (8) set data spektroskopi dari repositori awam dan kajian terdahulu oleh pengarang telah digunakan sebagai kes kajian. Model ini menggeneralisasi data dalam tugas regresi masing-masing sebanyak ?0.8 bagi sampel ujian dan pengelasan tugas masing-masing dengan ketepatan klasifikasi (CA) sekurang-kurangnya ?0.8. Tambahan, SEML yang dicadangkan ini dapat membantu, atau sekurang-kurangnya setanding dengan ketepatan individu dalam pembelajaran berkumpulan dalam kedua-dua sampel latihan dan ujian bagi semua kes set data regresi dan klasifikasi. Ia menunjukkan prestasi terbaik dalam sampel ujian bagi kedua-dua kumpulan set data regresi dan klasifikasi dengan masing-masing antara 0.86 hingga hampir 1 dan antara julat 0.89 hingga 1 bagi CA.","PeriodicalId":13439,"journal":{"name":"IIUM Engineering Journal","volume":"53 22","pages":""},"PeriodicalIF":0.7000,"publicationDate":"2024-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"IIUM Engineering Journal","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31436/iiumej.v25i1.2796","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"ENGINEERING, MULTIDISCIPLINARY","Score":null,"Total":0}

引用次数: 0

Abstract

Near infrared spectroscopy (NIRS) is a widely used analytical technique for non-destructive analysis of various materials including food fraud detection. However, the accurate calibration of NIRS data can be challenging due to the complexity of the underlying relationships between the spectral data and the target variables of interest. Ensemble learning, which combines multiple models to make predictions, has been shown to improve the accuracy and robustness of predictive models in various domains. This paper proposes stacking ensemble machine learning (SEML) for calibration of NIRS data with two levels of learning involved. Eight (8) spectroscopy datasets from public repository and previously published works by the authors are used as the case study. The model well generalized the data in the respective regression tasks with of at least »0.8 in the test samples and in the respective classification tasks with classification accuracy (CA) of at least »0.8 also. In addition, the proposed SEML can improve, or at least reach par with, the accuracy of individual base learners in both train and test samples for all cases of regression and classification datasets. It shows superior performance in test samples for both regression and classification datasets with respectively ranging from 0.86 to nearly 1 and CA ranging from 0.89 to 1. ABSTRAK: Spektroskopi inframerah dekat (NIRS) adalah teknik analitikal yang banyak digunakan bagi analisa pelbagai bahan tanpa merosakkan bahan termasuk ketika mengesan penipuan makanan. Walau bagaimanapun, kalibrasi yang tepat bagi data NIRS adalah sangat mencabar kerana hubungan antara data spektral dan pemboleh ubah sasaran yang ingin dikaji bersifat kompleks. Gabungan pembelajaran (Ensemble learning), iaitu gabungan pelbagai model bagi membuat prediksi, telah terbukti dapat meningkatkan ketepatan dan kecekapan model prediksi dalam pelbagai bentuk. Kajian ini mencadangkan Turutan Gabungan Pembelajaran Mesin (Stacking Ensemble Machine Learning ) (SEML), bagi teknik penentu ukuran data NIRS melibatkan dua tahap pembelajaran. Lapan (8) set data spektroskopi dari repositori awam dan kajian terdahulu oleh pengarang telah digunakan sebagai kes kajian. Model ini menggeneralisasi data dalam tugas regresi masing-masing sebanyak ?0.8 bagi sampel ujian dan pengelasan tugas masing-masing dengan ketepatan klasifikasi (CA) sekurang-kurangnya ?0.8. Tambahan, SEML yang dicadangkan ini dapat membantu, atau sekurang-kurangnya setanding dengan ketepatan individu dalam pembelajaran berkumpulan dalam kedua-dua sampel latihan dan ujian bagi semua kes set data regresi dan klasifikasi. Ia menunjukkan prestasi terbaik dalam sampel ujian bagi kedua-dua kumpulan set data regresi dan klasifikasi dengan masing-masing antara 0.86 hingga hampir 1 dan antara julat 0.89 hingga 1 bagi CA.

查看原文本刊更多论文

利用堆叠集合机器学习校准光谱数据

近红外光谱（NIRS）是一种广泛应用的分析技术，用于对各种材料进行非破坏性分析，包括食品欺诈检测。然而，由于光谱数据与相关目标变量之间潜在关系的复杂性，准确校准近红外光谱数据可能具有挑战性。集合学习将多个模型结合起来进行预测，已被证明可以提高各领域预测模型的准确性和鲁棒性。本文提出了用于校准近红外光谱数据的堆叠集合机器学习（SEML），涉及两个层次的学习。八（8）个光谱数据集来自公共资料库和作者以前发表的作品，作为案例研究。在各自的回归任务中，该模型很好地概括了数据，测试样本的回归精度至少为 "0.8"；在各自的分类任务中，分类精度（CA）也至少为 "0.8"。此外，在回归和分类数据集的所有情况下，所提出的 SEML 都能在训练样本和测试样本中提高单个基础学习器的准确率，或至少与之持平。在回归和分类数据集的测试样本中，它都表现出了卓越的性能，分别从 0.86 到接近 1 不等，CA 从 0.89 到 1 不等。摘要近红外光谱（NIRS）是一种广泛使用的分析技术，可在不破坏材料的情况下分析各种材料，包括检测食品欺诈。然而，精确校准近红外光谱数据非常具有挑战性，因为光谱数据与要研究的目标变量之间的关系非常复杂。集合学习，即结合各种模型进行预测，已被证明能以各种形式提高预测模型的准确性和稳健性。本研究针对近红外光谱数据大小确定技术提出了堆叠集合机器学习（SEML），涉及两个学习阶段。八（8）个光谱数据集来自公共资料库和作者以前的研究作为研究案例。在回归任务中，该模型对测试样本和焊接任务的数据的泛化程度分别至少为 0.8%和 0.8%，分类准确度（CA）至少为 0.8%。此外，在所有回归和分类数据集的训练样本和测试样本中，所提出的 SEML 都能帮助或至少匹配集合学习中的个体准确性。它在回归和分类数据集的测试样本中表现最佳，CA 值分别在 0.86 到接近 1 之间和 0.89 到 1 之间。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

IIUM Engineering Journal ENGINEERING, MULTIDISCIPLINARY-

CiteScore

2.10

自引率

20.00%

发文量

审稿时长

40 weeks

期刊介绍： The IIUM Engineering Journal, published biannually (June and December), is a peer-reviewed open-access journal of the Faculty of Engineering, International Islamic University Malaysia (IIUM). The IIUM Engineering Journal publishes original research findings as regular papers, review papers (by invitation). The Journal provides a platform for Engineers, Researchers, Academicians, and Practitioners who are highly motivated in contributing to the Engineering disciplines, and Applied Sciences. It also welcomes contributions that address solutions to the specific challenges of the developing world, and address science and technology issues from an Islamic and multidisciplinary perspective. Subject areas suitable for publication are as follows: -Chemical and Biotechnology Engineering -Civil and Environmental Engineering -Computer Science and Information Technology -Electrical, Computer, and Communications Engineering -Engineering Mathematics and Applied Science -Materials and Manufacturing Engineering -Mechanical and Aerospace Engineering -Mechatronics and Automation Engineering