Vision Transformer untuk Klasifikasi Kematangan Pisang

Arya Pangestu, Bedy Purnama, Risnandar Risnandar
{"title":"Vision Transformer untuk Klasifikasi Kematangan Pisang","authors":"Arya Pangestu, Bedy Purnama, Risnandar Risnandar","doi":"10.25126/jtiik.20241117389","DOIUrl":null,"url":null,"abstract":"Produksi pisang di Indonesia pada tahun 2022 mencapai 9,6 juta ton buah. Metode konvensional yang digunakan untuk menentukan tingkat kematangan pisang masih mengandalkan indera penglihatan manusia dengan memperhatikan perubahan warna kulit pisang. Namun, penentuan tingkat kematangan pisang dengan metode ini memiliki beberapa kekurangan, seperti waktu yang lama, penilaian yang bersifat subjektif dan dapat menghasilkan hasil yang berbeda-beda bagi setiap individu. Oleh karena itu, teknologi computer vision dapat menjadi solusi yang efektif dalam mengklasifikasikan kematangan buah pisang secara otomatis. Penelitian ini menggunakan metodologi Vision Transformer (ViT) untuk mengklasifikasikan tingkat kematangan pada buah pisang, dengan tingkatan yang dibagi menjadi empat kategori, yaitu mentah, setengah matang, matang, dan terlalu matang. Penelitian dilakukan dengan menggunakan lima model ViT yang sudah dilatih sebelumnya atau pre-trained, yaitu ViT-B/16, ViT-B/32, ViT-L/16, ViT-L/32, and ViT-H/14 pada ImageNet-21k dan ImageNet-1k. Kemudian, model ViT tersebut dievaluasi dan dibandingkan dengan model CNN. Evaluasi dilakukan menggunakan metode cross-dataset dengan 5.068 citra pisang yang berbeda dari dataset latih. Hasil evaluasi menunjukkan model ViTL/16-in21k memiliki akurasi tertinggi sebesar 91,61%. Model ViT menunjukkan kemampuan generalisasi yang lebih baik, sementara CNN memiliki ukuran model dan waktu pelatihan yang lebih efisien.","PeriodicalId":32501,"journal":{"name":"Jurnal Teknologi Informasi dan Ilmu Komputer","volume":"2007 36","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-02-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi Informasi dan Ilmu Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25126/jtiik.20241117389","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Produksi pisang di Indonesia pada tahun 2022 mencapai 9,6 juta ton buah. Metode konvensional yang digunakan untuk menentukan tingkat kematangan pisang masih mengandalkan indera penglihatan manusia dengan memperhatikan perubahan warna kulit pisang. Namun, penentuan tingkat kematangan pisang dengan metode ini memiliki beberapa kekurangan, seperti waktu yang lama, penilaian yang bersifat subjektif dan dapat menghasilkan hasil yang berbeda-beda bagi setiap individu. Oleh karena itu, teknologi computer vision dapat menjadi solusi yang efektif dalam mengklasifikasikan kematangan buah pisang secara otomatis. Penelitian ini menggunakan metodologi Vision Transformer (ViT) untuk mengklasifikasikan tingkat kematangan pada buah pisang, dengan tingkatan yang dibagi menjadi empat kategori, yaitu mentah, setengah matang, matang, dan terlalu matang. Penelitian dilakukan dengan menggunakan lima model ViT yang sudah dilatih sebelumnya atau pre-trained, yaitu ViT-B/16, ViT-B/32, ViT-L/16, ViT-L/32, and ViT-H/14 pada ImageNet-21k dan ImageNet-1k. Kemudian, model ViT tersebut dievaluasi dan dibandingkan dengan model CNN. Evaluasi dilakukan menggunakan metode cross-dataset dengan 5.068 citra pisang yang berbeda dari dataset latih. Hasil evaluasi menunjukkan model ViTL/16-in21k memiliki akurasi tertinggi sebesar 91,61%. Model ViT menunjukkan kemampuan generalisasi yang lebih baik, sementara CNN memiliki ukuran model dan waktu pelatihan yang lebih efisien.
用于香蕉成熟度分类的视觉转换器
2022 年,印度尼西亚的香蕉产量将达到 960 万吨。确定香蕉成熟度的传统方法仍然依赖于人的视觉,即观察香蕉表皮颜色的变化。然而,用这种方法确定香蕉的成熟度有几个缺点,如时间长、判断主观、每个人的结果可能不同。因此,计算机视觉技术可以有效地自动对香蕉的成熟度进行分类。本研究采用视觉变换器(ViT)方法对香蕉的成熟度进行分类,分为未熟、半熟、成熟和过熟四个等级。研究在 ImageNet-21k 和 ImageNet-1k 上使用了五个预先训练好的 ViT 模型,即 ViT-B/16、ViT-B/32、ViT-L/16、ViT-L/32 和 ViT-H/14。然后,对 ViT 模型进行评估,并与 CNN 模型进行比较。评估采用交叉数据集方法,从训练数据集中选取了 5,068 张不同的香蕉图像。评估结果表明,ViTL/16-in21k 模型的准确率最高,达到 91.61%。ViT 模型的泛化能力更强,而 CNN 的模型大小和训练时间更有效。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
审稿时长
16 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信