Analisa Kinerja Algoritma Random Forest Classifier dengan Mutual Information dan Skip-Gram pada Klasifikasi Jurnal INIS

Mufidah Karimah, Achmad Hindasyah, Taswanda Taryo
{"title":"Analisa Kinerja Algoritma Random Forest Classifier dengan Mutual Information dan Skip-Gram pada Klasifikasi Jurnal INIS","authors":"Mufidah Karimah, Achmad Hindasyah, Taswanda Taryo","doi":"10.51213/jimp.v7i3.638","DOIUrl":null,"url":null,"abstract":"Supervised learning adalah teknik yang bergantung pada masukan berlabel untuk mempelajari suatu fungsi dan menghasilkan keluaran yang sesuai apabila diberi data baru tanpa label. Penggunaan algoritma supervised learning sering dibutuhkan dalam berbagai kondisi, salah satunya yakni mengklasifikasikan dokumen. INIS adalah salah satu perpustakaan digital yang dianggap masih melakukan pengklasifikasian dokumen secara manual dan membutuhkan pengotomatisasian klasifikasi dokumen. Hal ini mengakibatkan proses pengelompokkan memakan waktu yang relatif lama dan terdapat banyak kendala karena banyaknya jumlah dokumen. Penelitian ini memiliki tujuan utama untuk menentukan algoritma yang memiliki kinerja dan akurasi terbaik agar dapat diimplementasikan dalam proses pengklasifikasian dokumen ilmiah. Penelitian ini menggunakan kombinasi algoritma Random Forest (RF) dengan Skip-Gram (SG) dan Mutual Information (MI) sebagai metode ekstraksi fitur dan metode seleksi fitur. Hasil menunjukkan bahwa kumpulan data yang digunakan dapat mempengaruhi kinerja suatu algoritma. Selain itu pada penelitian ini menunjukkan bahwa presentase kinerja dari algoritma Random Forest dan Skip-Gram lebih baik jika dikombinasikan dengan seleksi fitur daripada tidak menggunakan seleksi fitur. Penggunaan seleksi fitur pada Random Forest dan Skip-Gram dalam penelitian ini juga menunjukkan presentase kinerja lebih stabil jika dibandingkan dengan kinerja Random Forest dan Skip-Gram tanpa fitur seleksi.","PeriodicalId":484241,"journal":{"name":"JIMP (Jurnal Informatika Merdeka Pasuruan)","volume":"14 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"JIMP (Jurnal Informatika Merdeka Pasuruan)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.51213/jimp.v7i3.638","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Supervised learning adalah teknik yang bergantung pada masukan berlabel untuk mempelajari suatu fungsi dan menghasilkan keluaran yang sesuai apabila diberi data baru tanpa label. Penggunaan algoritma supervised learning sering dibutuhkan dalam berbagai kondisi, salah satunya yakni mengklasifikasikan dokumen. INIS adalah salah satu perpustakaan digital yang dianggap masih melakukan pengklasifikasian dokumen secara manual dan membutuhkan pengotomatisasian klasifikasi dokumen. Hal ini mengakibatkan proses pengelompokkan memakan waktu yang relatif lama dan terdapat banyak kendala karena banyaknya jumlah dokumen. Penelitian ini memiliki tujuan utama untuk menentukan algoritma yang memiliki kinerja dan akurasi terbaik agar dapat diimplementasikan dalam proses pengklasifikasian dokumen ilmiah. Penelitian ini menggunakan kombinasi algoritma Random Forest (RF) dengan Skip-Gram (SG) dan Mutual Information (MI) sebagai metode ekstraksi fitur dan metode seleksi fitur. Hasil menunjukkan bahwa kumpulan data yang digunakan dapat mempengaruhi kinerja suatu algoritma. Selain itu pada penelitian ini menunjukkan bahwa presentase kinerja dari algoritma Random Forest dan Skip-Gram lebih baik jika dikombinasikan dengan seleksi fitur daripada tidak menggunakan seleksi fitur. Penggunaan seleksi fitur pada Random Forest dan Skip-Gram dalam penelitian ini juga menunjukkan presentase kinerja lebih stabil jika dibandingkan dengan kinerja Random Forest dan Skip-Gram tanpa fitur seleksi.
带有互信息和跳格的随机森林分类器算法在 INIS 期刊分类中的性能分析
超常学习是一种依赖标签输入来学习功能并在没有标签的新数据下产生相应的输出的技术。在不同情况下,使用超常学习算法往往是必要的,包括对文件的分类。INIS是其中一个数字图书馆,被认为仍然在手动分类文件,需要对文件的分类进行自动化。这导致了相对较长的分组过程,由于文档数量的增加而存在许多障碍。本研究的主要目的是确定一种具有最佳表现和准确性的算法,以便在科学文献的分类过程中执行。该研究使用随机森林算法(射频)、跳克(SG)和互惠信息(MI)组合进行特征提取和功能选择方法。结果表明,所使用的数据集可能会影响算法的性能。此外,研究表明,随机森林和锯齿形图算法的性能与特征选择相结合比不使用特性选择要好。在本研究中使用随机森林和生肖图克的特征选择也显示,与没有选择特征的随机森林和生肖表现相比,表现表现更加稳定。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信