Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF System Penerimaan Mahasiswa Baru pada Kampus Swasta

Apriani Apriani, Hizbu Zakiyudin, Khairan Marzuki
{"title":"Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF System Penerimaan Mahasiswa Baru pada Kampus Swasta","authors":"Apriani Apriani, Hizbu Zakiyudin, Khairan Marzuki","doi":"10.30812/bite.v3i1.1110","DOIUrl":null,"url":null,"abstract":"Era globalisasi ditandai dengan perkembangan teknologi dan informasi, hal ini berimbas pada kebutuhan manusia akan informasi. PMB (Penerimaan Mahasiswa Baru) merupakan aktivitas rutin perguruan tinggi pada setiap pembukaan ajaran baru. Pelaksanaan PMB tidak luput dari berbagai pertanyaan yang sudah pernah ditanyakan sebelumnya. Dengan memanfaatkan teknologi informasi maka lahirlah FAQ (Frequently Asked Question) yang berisikan jawaban dari pertanyaan yang sering dilontarkan oleh orang-orang yang membutuhkan informasi. Untuk mengurangi beban pihak PMB dalam menjawab pertanyaan secara berulang-ulang, maka dibangunlah sistem penjawab FAQ dengan menerapkan pembobotan TF-IDF (Term FrequencyInverse Document Frequency) dan algoritma cosine similarity. Pembobotan TFIDF merupakan metode untuk memberikan bobot hubungan suatu kata (term) terhadap suatu dokumen berdasarkan dua konsep, yaitu frekuensi kemunculan kata di dalam sebuah dokumen dan inverse frekuensi dokumen yang mengandung kata tersebut. Sedangkan cosine similarity merupakan metode yang digunakan untuk menghitung tingkat kesamaan (similarity) antar dua buah objek. Metode ini menghitung similarity antara dua buah objek yang dinyatakan dalam dua buah vektor dengan menggunakan kata kunci (keyword) dari sebuah dokumen sebagai ukuran. Penelitian ini menggunakan 7 buah sampel data dari keseluruhan data FAQ yang didapat dari wawancara dengan Ibu Susilawati, S.Kom. Data sampel yang digunakan akan melalui proses preprocessing, pembobotan TF-IDF, dan metode cosine similarity untuk menentukan tingkat kesamaan tertinggi yang nantinya akan keluar sebagai hasil akhir. Dengan menggunakan pembobotan TF-IDF dan metode cosine similarity pada 7 data sampel bisa mendapatkan tingkat akurasi hingga mencapai 64.28%.","PeriodicalId":229665,"journal":{"name":"Jurnal Bumigora Information Technology (BITe)","volume":"109 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-07-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"6","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Bumigora Information Technology (BITe)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.30812/bite.v3i1.1110","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 6

Abstract

Era globalisasi ditandai dengan perkembangan teknologi dan informasi, hal ini berimbas pada kebutuhan manusia akan informasi. PMB (Penerimaan Mahasiswa Baru) merupakan aktivitas rutin perguruan tinggi pada setiap pembukaan ajaran baru. Pelaksanaan PMB tidak luput dari berbagai pertanyaan yang sudah pernah ditanyakan sebelumnya. Dengan memanfaatkan teknologi informasi maka lahirlah FAQ (Frequently Asked Question) yang berisikan jawaban dari pertanyaan yang sering dilontarkan oleh orang-orang yang membutuhkan informasi. Untuk mengurangi beban pihak PMB dalam menjawab pertanyaan secara berulang-ulang, maka dibangunlah sistem penjawab FAQ dengan menerapkan pembobotan TF-IDF (Term FrequencyInverse Document Frequency) dan algoritma cosine similarity. Pembobotan TFIDF merupakan metode untuk memberikan bobot hubungan suatu kata (term) terhadap suatu dokumen berdasarkan dua konsep, yaitu frekuensi kemunculan kata di dalam sebuah dokumen dan inverse frekuensi dokumen yang mengandung kata tersebut. Sedangkan cosine similarity merupakan metode yang digunakan untuk menghitung tingkat kesamaan (similarity) antar dua buah objek. Metode ini menghitung similarity antara dua buah objek yang dinyatakan dalam dua buah vektor dengan menggunakan kata kunci (keyword) dari sebuah dokumen sebagai ukuran. Penelitian ini menggunakan 7 buah sampel data dari keseluruhan data FAQ yang didapat dari wawancara dengan Ibu Susilawati, S.Kom. Data sampel yang digunakan akan melalui proses preprocessing, pembobotan TF-IDF, dan metode cosine similarity untuk menentukan tingkat kesamaan tertinggi yang nantinya akan keluar sebagai hasil akhir. Dengan menggunakan pembobotan TF-IDF dan metode cosine similarity pada 7 data sampel bisa mendapatkan tingkat akurasi hingga mencapai 64.28%.
全球化时代的特点是技术和信息的发展,它影响了人类对信息的需求。PMB(招收新生)是大学在每一个新教义的开幕式上的常规活动。PMB的执行并没有逃避之前提出的问题。通过利用信息技术,出现了常见的问题,其中包含了需要信息的人经常提出的问题的答案。为了减少PMB党重复回答问题的负担,于是通过使用TF-IDF集合体(Term频率文件频率)和共生体算法建立了一个常见系统。教女动物TFIDF是给有关系词权重方法(期限)对一个基于文件里,就是两个概念一词的出现频率和inverse文件的文件含有这个词的频率。而共生体是一种用来计算两个物体之间相似度的方法。这种方法通过使用文件的关键字来计算两个载体中陈述的对象之间的相似之处。这项研究用了7水果整体的数据样本的FAQ妈妈Susilawati采访,S库姆。使用的样本数据将通过预处理过程、脱去tf idf的方法和同能方法确定最终结果中最高的相似性水平。通过使用TF-IDF破解和7样本数据相似的cosine方法,可以获得64.28%的准确率。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信