{"title":"Pemodelan Topik Menggunakan n-Gram dan Non-negative Matrix Factorization","authors":"Razief Perucha, Fauzie Afidh, Syahrial","doi":"10.60083/jidt.v5i1.385","DOIUrl":null,"url":null,"abstract":"Pemodelan topik merupakan teknik pembelajaran mesin yang digunakan untuk melihat topik dalam sekumpulan dokumen teks. Pada penelitian ini pemodelan topik yang digunakan adalah Non-Negative Matrix Factorization (NMF) dengan n-gram. Preprocessing seperti penghilangan tanda baca, angka dan stopword diimplementasikan pada penelitian ini. Proses ini dilakukan dengan terlebih dahulu mengubah kata yang terdapat dalam artikel menjadi kata berhuruf kecil. Penelitian ini juga mengeksplorasi keefektifan penerapan unigram, bigram, dan trigram pada pemodelan topik. Pada penelitian ini juga menggunakan coherence value untuk menentukan jumlah topik terbaik yang dapat dibentuk. Data yang digunakan pada penelitian ini berjumlah 53.920 artikel berita yang bersumber dari portal berita RMOL.id dan BeritaSatu.com untuk periode Juli sampai Desember 2022. Visualisasi t-SNE digunakan untuk melihat distribusi pembentukan topik. Berdasarkan hasil penelitian yang dilakukan diperoleh bahwa jumlah topik yang dapat dibentuk dari RMOL.id untuk unigram adalah 15 topik dengan nilai coherence value 0.812748, bigram adalah 10 topik dengan nilai coherence value 0.835738 dan trigram adalah 7 topik dengan nilai coherence value 0.830572. Sedangkan pada BeritaSatu.com diperoleh 10 topik untuk unigram dengan nilai coherence value 0.799718, bigram 15 topik dengan nilai coherence value 0.788762 dan trigram 15 topik dengan nilai coherence value 0.801935.","PeriodicalId":33488,"journal":{"name":"JTIT Jurnal Teknologi Informasi dan Terapan","volume":"147 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-09-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"JTIT Jurnal Teknologi Informasi dan Terapan","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.60083/jidt.v5i1.385","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Pemodelan topik merupakan teknik pembelajaran mesin yang digunakan untuk melihat topik dalam sekumpulan dokumen teks. Pada penelitian ini pemodelan topik yang digunakan adalah Non-Negative Matrix Factorization (NMF) dengan n-gram. Preprocessing seperti penghilangan tanda baca, angka dan stopword diimplementasikan pada penelitian ini. Proses ini dilakukan dengan terlebih dahulu mengubah kata yang terdapat dalam artikel menjadi kata berhuruf kecil. Penelitian ini juga mengeksplorasi keefektifan penerapan unigram, bigram, dan trigram pada pemodelan topik. Pada penelitian ini juga menggunakan coherence value untuk menentukan jumlah topik terbaik yang dapat dibentuk. Data yang digunakan pada penelitian ini berjumlah 53.920 artikel berita yang bersumber dari portal berita RMOL.id dan BeritaSatu.com untuk periode Juli sampai Desember 2022. Visualisasi t-SNE digunakan untuk melihat distribusi pembentukan topik. Berdasarkan hasil penelitian yang dilakukan diperoleh bahwa jumlah topik yang dapat dibentuk dari RMOL.id untuk unigram adalah 15 topik dengan nilai coherence value 0.812748, bigram adalah 10 topik dengan nilai coherence value 0.835738 dan trigram adalah 7 topik dengan nilai coherence value 0.830572. Sedangkan pada BeritaSatu.com diperoleh 10 topik untuk unigram dengan nilai coherence value 0.799718, bigram 15 topik dengan nilai coherence value 0.788762 dan trigram 15 topik dengan nilai coherence value 0.801935.