{"title":"Deep learning model for metagenome fragment classification using spaced k-mers feature extraction","authors":"Nur Choiriyati, Y. Arkeman, W. Kusuma","doi":"10.14710/jtsiskom.2020.13407","DOIUrl":null,"url":null,"abstract":"Tantangan dalam analisis dunia bioinformatika adalah analisis sekuens metagenom yang diambil dari berbagai lingkungan. Proses binning pada sampel metagenom dapat dilakukan dengan menghitung frekuensi kemunculan k-mers dari suatu sekuens metagenom. Ekstraksi fitur spaced k-mers dilakukan dengan membandingkan fragmen metagenom dengan substring berukuran k atau k-mers, namun membolehkan kondisi inexact matching (don’t care position). Deep Learning muncul kembali sebagai paradigma baru dalam machine learning yang memberikan solusi terbaik untuk banyak masalah dalam pengenalan pola. Penelitian ini bertujuan untuk membandingkan kinerja dua arsitektur deep learning, yaitu DNN dan CNN, untuk klasifikasi data metagenom menggunakan spaced k-mers sebagai ekstraksi fitur. Klasifikasi dengan menggunakan deep learning memberikan hasil yang lebih baik, yaitu 90,89 % menggunakan DNN dan 88,89 % menggunakan CNN, dibandingkan dengan naive Bayes yang menghasilkan akurasi sebesar 85,42 % pada taksonomi tingkat genus.","PeriodicalId":56231,"journal":{"name":"Jurnal Teknologi dan Sistem Komputer","volume":"8 1","pages":"234-238"},"PeriodicalIF":0.0000,"publicationDate":"2020-07-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"4","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi dan Sistem Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.14710/jtsiskom.2020.13407","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 4
Abstract
Tantangan dalam analisis dunia bioinformatika adalah analisis sekuens metagenom yang diambil dari berbagai lingkungan. Proses binning pada sampel metagenom dapat dilakukan dengan menghitung frekuensi kemunculan k-mers dari suatu sekuens metagenom. Ekstraksi fitur spaced k-mers dilakukan dengan membandingkan fragmen metagenom dengan substring berukuran k atau k-mers, namun membolehkan kondisi inexact matching (don’t care position). Deep Learning muncul kembali sebagai paradigma baru dalam machine learning yang memberikan solusi terbaik untuk banyak masalah dalam pengenalan pola. Penelitian ini bertujuan untuk membandingkan kinerja dua arsitektur deep learning, yaitu DNN dan CNN, untuk klasifikasi data metagenom menggunakan spaced k-mers sebagai ekstraksi fitur. Klasifikasi dengan menggunakan deep learning memberikan hasil yang lebih baik, yaitu 90,89 % menggunakan DNN dan 88,89 % menggunakan CNN, dibandingkan dengan naive Bayes yang menghasilkan akurasi sebesar 85,42 % pada taksonomi tingkat genus.