Syabith Umar Ahdan, Joan Santoso, Hendrawan Armanto
{"title":"网络内容提取器——蒙古那坎神经网络","authors":"Syabith Umar Ahdan, Joan Santoso, Hendrawan Armanto","doi":"10.52985/insyst.v3i2.195","DOIUrl":null,"url":null,"abstract":"Berkembangnya teknologi Javascript khususnya AJAX dan CSS membuat halaman web yang dulunya statis menjadi lebih dinamis dengan tampilan yang lebih menarik dan dipenuhi iklan dan rekomendasi artikel lain. Oleh karena itu, sulit untuk mengotomatisasi proses pengambilan konten artikel pada konteks ini. Penelitian ini dibuat untuk menyelesaikan masalah otomatisasi pengambilan konten artikel di Internet. Aplikasi web yang akan dibuat terbagi menjadi empat modul, yaitu web crawler, web extractor, content classifier dan web visualizer. Penelitian ini memiliki dua desain arsitektur. Arsitektur yang pertama adalah arsitektur saat training. Arsitektur yang kedua adalah arsitektur program jadi. Proses training menggunakan 200 URL halaman web dari lima website berbeda. Metode pengujian yang akan digunakan adalah 4-Fold Cross Validation, sehingga 75% dari blok teks akan menjadi data latihan dan 25% dari blok teks akan menjadi data pengujian. Program jadi berupa Web Visualizer yang mengolah JSON file berisi hubungan antara halaman web yang didapatkan dari web crawler sehingga dapat dipresentasikan dalam sebuah grafik. Kesimpulan dari penelitian ini adalah bahwa kombinasi Scrapy, Splash, Neural Network Classifier dan D3 bekerja sangat baik untuk automasi ekstraksi konten artikel website di Internet sekaligus memvisualisasi hubungan antar halaman web. Deep Feed Forward Neural Network (DFFNN) dapat melakukan klasifikasi multi-class konten judul, penulis, dan isi artikel dengan baik selama template halaman web sudah pernah dilatih sebelumnya. DFFNN juga dapat melakukan klasifikasi binari untuk halaman web secara umum dengan F1-score 62.87%, dua kali lebih baik dari SVM yang hanya 31.28%.","PeriodicalId":183705,"journal":{"name":"Journal of Intelligent System and Computation","volume":"119 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-10-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Web Content Extractor Menggunakan Neural Network untuk Konten Artikel di Internet\",\"authors\":\"Syabith Umar Ahdan, Joan Santoso, Hendrawan Armanto\",\"doi\":\"10.52985/insyst.v3i2.195\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Berkembangnya teknologi Javascript khususnya AJAX dan CSS membuat halaman web yang dulunya statis menjadi lebih dinamis dengan tampilan yang lebih menarik dan dipenuhi iklan dan rekomendasi artikel lain. Oleh karena itu, sulit untuk mengotomatisasi proses pengambilan konten artikel pada konteks ini. Penelitian ini dibuat untuk menyelesaikan masalah otomatisasi pengambilan konten artikel di Internet. Aplikasi web yang akan dibuat terbagi menjadi empat modul, yaitu web crawler, web extractor, content classifier dan web visualizer. Penelitian ini memiliki dua desain arsitektur. Arsitektur yang pertama adalah arsitektur saat training. Arsitektur yang kedua adalah arsitektur program jadi. Proses training menggunakan 200 URL halaman web dari lima website berbeda. Metode pengujian yang akan digunakan adalah 4-Fold Cross Validation, sehingga 75% dari blok teks akan menjadi data latihan dan 25% dari blok teks akan menjadi data pengujian. Program jadi berupa Web Visualizer yang mengolah JSON file berisi hubungan antara halaman web yang didapatkan dari web crawler sehingga dapat dipresentasikan dalam sebuah grafik. Kesimpulan dari penelitian ini adalah bahwa kombinasi Scrapy, Splash, Neural Network Classifier dan D3 bekerja sangat baik untuk automasi ekstraksi konten artikel website di Internet sekaligus memvisualisasi hubungan antar halaman web. Deep Feed Forward Neural Network (DFFNN) dapat melakukan klasifikasi multi-class konten judul, penulis, dan isi artikel dengan baik selama template halaman web sudah pernah dilatih sebelumnya. DFFNN juga dapat melakukan klasifikasi binari untuk halaman web secara umum dengan F1-score 62.87%, dua kali lebih baik dari SVM yang hanya 31.28%.\",\"PeriodicalId\":183705,\"journal\":{\"name\":\"Journal of Intelligent System and Computation\",\"volume\":\"119 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2021-10-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Journal of Intelligent System and Computation\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.52985/insyst.v3i2.195\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Intelligent System and Computation","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.52985/insyst.v3i2.195","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Web Content Extractor Menggunakan Neural Network untuk Konten Artikel di Internet
Berkembangnya teknologi Javascript khususnya AJAX dan CSS membuat halaman web yang dulunya statis menjadi lebih dinamis dengan tampilan yang lebih menarik dan dipenuhi iklan dan rekomendasi artikel lain. Oleh karena itu, sulit untuk mengotomatisasi proses pengambilan konten artikel pada konteks ini. Penelitian ini dibuat untuk menyelesaikan masalah otomatisasi pengambilan konten artikel di Internet. Aplikasi web yang akan dibuat terbagi menjadi empat modul, yaitu web crawler, web extractor, content classifier dan web visualizer. Penelitian ini memiliki dua desain arsitektur. Arsitektur yang pertama adalah arsitektur saat training. Arsitektur yang kedua adalah arsitektur program jadi. Proses training menggunakan 200 URL halaman web dari lima website berbeda. Metode pengujian yang akan digunakan adalah 4-Fold Cross Validation, sehingga 75% dari blok teks akan menjadi data latihan dan 25% dari blok teks akan menjadi data pengujian. Program jadi berupa Web Visualizer yang mengolah JSON file berisi hubungan antara halaman web yang didapatkan dari web crawler sehingga dapat dipresentasikan dalam sebuah grafik. Kesimpulan dari penelitian ini adalah bahwa kombinasi Scrapy, Splash, Neural Network Classifier dan D3 bekerja sangat baik untuk automasi ekstraksi konten artikel website di Internet sekaligus memvisualisasi hubungan antar halaman web. Deep Feed Forward Neural Network (DFFNN) dapat melakukan klasifikasi multi-class konten judul, penulis, dan isi artikel dengan baik selama template halaman web sudah pernah dilatih sebelumnya. DFFNN juga dapat melakukan klasifikasi binari untuk halaman web secara umum dengan F1-score 62.87%, dua kali lebih baik dari SVM yang hanya 31.28%.