Ridwan Ilyas, Dwi H. Widyantoro, Masayu Leylia Khodra
{"title":"科学论文中使用的字符串建设分析","authors":"Ridwan Ilyas, Dwi H. Widyantoro, Masayu Leylia Khodra","doi":"10.26874/jumanji.v2i1.44","DOIUrl":null,"url":null,"abstract":"Pembangunan mesin yang dapat membangkitkan kalimat baru dengan tingkat semantik yang tinggi namun secara penulisan berbeda (parafrasa) membutuhkan sumberdaya bahasa berupa korpus parallel. Proses pembangunan korpus memerlukan analisis awal sesuai dengan domain dari mesin yang akan dibuat. Pada penelitian ini dilakukan analis dalam pembangunan korpus berpasangan pada makalah ilmiah. Kalimat-kalimat pada makalah ilmiah memiliki karakteristik yang berbeda dengan domain lain seperti berita atau media sosial. Dari hasil proses ekstraksi awal didapatkan 590.402 kalimat isi dan 23.584 kalimat abstrak. Hasil dari penelitian ini dapat menjadi kandidat korpus yang dilakukan dengan proses terkomputerisasi.","PeriodicalId":352594,"journal":{"name":"JUMANJI (Jurnal Masyarakat Informatika Unjani)","volume":"41 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2018-06-22","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"Analisis Pembangunan Korpus Berpasangan Untuk Pembangkitan Parafrasa Pada Makalah Ilmiah\",\"authors\":\"Ridwan Ilyas, Dwi H. Widyantoro, Masayu Leylia Khodra\",\"doi\":\"10.26874/jumanji.v2i1.44\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Pembangunan mesin yang dapat membangkitkan kalimat baru dengan tingkat semantik yang tinggi namun secara penulisan berbeda (parafrasa) membutuhkan sumberdaya bahasa berupa korpus parallel. Proses pembangunan korpus memerlukan analisis awal sesuai dengan domain dari mesin yang akan dibuat. Pada penelitian ini dilakukan analis dalam pembangunan korpus berpasangan pada makalah ilmiah. Kalimat-kalimat pada makalah ilmiah memiliki karakteristik yang berbeda dengan domain lain seperti berita atau media sosial. Dari hasil proses ekstraksi awal didapatkan 590.402 kalimat isi dan 23.584 kalimat abstrak. Hasil dari penelitian ini dapat menjadi kandidat korpus yang dilakukan dengan proses terkomputerisasi.\",\"PeriodicalId\":352594,\"journal\":{\"name\":\"JUMANJI (Jurnal Masyarakat Informatika Unjani)\",\"volume\":\"41 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2018-06-22\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"JUMANJI (Jurnal Masyarakat Informatika Unjani)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.26874/jumanji.v2i1.44\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"JUMANJI (Jurnal Masyarakat Informatika Unjani)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.26874/jumanji.v2i1.44","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Analisis Pembangunan Korpus Berpasangan Untuk Pembangkitan Parafrasa Pada Makalah Ilmiah
Pembangunan mesin yang dapat membangkitkan kalimat baru dengan tingkat semantik yang tinggi namun secara penulisan berbeda (parafrasa) membutuhkan sumberdaya bahasa berupa korpus parallel. Proses pembangunan korpus memerlukan analisis awal sesuai dengan domain dari mesin yang akan dibuat. Pada penelitian ini dilakukan analis dalam pembangunan korpus berpasangan pada makalah ilmiah. Kalimat-kalimat pada makalah ilmiah memiliki karakteristik yang berbeda dengan domain lain seperti berita atau media sosial. Dari hasil proses ekstraksi awal didapatkan 590.402 kalimat isi dan 23.584 kalimat abstrak. Hasil dari penelitian ini dapat menjadi kandidat korpus yang dilakukan dengan proses terkomputerisasi.