印尼语数据中的意图分类和命名实体识别与双重意图和实体转换器相结合

Zahrah Annisa, R. Perdana, Putra Pandu Adikara
{"title":"印尼语数据中的意图分类和命名实体识别与双重意图和实体转换器相结合","authors":"Zahrah Annisa, R. Perdana, Putra Pandu Adikara","doi":"10.25126/jtiik.1077985","DOIUrl":null,"url":null,"abstract":"Pelayanan pelanggan atau customer service adalah sebuah bentuk upaya pemenuhan keinginan dan kebutuhan pelanggan yang disertai dengan ketepatan penyampaian sesuai standar perusahaan demi memenuhi harapan pelanggan. Pada beberapa kasus seperti layanan perbankan, diperlukan layanan pelanggan yang dapat diakses setiap saat dengan ketepatan dan daya tanggap tinggi. Atas kebutuhan pelayanan dengan kualitas tinggi ini, perusahaan dapat mengaplikasikan konsep pelayanan prima. Salah satu penerapan konsep kecerdasan buatan demi pelaksanaan pelayanan prima adalah penggunaan chatbot, yang memerlukan metode yang tepat bagi proses klasifikasi intensi pengguna maupun Named Entity Recognition (NER). Salah satu kekurangan dari pelaksanaan klasifikasi intensi dan NER secara terpisah terletak pada representasi numerik yang digunakan dalam tiap model. Meski menggunakan data latih dan arsitektur model yang serupa, model dapat menghasilkan representasi numerik yang berbeda dalam tahap fiturisasi, sehingga berpotensi mengurangi tingkat generalisasi model. Untuk mengatasi masalah tersebut, klasifikasi intensi dan NER dapat digabungkan dengan menggunakan mekanisme multi-task learning dalam bentuk model Dual Intent and Entity Transformer (DIET). Penelitian dilakukan dengan memanfaatkan data sekunder dari Helpdesk TIK UB, merancang model DIET menggunakan pustaka PyTorch dan Transformers, lalu mengevaluasi model DIET menggunakan f1-score. Kombinasi hyperparameter terbaik yang didapatkan adalah warm-up step sebesar 70, early stopping patience sebesar 15, weight decay sebesar 0,01, bobot loss NER sebesar 0,6, dan bobot loss klasifikasi intensi berupa 0,4. Kombinasi hyperparameter yang telah diperoleh menghasilkan kapabilitas yang berbeda apabila terdapat perubahan dalam data yang digunakan, karena kapabilitas model DIET baik dalam melakukan klasifikasi intensi maupun NER sangat bergantung terhadap data.   Abstract   Customer service is a way to fulfill the wants and needs of customers accompanied by the accuracy of delivery according to company standards in order to meet customer expectations. In some cases such as banking services, customer service is needed that can be accessed at any time with high accuracy and responsiveness. For this high-quality service requirement, companies can implement the concept of excellent service. One application of artificial intelligence for service excellence is the use of a chatbot, which requires an appropriate method for the classification of user intent and Named Entity Recognition (NER). One of the drawbacks of performing intent classification and NER separately lies in the different numerical representations used in each model. Despite using similar training data and model architecture, the models may produce different numerical representations in the featurization stage, potentially reducing the generalization ability of the model. To overcome this problem, intent and NER classification can be combined using a multi-task learning mechanism in the form of a Dual Intent and Entity Transformer (DIET) model. The research was conducted by utilizing secondary data from Helpdesk TIK UB, designing DIET models using PyTorch and Transformers libraries, then evaluating DIET models using f1-score. The best hyperparameter combination obtained is a warm-up step of 70, early stopping patience of 15, weight decay of 0.01, NER loss weight of 0.6, and intent classification loss weight of 0.4. The combination of hyperparameters that have been obtained produce different capabilities if there are changes in the data that is used because the capabilities of the DIET model in both intention and NER classification are highly dependent on the data.","PeriodicalId":32501,"journal":{"name":"Jurnal Teknologi Informasi dan Ilmu Komputer","volume":" 13","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Kombinasi Intent Classification dan Named Entity Recognition pada Data Berbahasa Indonesia dengan Metode Dual Intent and Entity Transformer\",\"authors\":\"Zahrah Annisa, R. Perdana, Putra Pandu Adikara\",\"doi\":\"10.25126/jtiik.1077985\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Pelayanan pelanggan atau customer service adalah sebuah bentuk upaya pemenuhan keinginan dan kebutuhan pelanggan yang disertai dengan ketepatan penyampaian sesuai standar perusahaan demi memenuhi harapan pelanggan. Pada beberapa kasus seperti layanan perbankan, diperlukan layanan pelanggan yang dapat diakses setiap saat dengan ketepatan dan daya tanggap tinggi. Atas kebutuhan pelayanan dengan kualitas tinggi ini, perusahaan dapat mengaplikasikan konsep pelayanan prima. Salah satu penerapan konsep kecerdasan buatan demi pelaksanaan pelayanan prima adalah penggunaan chatbot, yang memerlukan metode yang tepat bagi proses klasifikasi intensi pengguna maupun Named Entity Recognition (NER). Salah satu kekurangan dari pelaksanaan klasifikasi intensi dan NER secara terpisah terletak pada representasi numerik yang digunakan dalam tiap model. Meski menggunakan data latih dan arsitektur model yang serupa, model dapat menghasilkan representasi numerik yang berbeda dalam tahap fiturisasi, sehingga berpotensi mengurangi tingkat generalisasi model. Untuk mengatasi masalah tersebut, klasifikasi intensi dan NER dapat digabungkan dengan menggunakan mekanisme multi-task learning dalam bentuk model Dual Intent and Entity Transformer (DIET). Penelitian dilakukan dengan memanfaatkan data sekunder dari Helpdesk TIK UB, merancang model DIET menggunakan pustaka PyTorch dan Transformers, lalu mengevaluasi model DIET menggunakan f1-score. Kombinasi hyperparameter terbaik yang didapatkan adalah warm-up step sebesar 70, early stopping patience sebesar 15, weight decay sebesar 0,01, bobot loss NER sebesar 0,6, dan bobot loss klasifikasi intensi berupa 0,4. Kombinasi hyperparameter yang telah diperoleh menghasilkan kapabilitas yang berbeda apabila terdapat perubahan dalam data yang digunakan, karena kapabilitas model DIET baik dalam melakukan klasifikasi intensi maupun NER sangat bergantung terhadap data.   Abstract   Customer service is a way to fulfill the wants and needs of customers accompanied by the accuracy of delivery according to company standards in order to meet customer expectations. In some cases such as banking services, customer service is needed that can be accessed at any time with high accuracy and responsiveness. For this high-quality service requirement, companies can implement the concept of excellent service. One application of artificial intelligence for service excellence is the use of a chatbot, which requires an appropriate method for the classification of user intent and Named Entity Recognition (NER). One of the drawbacks of performing intent classification and NER separately lies in the different numerical representations used in each model. Despite using similar training data and model architecture, the models may produce different numerical representations in the featurization stage, potentially reducing the generalization ability of the model. To overcome this problem, intent and NER classification can be combined using a multi-task learning mechanism in the form of a Dual Intent and Entity Transformer (DIET) model. The research was conducted by utilizing secondary data from Helpdesk TIK UB, designing DIET models using PyTorch and Transformers libraries, then evaluating DIET models using f1-score. The best hyperparameter combination obtained is a warm-up step of 70, early stopping patience of 15, weight decay of 0.01, NER loss weight of 0.6, and intent classification loss weight of 0.4. The combination of hyperparameters that have been obtained produce different capabilities if there are changes in the data that is used because the capabilities of the DIET model in both intention and NER classification are highly dependent on the data.\",\"PeriodicalId\":32501,\"journal\":{\"name\":\"Jurnal Teknologi Informasi dan Ilmu Komputer\",\"volume\":\" 13\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-12-29\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal Teknologi Informasi dan Ilmu Komputer\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.25126/jtiik.1077985\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi Informasi dan Ilmu Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25126/jtiik.1077985","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

客户服务是一种努力满足客户愿望和需求的形式,同时还要按照公司标准准确交付,以满足客户的期望。在某些情况下,如银行服务,客户服务需要随时可以访问,且准确性高、响应速度快。对于这种高质量的服务要求,公司可以应用卓越服务的概念。人工智能概念在实现优质服务方面的应用之一是使用聊天机器人,这需要适当的用户意图分类和命名实体识别(NER)方法。分别执行意图分类和 NER 的缺点之一在于每个模型所使用的数字表示法。尽管使用了类似的训练数据和模型架构,但模型在特征化阶段可能会产生不同的数字表示,这可能会降低模型的通用性。为了克服这个问题,可以使用多任务学习机制,以双意图和实体转换器(DIET)模型的形式,将意图和 NER 分类结合起来。研究利用了 UB ICT 服务台的二手数据,使用 PyTorch 和 Transformers 库设计了 DIET 模型,然后使用 f1-score 对 DIET 模型进行了评估。得到的最佳超参数组合是:预热步长为 70、早期停止耐心为 15、权重衰减为 0.01、NER 损失权重为 0.6、意图分类损失权重为 0.4。当使用的数据发生变化时,所获得的超参数组合会产生不同的能力,因为 DIET 模型执行意图分类和 NER 分类的能力在很大程度上取决于数据。 摘要 客户服务是一种满足客户愿望和需求的方式,同时还要按照公司标准准确交付,以满足客户的期望。在某些情况下,如银行服务,客户服务需要可以随时访问的高准确性和高响应性。对于这种高质量的服务要求,企业可以实施卓越服务的概念。人工智能在卓越服务方面的一个应用是使用聊天机器人,这需要一种适当的方法来对用户意图和命名实体识别(NER)进行分类。分别执行意图分类和 NER 的缺点之一在于每个模型使用的数字表示方法不同。尽管使用了相似的训练数据和模型架构,但模型在特征化阶段可能会产生不同的数字表示,从而可能降低模型的泛化能力。为了克服这个问题,可以使用多任务学习机制,以双意图和实体转换器(DIET)模型的形式,将意图和 NER 分类结合起来。研究利用 UB ICT 服务台的二手数据,使用 PyTorch 和 Transformers 库设计 DIET 模型,然后使用 f1-score 评估 DIET 模型。得到的最佳超参数组合是预热步长为 70、早期停止耐心为 15、权重衰减为 0.01、净误码率损失权重为 0.6、意图分类损失权重为 0.4。如果使用的数据发生变化,所获得的超参数组合会产生不同的能力,因为 DIET 模型在意图分类和 NER 分类方面的能力高度依赖于数据。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Kombinasi Intent Classification dan Named Entity Recognition pada Data Berbahasa Indonesia dengan Metode Dual Intent and Entity Transformer
Pelayanan pelanggan atau customer service adalah sebuah bentuk upaya pemenuhan keinginan dan kebutuhan pelanggan yang disertai dengan ketepatan penyampaian sesuai standar perusahaan demi memenuhi harapan pelanggan. Pada beberapa kasus seperti layanan perbankan, diperlukan layanan pelanggan yang dapat diakses setiap saat dengan ketepatan dan daya tanggap tinggi. Atas kebutuhan pelayanan dengan kualitas tinggi ini, perusahaan dapat mengaplikasikan konsep pelayanan prima. Salah satu penerapan konsep kecerdasan buatan demi pelaksanaan pelayanan prima adalah penggunaan chatbot, yang memerlukan metode yang tepat bagi proses klasifikasi intensi pengguna maupun Named Entity Recognition (NER). Salah satu kekurangan dari pelaksanaan klasifikasi intensi dan NER secara terpisah terletak pada representasi numerik yang digunakan dalam tiap model. Meski menggunakan data latih dan arsitektur model yang serupa, model dapat menghasilkan representasi numerik yang berbeda dalam tahap fiturisasi, sehingga berpotensi mengurangi tingkat generalisasi model. Untuk mengatasi masalah tersebut, klasifikasi intensi dan NER dapat digabungkan dengan menggunakan mekanisme multi-task learning dalam bentuk model Dual Intent and Entity Transformer (DIET). Penelitian dilakukan dengan memanfaatkan data sekunder dari Helpdesk TIK UB, merancang model DIET menggunakan pustaka PyTorch dan Transformers, lalu mengevaluasi model DIET menggunakan f1-score. Kombinasi hyperparameter terbaik yang didapatkan adalah warm-up step sebesar 70, early stopping patience sebesar 15, weight decay sebesar 0,01, bobot loss NER sebesar 0,6, dan bobot loss klasifikasi intensi berupa 0,4. Kombinasi hyperparameter yang telah diperoleh menghasilkan kapabilitas yang berbeda apabila terdapat perubahan dalam data yang digunakan, karena kapabilitas model DIET baik dalam melakukan klasifikasi intensi maupun NER sangat bergantung terhadap data.   Abstract   Customer service is a way to fulfill the wants and needs of customers accompanied by the accuracy of delivery according to company standards in order to meet customer expectations. In some cases such as banking services, customer service is needed that can be accessed at any time with high accuracy and responsiveness. For this high-quality service requirement, companies can implement the concept of excellent service. One application of artificial intelligence for service excellence is the use of a chatbot, which requires an appropriate method for the classification of user intent and Named Entity Recognition (NER). One of the drawbacks of performing intent classification and NER separately lies in the different numerical representations used in each model. Despite using similar training data and model architecture, the models may produce different numerical representations in the featurization stage, potentially reducing the generalization ability of the model. To overcome this problem, intent and NER classification can be combined using a multi-task learning mechanism in the form of a Dual Intent and Entity Transformer (DIET) model. The research was conducted by utilizing secondary data from Helpdesk TIK UB, designing DIET models using PyTorch and Transformers libraries, then evaluating DIET models using f1-score. The best hyperparameter combination obtained is a warm-up step of 70, early stopping patience of 15, weight decay of 0.01, NER loss weight of 0.6, and intent classification loss weight of 0.4. The combination of hyperparameters that have been obtained produce different capabilities if there are changes in the data that is used because the capabilities of the DIET model in both intention and NER classification are highly dependent on the data.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
审稿时长
16 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信