KHẢO SÁT CÁC MÔ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

C. Minh, Khảo sát, Các MÔ Hình, Phân Loại, Văn Bản, tiếng Việt, Nguyễn Chí Hiếu, Khoa Công Nghệ
{"title":"KHẢO SÁT CÁC MÔ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG VIỆT","authors":"C. Minh, Khảo sát, Các MÔ Hình, Phân Loại, Văn Bản, tiếng Việt, Nguyễn Chí Hiếu, Khoa Công Nghệ","doi":"10.46242/jstiuh.v57i03.4395","DOIUrl":null,"url":null,"abstract":"Phân loại văn bản là một trong những nhiệm vụ cơ bản của Xử lý ngôn ngữ tự nhiên, được ứng dụng rộng rãi trong phân tích tình cảm, phát hiện spam, gắn nhãn chủ đề, phát hiện ý định... Với sự bùng nổ của các nguồn thông tin trên Web, mạng xã hội… làm cho nó ngày càng trở nên quan trọng và thu hút nhiều nhà nghiên cứu. Nhiều phương pháp lựa chọn đặc trưng và thuật toán phân loại đã được đề xuất sử dụng. Tuy nhiên, sự gia tăng nhanh chóng của dữ liệu lớn đang tạo ra thách thức đối với việc phân loại văn bản nói chung và tiếng Việt nói riêng, chẳng hạn như vấn đề mở rộng ứng dụng, khả năng phân loại các vấn đề xã hội... Mục đích của báo cáo này là khảo sát các nghiên cứu về phân loại văn bản, trong đó có tiếng Việt, nhằm cung cấp cho bạn đọc một cái nhìn tổng quan về các công nghệ phân loại văn bản hiện có và đề xuất cách giải quyết vấn đề thách thức trong phân loại văn bản.","PeriodicalId":16979,"journal":{"name":"Journal of Science and Technology - IUH","volume":"19 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-10-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Science and Technology - IUH","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.46242/jstiuh.v57i03.4395","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Phân loại văn bản là một trong những nhiệm vụ cơ bản của Xử lý ngôn ngữ tự nhiên, được ứng dụng rộng rãi trong phân tích tình cảm, phát hiện spam, gắn nhãn chủ đề, phát hiện ý định... Với sự bùng nổ của các nguồn thông tin trên Web, mạng xã hội… làm cho nó ngày càng trở nên quan trọng và thu hút nhiều nhà nghiên cứu. Nhiều phương pháp lựa chọn đặc trưng và thuật toán phân loại đã được đề xuất sử dụng. Tuy nhiên, sự gia tăng nhanh chóng của dữ liệu lớn đang tạo ra thách thức đối với việc phân loại văn bản nói chung và tiếng Việt nói riêng, chẳng hạn như vấn đề mở rộng ứng dụng, khả năng phân loại các vấn đề xã hội... Mục đích của báo cáo này là khảo sát các nghiên cứu về phân loại văn bản, trong đó có tiếng Việt, nhằm cung cấp cho bạn đọc một cái nhìn tổng quan về các công nghệ phân loại văn bản hiện có và đề xuất cách giải quyết vấn đề thách thức trong phân loại văn bản.
调查越南文字分类模式
文本分类是自然语言处理的基本任务之一,广泛应用于情绪分析、垃圾邮件检测、主题标签、意图检测等。随着网络和社交网络的普及,它变得越来越重要,吸引了越来越多的研究人员。提出了多种特征选择和分类算法。然而,大量数据的迅速增加给一般文本和越南语的分类带来了挑战,例如应用程序的扩展、社会问题的分类能力……这份报告的目的是调查包括越南语在内的文本分类研究,以便让你全面了解现有的文本分类技术,并提出解决文本分类挑战的方法。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信