KHẢO SÁT CÁC MÔ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

Journal of Science and Technology - IUH Pub Date : 2022-10-07 DOI:10.46242/jstiuh.v57i03.4395

C. Minh, Khảo sát, Các MÔ Hình, Phân Loại, Văn Bản, tiếng Việt, Nguyễn Chí Hiếu, Khoa Công Nghệ

{"title":"KHẢO SÁT CÁC MÔ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG VIỆT","authors":"C. Minh, Khảo sát, Các MÔ Hình, Phân Loại, Văn Bản, tiếng Việt, Nguyễn Chí Hiếu, Khoa Công Nghệ","doi":"10.46242/jstiuh.v57i03.4395","DOIUrl":null,"url":null,"abstract":"Phân loại văn bản là một trong những nhiệm vụ cơ bản của Xử lý ngôn ngữ tự nhiên, được ứng dụng rộng rãi trong phân tích tình cảm, phát hiện spam, gắn nhãn chủ đề, phát hiện ý định... Với sự bùng nổ của các nguồn thông tin trên Web, mạng xã hội… làm cho nó ngày càng trở nên quan trọng và thu hút nhiều nhà nghiên cứu. Nhiều phương pháp lựa chọn đặc trưng và thuật toán phân loại đã được đề xuất sử dụng. Tuy nhiên, sự gia tăng nhanh chóng của dữ liệu lớn đang tạo ra thách thức đối với việc phân loại văn bản nói chung và tiếng Việt nói riêng, chẳng hạn như vấn đề mở rộng ứng dụng, khả năng phân loại các vấn đề xã hội... Mục đích của báo cáo này là khảo sát các nghiên cứu về phân loại văn bản, trong đó có tiếng Việt, nhằm cung cấp cho bạn đọc một cái nhìn tổng quan về các công nghệ phân loại văn bản hiện có và đề xuất cách giải quyết vấn đề thách thức trong phân loại văn bản.","PeriodicalId":16979,"journal":{"name":"Journal of Science and Technology - IUH","volume":"19 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-10-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Science and Technology - IUH","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.46242/jstiuh.v57i03.4395","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Phân loại văn bản là một trong những nhiệm vụ cơ bản của Xử lý ngôn ngữ tự nhiên, được ứng dụng rộng rãi trong phân tích tình cảm, phát hiện spam, gắn nhãn chủ đề, phát hiện ý định... Với sự bùng nổ của các nguồn thông tin trên Web, mạng xã hội… làm cho nó ngày càng trở nên quan trọng và thu hút nhiều nhà nghiên cứu. Nhiều phương pháp lựa chọn đặc trưng và thuật toán phân loại đã được đề xuất sử dụng. Tuy nhiên, sự gia tăng nhanh chóng của dữ liệu lớn đang tạo ra thách thức đối với việc phân loại văn bản nói chung và tiếng Việt nói riêng, chẳng hạn như vấn đề mở rộng ứng dụng, khả năng phân loại các vấn đề xã hội... Mục đích của báo cáo này là khảo sát các nghiên cứu về phân loại văn bản, trong đó có tiếng Việt, nhằm cung cấp cho bạn đọc một cái nhìn tổng quan về các công nghệ phân loại văn bản hiện có và đề xuất cách giải quyết vấn đề thách thức trong phân loại văn bản.

查看原文本刊更多论文

调查越南文字分类模式

文本分类是自然语言处理的基本任务之一，广泛应用于情绪分析、垃圾邮件检测、主题标签、意图检测等。随着网络和社交网络的普及，它变得越来越重要，吸引了越来越多的研究人员。提出了多种特征选择和分类算法。然而，大量数据的迅速增加给一般文本和越南语的分类带来了挑战，例如应用程序的扩展、社会问题的分类能力……这份报告的目的是调查包括越南语在内的文本分类研究，以便让你全面了解现有的文本分类技术，并提出解决文本分类挑战的方法。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Journal of Science and Technology - IUH

自引率

0.00%

发文量