XÂY DỰNG KHO NGỮ LIỆU SONG NGỮ CHẤT LƯỢNG CAO CHO CẶP NGÔN NGỮ HẠN CHẾ TÀI NGUYÊN

H. Nguyễn, Cường Nguyễn, V. Nguyễn
{"title":"XÂY DỰNG KHO NGỮ LIỆU SONG NGỮ CHẤT LƯỢNG CAO CHO CẶP NGÔN NGỮ HẠN CHẾ TÀI NGUYÊN","authors":"H. Nguyễn, Cường Nguyễn, V. Nguyễn","doi":"10.51453/2354-1431/2023/962","DOIUrl":null,"url":null,"abstract":"Kho ngữ liệu song ngữ có chất lượng cao là một nguồn tài nguyên quan trọng cho nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, chẳng hạn như: dịch máy, tìm kiếm liên ngôn ngữ, xây dựng từ điển song ngữ,… Đối với cặp ngôn ngữ hạn chế tài nguyên (chẳng hạn như cặp ngôn ngữ Việt-Lào) thì rất khó để mà xây dựng được kho ngữ liệu song ngữ có chất lượng cao vì tài nguyên song ngữ là hiếm. Trong bài báo này, chúng tôi đề xuất một quy trình xây dựng kho ngữ liệu song ngữ chất lượng cao cho căp ngôn ngữ hạn chế tài nguyên và một phương pháp dóng hàng câu mà tận dụng lợi thế của các mô hình hiện đại đã được huấn luyện trước cho các ngôn ngữ giàu tài nguyên. Triển khai thực nghiệm dóng hàng câu và đánh giá chất lượng kho ngữ liệu trên cặp ngôn ngữ Việt-Lào cho thấy phương pháp dóng hàng câu đề xuất của chúng tôi đạt độ chính xác precision và recall cao hơn hẳn so với các phương pháp dóng hàng câu đã được xem là tốt và kho ngữ liệu song ngữ Việt-Lào mà chúng tôi xây dựng đạt chất lượng cao.","PeriodicalId":158754,"journal":{"name":"SCIENTIFIC JOURNAL OF TAN TRAO UNIVERSITY","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-06-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"SCIENTIFIC JOURNAL OF TAN TRAO UNIVERSITY","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.51453/2354-1431/2023/962","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Kho ngữ liệu song ngữ có chất lượng cao là một nguồn tài nguyên quan trọng cho nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, chẳng hạn như: dịch máy, tìm kiếm liên ngôn ngữ, xây dựng từ điển song ngữ,… Đối với cặp ngôn ngữ hạn chế tài nguyên (chẳng hạn như cặp ngôn ngữ Việt-Lào) thì rất khó để mà xây dựng được kho ngữ liệu song ngữ có chất lượng cao vì tài nguyên song ngữ là hiếm. Trong bài báo này, chúng tôi đề xuất một quy trình xây dựng kho ngữ liệu song ngữ chất lượng cao cho căp ngôn ngữ hạn chế tài nguyên và một phương pháp dóng hàng câu mà tận dụng lợi thế của các mô hình hiện đại đã được huấn luyện trước cho các ngôn ngữ giàu tài nguyên. Triển khai thực nghiệm dóng hàng câu và đánh giá chất lượng kho ngữ liệu trên cặp ngôn ngữ Việt-Lào cho thấy phương pháp dóng hàng câu đề xuất của chúng tôi đạt độ chính xác precision và recall cao hơn hẳn so với các phương pháp dóng hàng câu đã được xem là tốt và kho ngữ liệu song ngữ Việt-Lào mà chúng tôi xây dựng đạt chất lượng cao.
建立高质量双语语料库
高质量的双语语料库是自然语言处理的许多应用的重要资源,如:机器翻译、跨语言搜索、建立双语词典等。在这篇文章中,我们提出了一个为资源有限的语言建立高质量双语材料的过程,并提出了一种句子对齐的方法,它利用了预先训练的现代模式,为资源丰富的语言。在越南-老挝语双语言中进行句子对齐实验和语料库质量评价,结果表明,我们提出的句子对齐方法具有较高的准确性、精确性和回溯性,远远高于我们所建立的越南-老挝双语语料库。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信