ВИКОРИСТАННЯ РІЗНИХ ВИДІВ ТОКЕНІЗАТОРІВ В ТРАНСФОРМЕРНИХ АРХІТЕКТУРАХ ДЛЯ ЗАДАЧІ МАШИННОГО ПЕРЕКЛАДУ

К. О. Антіпова, В. С. Раленко
{"title":"ВИКОРИСТАННЯ РІЗНИХ ВИДІВ ТОКЕНІЗАТОРІВ В ТРАНСФОРМЕРНИХ АРХІТЕКТУРАХ ДЛЯ ЗАДАЧІ МАШИННОГО ПЕРЕКЛАДУ","authors":"К. О. Антіпова, В. С. Раленко","doi":"10.35546/kntu2078-4481.2024.1.25","DOIUrl":null,"url":null,"abstract":"Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.","PeriodicalId":518826,"journal":{"name":"Вісник Херсонського національного технічного університету","volume":"63 12","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-05-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Вісник Херсонського національного технічного університету","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35546/kntu2078-4481.2024.1.25","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.
在机器翻译任务的可转换架构中使用不同类型的标记符号转换器
标记化几乎是所有自然语言处理任务的第一步,所有现代语言模型都使用子词标记化算法来处理输入文本。由于不同的语言有其独特的属性,因此标记化算法的开发通常是针对特定语言的。针对训练资源有限的语言的预训练模型与针对英语的模型使用相同的标记化算法。对于资源有限的语言,标记化算法的影响可能不同,因为这些语言的单词可能有前缀和后缀。此外,对于包括乌克兰语在内的低资源语言,还没有详细研究过不同标记化方法的影响。在这项工作中,我们对 WordPiece、BPE 和 Unigram 等标记化器进行了训练,以研究它们在将句子从英语机器翻译成乌克兰语的准确性方面的有效性。为了对英语到乌克兰语翻译任务中的标记符进行实验比较,我们没有使用现有的预训练语言模型。相反,我们根据 Marian 模型的配置和训练程序,预先训练了自己的中型语言模型。开发的操作流程包括收集和清理句子对的训练语料库、使用固定长度字典训练标记符号、使用选定的标记符号预训练深度语言模型。之后,使用 SacreBLEU 和 ROUGE 等指标对模型的准确性进行评估。所获得的实验结果强调了标记化在语言建模中的作用,尤其是对于形态丰富的语言。此外,Unigram 标记化的形态学准确性更高,因此在自然语言机器翻译任务中表现更好。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信