在机器翻译任务的可转换架构中使用不同类型的标记符号转换器

Вісник Херсонського національного технічного університету Pub Date : 2024-05-01 DOI:10.35546/kntu2078-4481.2024.1.25

К. О. Антіпова, В. С. Раленко

{"title":"在机器翻译任务的可转换架构中使用不同类型的标记符号转换器","authors":"К. О. Антіпова, В. С. Раленко","doi":"10.35546/kntu2078-4481.2024.1.25","DOIUrl":null,"url":null,"abstract":"Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.","PeriodicalId":518826,"journal":{"name":"Вісник Херсонського національного технічного університету","volume":"63 12","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-05-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ВИКОРИСТАННЯ РІЗНИХ ВИДІВ ТОКЕНІЗАТОРІВ В ТРАНСФОРМЕРНИХ АРХІТЕКТУРАХ ДЛЯ ЗАДАЧІ МАШИННОГО ПЕРЕКЛАДУ\",\"authors\":\"К. О. Антіпова, В. С. Раленко\",\"doi\":\"10.35546/kntu2078-4481.2024.1.25\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.\",\"PeriodicalId\":518826,\"journal\":{\"name\":\"Вісник Херсонського національного технічного університету\",\"volume\":\"63 12\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-05-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Вісник Херсонського національного технічного університету\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.35546/kntu2078-4481.2024.1.25\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Вісник Херсонського національного технічного університету","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35546/kntu2078-4481.2024.1.25","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

标记化几乎是所有自然语言处理任务的第一步，所有现代语言模型都使用子词标记化算法来处理输入文本。由于不同的语言有其独特的属性，因此标记化算法的开发通常是针对特定语言的。针对训练资源有限的语言的预训练模型与针对英语的模型使用相同的标记化算法。对于资源有限的语言，标记化算法的影响可能不同，因为这些语言的单词可能有前缀和后缀。此外，对于包括乌克兰语在内的低资源语言，还没有详细研究过不同标记化方法的影响。在这项工作中，我们对 WordPiece、BPE 和 Unigram 等标记化器进行了训练，以研究它们在将句子从英语机器翻译成乌克兰语的准确性方面的有效性。为了对英语到乌克兰语翻译任务中的标记符进行实验比较，我们没有使用现有的预训练语言模型。相反，我们根据 Marian 模型的配置和训练程序，预先训练了自己的中型语言模型。开发的操作流程包括收集和清理句子对的训练语料库、使用固定长度字典训练标记符号、使用选定的标记符号预训练深度语言模型。之后，使用 SacreBLEU 和 ROUGE 等指标对模型的准确性进行评估。所获得的实验结果强调了标记化在语言建模中的作用，尤其是对于形态丰富的语言。此外，Unigram 标记化的形态学准确性更高，因此在自然语言机器翻译任务中表现更好。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

ВИКОРИСТАННЯ РІЗНИХ ВИДІВ ТОКЕНІЗАТОРІВ В ТРАНСФОРМЕРНИХ АРХІТЕКТУРАХ ДЛЯ ЗАДАЧІ МАШИННОГО ПЕРЕКЛАДУ

Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Вісник Херсонського національного технічного університету

自引率

0.00%

发文量