How do different tokenizers perform on downstream tasks in scriptio continua languages?: A case study in Japanese

Annual Meeting of the Association for Computational Linguistics Pub Date : 2023-06-16 DOI:10.48550/arXiv.2306.09572

T. Fujii, Koki Shibata, Atsuki Yamaguchi, Terufumi Morishita, Yasuhiro Sogawa

引用次数: 0

Abstract

We investigate the impact of different tokenizers on downstream performance in Japanese NLP, with the case of BERT architecture.

查看原文本刊更多论文

在连续脚本语言中，不同的标记器如何执行下游任务?:日语案例研究

我们以BERT架构为例，研究了不同的标记器对日语NLP下游性能的影响。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

自引率

0.00%

发文量