Attention Is All You Need作者再出手:Transformer 99%稀疏,还能更快?
机器学习算法与自然语言处理
2026-05-20 08:21
文章摘要
背景:现代大型语言模型(LLM)基于Transformer架构,其中前馈网络(FFN)占据大部分参数和计算量。然而,研究表明FFN的大部分隐藏激活值接近零,存在高度稀疏性,但传统的GPU硬件和软件栈针对稠密矩阵计算优化,导致稀疏性无法直接转化为性能提升。研究目的:本研究旨在将FFN的激活稀疏性切实转化为现代GPU上的实际加速收益,在不引入复杂架构改造的前提下,提升大模型的推理和训练效率。结论:研究团队提出了TwELL(Tile-wise ELLPACK)稀疏格式,用于推理阶段,通过将矩阵列切分为与密集计算贴合的局部数据块,并与CUDA Kernel融合,避免了格式转换开销;在训练阶段,采用混合路由机制,将大多数低激活token送入高压缩比稀疏矩阵,少数高活跃token分流至密集通道,降低显存压力。实验表明,在十亿参数级模型上,该方法实现了最高20.5%的前向推理加速和21.9%的训练步骤提速,显存需求降低超24%,且下游任务表现基本不受影响。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。