别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
机器学习算法与自然语言处理
2026-02-09 00:00
文章摘要
背景:在Transformer训练中,残差流常出现特定维度激活值异常高(Residual Sink)和注意力图中首个token权重过高(Attention Sink)的现象,传统方法如截断(Clip)可能破坏模型稳定性。研究目的:阿里Qwen团队通过数学分析,揭示这些异常值是模型在归一化约束下自发演化出的重缩放机制,用于全局特征调节,并提出了GatedNorm架构改进。结论:GatedNorm通过显式门控机制替代不稳定的异常值,有效解决了低比特量化中的精度损失问题,提升了模型在W4A4量化下的性能,为Transformer架构优化提供了新方向。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。