别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
机器学习算法与自然语言处理
2026-02-07 00:00
文章摘要
背景:在Transformer训练中,残差流常出现特定维度激活值异常高(Residual Sink)和注意力图中首个token权重过高(Attention Sink)的现象,传统方法如截断(Clip)试图解决数值稳定性问题,但可能破坏模型性能。研究目的:阿里Qwen团队通过分析指出这些异常值是模型在归一化约束下自发形成的重缩放机制,旨在统一解释Sink现象,并提出一种参数高效的架构改进——GatedNorm,以替代不稳定的异常值,从而解决低比特量化中的精度难题。结论:研究证明异常值是模型实现特征调节的必要条件,强制去除会导致性能下降;GatedNorm通过引入显式门控机制,有效消除异常值,使特征分布平滑,提升了模型在低比特量化(如FP4)下的鲁棒性和准确性,为架构优化提供了新方向。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。