首个Token为何沦为数值垃圾桶?LeCun团队解构大模型底层机制
数据派THU
2026-03-12 17:20
文章摘要
背景:在Transformer架构中,大值激活(Spike)和Attention Sink是两个常见的内部计算现象,学术界曾认为它们深度耦合。研究目的:LeCun团队通过机制可解释性研究,旨在厘清这两者的真实关系及其成因。结论:研究发现,大值激活主要由序列首个位置的架构特性(如前馈网络的特定增益方向)驱动,与token语义无关;而Attention Sink是模型在健康优化状态下,为处理短距离依赖而习得的一种路由策略,尤其在Pre-norm等架构下更为明显。两者并非必然关联,可通过调整归一化策略等方式独立抑制Spike而不影响Sink功能,这为大模型的量化部署和长上下文推理优化提供了新思路。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。