首个Token为何沦为数值垃圾桶?LeCun团队解构大模型底层机制

PaperWeekly 2026-03-09 18:32
文章摘要
背景:在Transformer架构中,大值激活(Spike)和注意力汇(Attention Sink)是两种常见的内部计算现象,学术界曾认为它们深度耦合。研究目的:LeCun团队旨在通过机制可解释性研究,厘清这两种现象的真实关系及其成因。结论:研究发现,大值激活主要由序列首个位置的架构特性(如前馈网络的特定放大机制)驱动,与语义无关;而Attention Sink是模型在健康优化状态下,为处理短上下文依赖而习得的一种有效路由策略,两者并非必然关联,其共现是Pre-norm等特定设计下的偶然结果。这一发现为独立优化大模型的数值稳定性与长上下文推理能力提供了理论依据。
首个Token为何沦为数值垃圾桶?LeCun团队解构大模型底层机制
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
PaperWeekly
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信