150B tokens实测反转!你的DeepSeek mHC可能根本不需要“m”约束

PaperWeekly 2026-03-02 19:08
文章摘要
本文探讨了DeepSeek mHC模型中引入流形约束(manifold constraint)的必要性。背景方面,mHC通过Sinkhorn-Knopp算法将超连接(HC)中的混合矩阵约束为双随机矩阵,旨在稳定训练并保持范数。研究目的旨在验证此约束是否不可或缺,作者通过150B tokens的预训练实验对比了不同变体。结论表明,将混合矩阵直接替换为恒等矩阵(Identity)效果优于原版mHC及其他变体,因为双随机矩阵的累积乘积会导致信号坍缩为均匀混合矩阵,损害流的语义一致性,而恒等矩阵避免了坍缩,简化了学习过程,且无需昂贵的Sinkhorn迭代。
150B tokens实测反转!你的DeepSeek mHC可能根本不需要“m”约束
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
PaperWeekly
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信