发布求助

文献互助智能选刊最新文献

不改架构、不加算力：NousResearch巧用Token叠加，预训练提速2.5倍

机器学习算法与自然语言处理 2026-05-17 00:00

文章摘要

本研究由Nous Research提出Token Superposition Training（TST）方法，旨在不改变模型架构、并行策略、优化器等前提下，提升大语言模型预训练阶段的吞吐量。背景在于标准LLM预训练处理有限token序列，现有提速方法常改变模型结构。研究目的为探索仅修改训练过程、不改变推理结构的提速方案。TST分为叠加阶段（将连续token嵌入平均后预测下一组token）和恢复阶段（切回标准逐token预测），并采用多热交叉熵损失。在10B MoE模型实验中，TST以不到40%的训练时间达到基线损失水平，实现约2.5倍预训练提速。结论表明，TST通过增加数据消耗在同等计算量下降低训练损失，输入与输出叠加机制相互独立，且保持表示对齐对收益延续至关重要。该方法在算力受限且数据充足场景下具有吸引力。

不改架构、不加算力：NousResearch巧用Token叠加，预训练提速2.5倍

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

Attention Is All You Need作者再出手：Transformer 99%稀疏，还能更快？

Attention Is All You Need作者再出手：Transformer 99%稀疏，还能更快？. 2026-05-20

LLM近期重大架构进化一览：从Gemma4到DeepSeekV4

LLM近期重大架构进化一览：从Gemma4到DeepSeekV4. 2026-05-20

编程新王Composer 2.5来了，逼近Opus 4.7！成本仅为1/10

编程新王Composer 2.5来了，逼近Opus 4.7！成本仅为1/10. 2026-05-20

王云鹤眼中的Harness：复杂优化问题，AGI灵魂争夺之战

王云鹤眼中的Harness：复杂优化问题，AGI灵魂争夺之战. 2026-05-19

从P(y|x)到P(y)：将RL引入预训练空间，激发大模型内生推理

从P(y|x)到P(y)：将RL引入预训练空间，激发大模型内生推理. 2026-05-19

最新文章

编程新王Composer 2.5来了，逼近Opus 4.7！成本仅为1/10

编程新王Composer 2.5来了，逼近Opus 4.7！成本仅为1/10 2026-05-20

LLM近期重大架构进化一览：从Gemma4到DeepSeekV4

LLM近期重大架构进化一览：从Gemma4到DeepSeekV4 2026-05-20

Attention Is All You Need作者再出手：Transformer 99%稀疏，还能更快？

Attention Is All You Need作者再出手：Transformer 99%稀疏，还能更快？ 2026-05-20

从P(y|x)到P(y)：将RL引入预训练空间，激发大模型内生推理

从P(y|x)到P(y)：将RL引入预训练空间，激发大模型内生推理 2026-05-19

热门类别

综合性期刊物理法学地球科学历史学

相关文章

中科院金属所《Science Advances》：发现晶界电子态重构提升导电性满洪杰：生物医学研究侵权责任的体系构造 | 归责基础是风险而不是过错 “一国两制”台湾方案的四对基本范畴 | 不能被化约为一部“台湾基本法” JIA优先上线 | 西北农林科技大学庞卫军团队提出基于代谢极化的猪精子性别分选新策略【5·30科技工作者日】习语金句 | “要以更大力度、更实举措加强基础研究”

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信

小红书