发布求助

文献互助智能选刊最新文献

Agentic能力从哪里来？拆解基座大模型GLM-5/MiniMaxM2/KimiK2.5的训练过程

机器学习算法与自然语言处理 2026-04-08 00:50

文章摘要

本文以GLM-5为主线，结合MiniMax M2和Kimi K2.5，系统阐述了现代基座大模型如何通过分阶段训练获得Agentic（代理）、Reasoning（推理）和Coding（编程）能力。背景是AI进入Agent时代，需要模型具备复杂任务执行能力。研究目的是拆解从预训练到后训练对齐的完整链路，揭示分阶段、定向强化的训练方法。结论指出，现代大模型训练已演变为“不同能力分阶段建模、强化并最终统一收敛”的过程，涉及预训练、中期定向增强、监督微调、多阶段强化学习（推理RL、代理RL、通用RL）以及在线跨阶段蒸馏，并重点探讨了Agentic数据合成、训练-推理不一致、异步框架Off-Policy问题及多智能体并行等核心挑战与解决方案。

Agentic能力从哪里来？拆解基座大模型GLM-5/MiniMaxM2/KimiK2.5的训练过程

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

刚刚，Claude4小时血洗全球最安全系统！人类最后防线失守

刚刚，Claude4小时血洗全球最安全系统！人类最后防线失守. 2026-04-07

搞发动机的张雪，没啃过一篇AI论文，却活成了最强智能体！

搞发动机的张雪，没啃过一篇AI论文，却活成了最强智能体！. 2026-04-07

TPAMI 2026 | 当考试开始“因人出题”：中科大发布首篇自适应测评综述

TPAMI 2026 | 当考试开始“因人出题”：中科大发布首篇自适应测评综述. 2026-04-07

GPT-6，曝光了

GPT-6，曝光了. 2026-04-07

Karpathy强推，大厂抢着「复古」命令行，Star数全都上千了

Karpathy强推，大厂抢着「复古」命令行，Star数全都上千了. 2026-04-07

最新文章

Agentic能力从哪里来？拆解基座大模型GLM-5/MiniMaxM2/KimiK2.5的训练过程

Agentic能力从哪里来？拆解基座大模型GLM-5/MiniMaxM2/KimiK2.5的训练过程 2026-04-07

TPAMI 2026 | 当考试开始“因人出题”：中科大发布首篇自适应测评综述

TPAMI 2026 | 当考试开始“因人出题”：中科大发布首篇自适应测评综述 2026-04-07

搞发动机的张雪，没啃过一篇AI论文，却活成了最强智能体！

搞发动机的张雪，没啃过一篇AI论文，却活成了最强智能体！ 2026-04-07

刚刚，Claude4小时血洗全球最安全系统！人类最后防线失守

刚刚，Claude4小时血洗全球最安全系统！人类最后防线失守 2026-04-07

热门类别

综合性期刊物理法学地球科学历史学

相关文章

Global Change Biology | 保护性耕作对全球作物生产力和生态系统服务的潜力与权衡 GCB丨全球温带春季物候与气温近期解耦的时空格局及驱动机制 New Phytol | 西北农林科技大学揭示茶树杂种优势形成的等位基因水平调控机制 iMetaOmics | 苏州大学周哲敏/杨晓东/徐鉴城团队-联合转录组和微生物组分析揭示微生物对结直肠癌免疫调节及进展的影响盐城工学院孙林课题组：在氮掺杂碳微球上构建MoO₂/Mo₂C异质界面用于多硫化物的协同吸附-催化

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信