发布求助

文献互助智能选刊最新文献

北航，清华，北大联合发布：异构智能体协同强化学习！

机器学习算法与自然语言处理 2026-03-21 00:00

文章摘要

本文针对当前大模型强化学习微调中存在的采样成本高、异构数据利用率低的问题，提出了一种全新的异构智能体协同强化学习（HACRL）范式。该范式的核心在于，让多个在参数状态、模型规模或架构上存在差异的智能体在训练阶段共享经过验证的轨迹（rollouts）进行协同策略优化，而在推理阶段各自独立部署。为实现这一范式，研究提出了异构协同策略优化（HACPO）算法，通过智能体能力感知的优势估计、模型能力差异系数、指数重要性采样和逐步裁剪四项关键技术，有效弥合了异构智能体间的能力与策略分布差异。实验结果表明，在多个数学推理基准上，HACPO能使所有参与智能体的性能均获得提升，平均性能超越基线方法3.3%，同时仅需一半的采样成本，实现了效率与效果的双重提升。

北航，清华，北大联合发布：异构智能体协同强化学习！

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

全球龙虾批量黑化！Meta2小时灾难击穿硅谷心脏，OpenClaw反噬来袭

全球龙虾批量黑化！Meta2小时灾难击穿硅谷心脏，OpenClaw反噬来袭. 2026-03-21

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案. 2026-03-21

凌晨的GPU终于不闲置了，我用M2.7跑通了自动化科研流水线

凌晨的GPU终于不闲置了，我用M2.7跑通了自动化科研流水线. 2026-03-21

Cursor自研模型反超Opus4.6！价格脚踝斩，氛围编程沸腾了

Cursor自研模型反超Opus4.6！价格脚踝斩，氛围编程沸腾了. 2026-03-20

搞不懂Skills？看看ClaudeCode内部工程师们是怎么玩的

搞不懂Skills？看看ClaudeCode内部工程师们是怎么玩的. 2026-03-20

最新文章

凌晨的GPU终于不闲置了，我用M2.7跑通了自动化科研流水线

凌晨的GPU终于不闲置了，我用M2.7跑通了自动化科研流水线 2026-03-21

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案 2026-03-21

全球龙虾批量黑化！Meta2小时灾难击穿硅谷心脏，OpenClaw反噬来袭

全球龙虾批量黑化！Meta2小时灾难击穿硅谷心脏，OpenClaw反噬来袭 2026-03-21

MIT新研究：大模型加噪声就能替代GRPO/PPO调参

MIT新研究：大模型加噪声就能替代GRPO/PPO调参 2026-03-17

热门类别

综合性期刊物理法学地球科学历史学

相关文章

华南植物园揭示森林土壤碳稳定新机制——针叶凋落物更利于固碳南京农业大学院长团队在《Nature》子刊发表研究论文浙江大学，Nature Chemistry！吉大管景奇课题组 | 固态电池中电解质的优化策略：从实验室到产业化亚稳态超导体Fe₁.₁₁Se的合成与压力下的超导再进入 | 进展

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信