北航,清华,北大联合发布:异构智能体协同强化学习!
机器学习算法与自然语言处理
2026-03-21 00:00
文章摘要
本文针对当前大模型强化学习微调中存在的采样成本高、异构数据利用率低的问题,提出了一种全新的异构智能体协同强化学习(HACRL)范式。该范式的核心在于,让多个在参数状态、模型规模或架构上存在差异的智能体在训练阶段共享经过验证的轨迹(rollouts)进行协同策略优化,而在推理阶段各自独立部署。为实现这一范式,研究提出了异构协同策略优化(HACPO)算法,通过智能体能力感知的优势估计、模型能力差异系数、指数重要性采样和逐步裁剪四项关键技术,有效弥合了异构智能体间的能力与策略分布差异。实验结果表明,在多个数学推理基准上,HACPO能使所有参与智能体的性能均获得提升,平均性能超越基线方法3.3%,同时仅需一半的采样成本,实现了效率与效果的双重提升。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。