ICLR 2026 | 大模型的无监督强化学习能走多远?清华团队给出了系统性答案
机器学习算法与自然语言处理
2026-03-22 00:00
文章摘要
背景:随着大模型的发展,强化学习正从监督式转向无监督式,以应对人工标注成本高昂和模型超越人类专家时缺乏可靠评分的问题。无监督RLVR(可验证奖励强化学习)应运而生,旨在让模型在没有人工标注的情况下持续进化。研究目的:清华团队系统研究了无监督RLVR的内在机制,特别是基于模型自身信号的内在奖励方法,探索其可扩展性和边界,并寻找替代方案。结论:研究发现,所有内在奖励方法本质上都在锐化模型已有的偏好,导致训练初期性能快速提升,但到达临界点后不可逆地崩溃,这取决于模型初始的“置信度-正确性”对齐程度。然而,在小规模测试时训练中,内在奖励仍能稳定提升性能。团队还提出了一个“预言指标”来预判模型的RL可训练性,无需完整训练。同时,外部奖励方法(如利用生成-验证不对称性)展现出持续改进的潜力,突破了内在奖励的天花板,为可扩展的无监督强化学习指明了方向。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。