多目标强化学习新突破!给GRPO加上运筹外挂,7B模型硬刚GPT-4
PaperWeekly
2026-02-28 13:12
文章摘要
本文介绍了Li Auto团队为ICASSP 2025提出的一种名为超体积优化的多目标强化学习新框架。研究背景是文本摘要任务需要同时优化一致性、连贯性、流畅性和相关性等多个目标,但传统方法如加权线性组合存在人工依赖和无法有效处理目标冲突的局限。研究目的是为了解决多目标优化中的不平衡问题,提出基于GRPO框架的HVO方法,通过引入超体积指标动态调整奖励,并加入长度约束机制,以引导模型逼近帕累托前沿。实验结果表明,在CNN/DailyMail和BillSum数据集上,使用Qwen 2.5-7B-Instruct基座的HVO模型在整体性能和平衡性上媲美GPT-4,且无需监督微调,生成的摘要更简洁,证明了小规模开源模型在特定任务上的潜力。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。