发布求助

文献互助智能选刊最新文献

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

学术头条 2025-05-28 16:53

文章摘要

这篇论文挑战了当前大语言模型（LLM）与强化学习（RL）结合的传统观点，特别是可验证奖励强化学习（RLVR）的有效性。研究发现，使用虚假奖励（如随机奖励或错误奖励）训练Qwen2.5-Math-7B模型，竟然也能显著提升数学推理基准MATH-500的成绩，提升幅度接近真实奖励的效果。然而，这种效果并非在所有模型中都适用，例如在Llama3和OLMo2模型中表现有限。论文进一步探讨了虚假奖励生效的原因，指出这与模型预训练中学到的特定推理策略（如代码推理）密切相关。研究还发现，通过提示或强化学习诱导模型使用代码推理，可以进一步提升Qwen模型的性能，但对其他模型可能产生负面影响。最后，论文建议未来的RLVR研究应在更多样化的模型上进行验证，并更深入地理解预训练对下游任务的影响。

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

学术头条

Science警告：AI导致「专利申请」泛滥，传统科学家或成最大受害者

Science警告：AI导致「专利申请」泛滥，传统科学家或成最大受害者. 2025-05-31

美国能源部官宣下一代超级计算机“Doudna”：赢得全球AI主导权竞赛

美国能源部官宣下一代超级计算机“Doudna”：赢得全球AI主导权竞赛. 2025-05-30

还傻傻分不清AI Agent和Agentic AI？康奈尔大学最新综述来了，一文读懂！

还傻傻分不清AI Agent和Agentic AI？康奈尔大学最新综述来了，一文读懂！. 2025-05-29

被「AI for Science」的炒作骗了？有位科学家遭遇了惨痛的教训

被「AI for Science」的炒作骗了？有位科学家遭遇了惨痛的教训. 2025-05-26

清华李涓子团队：让推理模型学会何时思考；上海AI Lab提出“视觉代理强化微调”｜大模型论文

清华李涓子团队：让推理模型学会何时思考；上海AI Lab提出“视觉代理强化微调”｜大模型论文. 2025-05-25

最新文章

Science警告：AI导致「专利申请」泛滥，传统科学家或成最大受害者

Science警告：AI导致「专利申请」泛滥，传统科学家或成最大受害者 2025-05-31

美国能源部官宣下一代超级计算机“Doudna”：赢得全球AI主导权竞赛

美国能源部官宣下一代超级计算机“Doudna”：赢得全球AI主导权竞赛 2025-05-30

还傻傻分不清AI Agent和Agentic AI？康奈尔大学最新综述来了，一文读懂！

还傻傻分不清AI Agent和Agentic AI？康奈尔大学最新综述来了，一文读懂！ 2025-05-29

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了 2025-05-28

热门类别

综合性期刊物理法学地球科学历史学

相关文章

文献分享|一种优化的CYP3A4激活型荧光传感器，用于原位功能成像和多维抑制剂评估最新！湖南农业大学刘仲华院士团队发表“黑茶风味”重要综述【他山之石】南京师范大学和新加坡南洋理工大学合作文章："掀浪"：从铁结合有机碳视角评价铁强化化学一级处理技术在污水资源回收中应用华东师范大学博士生一作在Ecology letters发表论文：微生物生活史策略调节干旱对木材分解的抑制效应贵州师范大学喀斯特研究院蓝家程教授团队在土壤科学领域TOP期刊上发表研究论文

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：481959085

Book学术官方微信