发布求助

文献互助智能选刊最新文献

清华团队打造TDRM：基于时间差分学习平滑奖励模型

学术头条 2025-10-09 12:00

文章摘要

本文针对大语言模型强化学习中奖励模型缺乏时间一致性的问题，提出TDRM框架。研究背景是现有奖励模型在推理轨迹中相邻步骤奖励无关，导致训练不稳定和误导信号。研究目的是通过时间差分学习构建平滑奖励模型，结合过程奖励与可验证奖励提升性能。结论表明TDRM在Best-of-N和树搜索中最高提升23.7%性能，强化学习数据效率提升20倍，在多个模型变体上验证了其有效性。

清华团队打造TDRM：基于时间差分学习平滑奖励模型

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

学术头条

刚刚，2025年诺贝尔物理学奖揭晓！

刚刚，2025年诺贝尔物理学奖揭晓！. 2025-10-07

刚刚，2025年诺贝尔生理学或医学奖揭晓！

刚刚，2025年诺贝尔生理学或医学奖揭晓！. 2025-10-06

大模型的智能体转向：Agentic 强化学习全景综述

大模型的智能体转向：Agentic 强化学习全景综述. 2025-10-05

刚刚，智谱发布旗舰模型GLM-4.6：代码能力全面进阶

刚刚，智谱发布旗舰模型GLM-4.6：代码能力全面进阶. 2025-09-30

颠覆大模型后训练！陈丹琦团队提出「基于模型奖励思维的强化学习」RLMT

颠覆大模型后训练！陈丹琦团队提出「基于模型奖励思维的强化学习」RLMT. 2025-09-29

最新文章

清华团队打造TDRM：基于时间差分学习平滑奖励模型

清华团队打造TDRM：基于时间差分学习平滑奖励模型 2025-10-09

刚刚，2025年诺贝尔物理学奖揭晓！

刚刚，2025年诺贝尔物理学奖揭晓！ 2025-10-07

刚刚，2025年诺贝尔生理学或医学奖揭晓！

刚刚，2025年诺贝尔生理学或医学奖揭晓！ 2025-10-06

大模型的智能体转向：Agentic 强化学习全景综述

大模型的智能体转向：Agentic 强化学习全景综述 2025-10-05

热门类别

综合性期刊物理法学地球科学历史学

相关文章

三院院士孙学良团队，再发Science！ ACS Nano | 武汉大学：二维NiS/MoS₂垂直异质结用于亚100 nm晶体管的构筑徐勇庆、潘正秋、余柏呈，等人 ACS SCE | 原位合成水热炭功能化CaO复合材料用于高温CO₂捕集文献速递|南京理工大学JCIS:嵌入氮、硫掺杂碳/MXene的磷化钴上的电子转移机制引发的优异双酚A去除性能北建大王崇臣和临沂大学胡尊富团队WR：在蒙脱石/g-C3N4异质结上精确合成铁单原子催化剂用于高效类芬顿降解有机污染物

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信