发布求助

文献互助智能选刊最新文献

从模仿到优化：On-PolicyDistillation近期工作速览

机器学习算法与自然语言处理 2026-06-19 00:00

文章摘要

本文综述了On-Policy Distillation（OPD）在大语言模型后训练中的最新进展。背景方面，随着强化学习探索成本增加，OPD作为一种更经济的训练范式受到关注，它通过在学生模型自身采样轨迹上提供逐token密集监督，消除了离线蒸馏的分布失配问题。研究目的旨在系统梳理OPD的优化方法、自蒸馏策略及机制分析。结论包括三个方向：1）训练稳定化方面，EOPD根据教师分布熵动态调整蒸馏目标以平衡精确学习与多样性，AOPD采用不对称优化框架在正advantage区域使用策略梯度、非正区域使用局部KL散度，REOPOLD通过放松模仿约束实现样本效率提升；2）自蒸馏方面，UniSD构建统一框架整合EMA Teacher、对比学习等机制，OPSD让模型利用特权信息自我蒸馏，无需外部教师；3）机制分析揭示OPD的三种失效模式（分布失配、梯度偏差、聚合局限），并指出关键学习信号集中于学生熵高或师生分歧大的token，结合不确定性选择可显著降低计算成本。总体而言，OPD正在从“无条件模仿”走向“有判断地学习”，为后训练提供高效稳健的方案。

从模仿到优化：On-PolicyDistillation近期工作速览

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

刚刚，Codex负责人官方发声：Codex原生支持其他模型！

刚刚，Codex负责人官方发声：Codex原生支持其他模型！. 22小时前

Fable5准备复活？Anthropic联创：我们彻底低估了Scaling

Fable5准备复活？Anthropic联创：我们彻底低估了Scaling. 22小时前

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍. 22小时前

xOPD演进｜梳理近期OPD的改进工作：哪些是同一个问题换说法、哪些是动了不同的模块

xOPD演进｜梳理近期OPD的改进工作：哪些是同一个问题换说法、哪些是动了不同的模块. 22小时前

刚刚，诺贝尔奖得主成Anthropic新员工！

刚刚，诺贝尔奖得主成Anthropic新员工！. 2026-06-20

最新文章

xOPD演进｜梳理近期OPD的改进工作：哪些是同一个问题换说法、哪些是动了不同的模块

xOPD演进｜梳理近期OPD的改进工作：哪些是同一个问题换说法、哪些是动了不同的模块 22小时前

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍 22小时前

Fable5准备复活？Anthropic联创：我们彻底低估了Scaling

Fable5准备复活？Anthropic联创：我们彻底低估了Scaling 22小时前

刚刚，Codex负责人官方发声：Codex原生支持其他模型！

刚刚，Codex负责人官方发声：Codex原生支持其他模型！ 22小时前

热门类别

综合性期刊物理法学地球科学历史学

相关文章

文献速递|重庆大学ACB:用于处理难处理工业废水的自调节过氧化钙-臭氧系统：机理阐明、中试应用及技术经济分析文献速递|浙江大学JHM:内生真菌通过重塑根际土壤微生物群落，促进Salix suchowensis的生长并提升其植物修复能力上海有机所王晓明课题组：双功能手性双核镍催化方面取得进展 Org. Lett. | 银添加剂促进铜催化环化与烯烃转位的机制研究 SEH论文 | 土豆生产中温室气体排放：覆盖作物、起垄时间和灌溉的相互作用

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信

小红书