从模仿到优化:On-PolicyDistillation近期工作速览
机器学习算法与自然语言处理
2026-06-19 00:00
文章摘要
本文综述了On-Policy Distillation(OPD)在大语言模型后训练中的最新进展。背景方面,随着强化学习探索成本增加,OPD作为一种更经济的训练范式受到关注,它通过在学生模型自身采样轨迹上提供逐token密集监督,消除了离线蒸馏的分布失配问题。研究目的旨在系统梳理OPD的优化方法、自蒸馏策略及机制分析。结论包括三个方向:1)训练稳定化方面,EOPD根据教师分布熵动态调整蒸馏目标以平衡精确学习与多样性,AOPD采用不对称优化框架在正advantage区域使用策略梯度、非正区域使用局部KL散度,REOPOLD通过放松模仿约束实现样本效率提升;2)自蒸馏方面,UniSD构建统一框架整合EMA Teacher、对比学习等机制,OPSD让模型利用特权信息自我蒸馏,无需外部教师;3)机制分析揭示OPD的三种失效模式(分布失配、梯度偏差、聚合局限),并指出关键学习信号集中于学生熵高或师生分歧大的token,结合不确定性选择可显著降低计算成本。总体而言,OPD正在从“无条件模仿”走向“有判断地学习”,为后训练提供高效稳健的方案。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。