🤔什么?SFT、DAgger、离线RL和OPD,竟然是同一张2×2表格上的四个格子!
机器学习算法与自然语言处理
2026-06-16 09:00
文章摘要
本文聚焦大语言模型(LLM)后训练中的两大主流范式——离策略蒸馏(off-policy distillation)与在策略蒸馏(on-policy distillation,OPD),揭示了它们在传统理解中被视为独立方法的背后,实际上共享一个由两个独立设计维度构成的统一框架。研究团队来自东方理工、香港理工大学等机构,通过理论推导,将这两个范式解耦为"prefix来源"(教师轨迹与学生轨迹)和"KL方向"(正向与反向)两个正交轴。经过笛卡尔积,经典的监督微调(SFT)、数据集聚合(DAgger)、离线强化学习(offline RL)和在策略蒸馏(OPD)恰好对应四个格子。实验表明,现有的序列级推导默认将这两个维度耦合,导致了三个此前被忽视的权衡:1) KL方向权衡精度与熵(多样性);2) Prefix来源权衡质量与算力;3) 训练长度权衡精度与稳定性。基于这些发现,研究提出两个实用方法:KL mixing(token级混合前沿与反向KL,需保证足够的前沿权重以抑制熵崩塌)和 entropy-gated长度课程(基于预测熵动态调整训练序列长度)。实验验证,这些方法在不损失精度前提下,显著改善了生成多样性、缩短了推理长度,并稳定了后续RL阶段的表现。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。