发布求助

文献互助智能选刊最新文献

🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！

机器学习算法与自然语言处理 2026-06-16 09:00

文章摘要

本文聚焦大语言模型(LLM)后训练中的两大主流范式——离策略蒸馏(off-policy distillation)与在策略蒸馏(on-policy distillation,OPD)，揭示了它们在传统理解中被视为独立方法的背后，实际上共享一个由两个独立设计维度构成的统一框架。研究团队来自东方理工、香港理工大学等机构，通过理论推导，将这两个范式解耦为"prefix来源"(教师轨迹与学生轨迹)和"KL方向"(正向与反向)两个正交轴。经过笛卡尔积，经典的监督微调(SFT)、数据集聚合(DAgger)、离线强化学习(offline RL)和在策略蒸馏(OPD)恰好对应四个格子。实验表明，现有的序列级推导默认将这两个维度耦合，导致了三个此前被忽视的权衡：1) KL方向权衡精度与熵(多样性)；2) Prefix来源权衡质量与算力；3) 训练长度权衡精度与稳定性。基于这些发现，研究提出两个实用方法：KL mixing(token级混合前沿与反向KL，需保证足够的前沿权重以抑制熵崩塌)和 entropy-gated长度课程(基于预测熵动态调整训练序列长度)。实验验证，这些方法在不损失精度前提下，显著改善了生成多样性、缩短了推理长度，并稳定了后续RL阶段的表现。

🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

提示词工程已死，LoopEngineering来了！

提示词工程已死，LoopEngineering来了！. 11小时前

顶会开头怎么写？拆解956篇CVPRHighlight，一文搞定摘要与引言

顶会开头怎么写？拆解956篇CVPRHighlight，一文搞定摘要与引言. 11小时前

ICML2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击

ICML2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击. 11小时前

仅一行代码，Fable5复活了！

仅一行代码，Fable5复活了！. 2026-06-15

图片越糊越危险？西湖大学发现多模态大模型「攻击舒适区」

图片越糊越危险？西湖大学发现多模态大模型「攻击舒适区」. 2026-06-15

最新文章

🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！

🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！ 11小时前

ICML2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击

ICML2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击 11小时前

顶会开头怎么写？拆解956篇CVPRHighlight，一文搞定摘要与引言

顶会开头怎么写？拆解956篇CVPRHighlight，一文搞定摘要与引言 11小时前

提示词工程已死，LoopEngineering来了！

提示词工程已死，LoopEngineering来了！ 11小时前

热门类别

综合性期刊物理法学地球科学历史学

相关文章

文献速递 | 吉林师范大学刘春波教授团队SPT: 原位生长蜂巢状一体化S掺杂的g-C3N4-NiCo2O4全天候超高效活化PMS 蒸发材料0609丨西南民族大学SPT论文丨海蜇状多孔水凝胶三维蒸发器用于Cs⁺的高效选择性吸附文献速递|中国科学院南京土壤研究所ACB:Fe-Co双原子催化剂中协同作用的Fe-N4和Co-N4位点驱动PMS的高效活化 Nat Nanotechnol | “挤”进去的药物，中国科学技术大学王育才等揭示微转移灶如何通过压迫邻近血管帮纳米粒子“开门”？ 🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信

小红书