沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速3.51倍
机器学习算法与自然语言处理
2026-06-22 00:00
文章摘要
本文介绍了一项关于单步文生图模型偏好优化的新研究。背景方面,单步生成模型性能虽不断提升,但因其缺乏去噪轨迹与策略似然等信号,传统偏好优化方法难以直接应用。研究目的旨在解决单步生成模型的偏好后训练问题,特别是如何在不依赖可微奖励模型的情况下进行高效微调。研究结论方面,来自西湖大学和香港中文大学(深圳)的团队提出了DrPO(Drifting Preference Optimization)方法。该方法借鉴何恺明团队提出的漂移模型思想,通过构建漂移场来引导模型更新。DrPO的核心创新在于奖励仅用于对候选图像进行排序,而不参与反向传播,从而避免了计算负担。实验结果证明,DrPO在SD-Turbo和SDXL-Turbo上有效提升了生成质量;在使用大型奖励模型HPSv3时,相较于需反传梯度的DRaFT方法,训练速度提升了3.51倍;此外,该方法还能处理GenEval等不可微奖励,展现了良好的灵活性和通用性。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。