发布求助

文献互助智能选刊最新文献

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍

机器学习算法与自然语言处理 2026-06-22 00:00

文章摘要

本文介绍了一项关于单步文生图模型偏好优化的新研究。背景方面，单步生成模型性能虽不断提升，但因其缺乏去噪轨迹与策略似然等信号，传统偏好优化方法难以直接应用。研究目的旨在解决单步生成模型的偏好后训练问题，特别是如何在不依赖可微奖励模型的情况下进行高效微调。研究结论方面，来自西湖大学和香港中文大学（深圳）的团队提出了DrPO（Drifting Preference Optimization）方法。该方法借鉴何恺明团队提出的漂移模型思想，通过构建漂移场来引导模型更新。DrPO的核心创新在于奖励仅用于对候选图像进行排序，而不参与反向传播，从而避免了计算负担。实验结果证明，DrPO在SD-Turbo和SDXL-Turbo上有效提升了生成质量；在使用大型奖励模型HPSv3时，相较于需反传梯度的DRaFT方法，训练速度提升了3.51倍；此外，该方法还能处理GenEval等不可微奖励，展现了良好的灵活性和通用性。

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

刚刚，Codex负责人官方发声：Codex原生支持其他模型！

刚刚，Codex负责人官方发声：Codex原生支持其他模型！. 2026-06-21

Fable5准备复活？Anthropic联创：我们彻底低估了Scaling

Fable5准备复活？Anthropic联创：我们彻底低估了Scaling. 2026-06-21

xOPD演进｜梳理近期OPD的改进工作：哪些是同一个问题换说法、哪些是动了不同的模块

xOPD演进｜梳理近期OPD的改进工作：哪些是同一个问题换说法、哪些是动了不同的模块. 2026-06-21

刚刚，诺贝尔奖得主成Anthropic新员工！

刚刚，诺贝尔奖得主成Anthropic新员工！. 2026-06-20

哈？改个URL就行！alphaXiv甩出论文复现神器，单卡也能跑

哈？改个URL就行！alphaXiv甩出论文复现神器，单卡也能跑. 2026-06-20

最新文章

xOPD演进｜梳理近期OPD的改进工作：哪些是同一个问题换说法、哪些是动了不同的模块

xOPD演进｜梳理近期OPD的改进工作：哪些是同一个问题换说法、哪些是动了不同的模块 2026-06-21

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍 2026-06-21

Fable5准备复活？Anthropic联创：我们彻底低估了Scaling

Fable5准备复活？Anthropic联创：我们彻底低估了Scaling 2026-06-21

刚刚，Codex负责人官方发声：Codex原生支持其他模型！

刚刚，Codex负责人官方发声：Codex原生支持其他模型！ 2026-06-21

热门类别

综合性期刊物理法学地球科学历史学

相关文章

文献速递|重庆大学ACB:用于处理难处理工业废水的自调节过氧化钙-臭氧系统：机理阐明、中试应用及技术经济分析文献速递|浙江大学JHM:内生真菌通过重塑根际土壤微生物群落，促进Salix suchowensis的生长并提升其植物修复能力【CCL文章Twitter关注破万】烟台大学史超：基于硒取代的尼罗蓝染料构建的集新鲜度监测与抗菌保鲜为一体的多功能智能包装膜上海有机所王晓明课题组：双功能手性双核镍催化方面取得进展董广彬团队：“裁剪-缝合” 苯并稠合多环分子的合成

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信

小红书