发布求助

文献互助智能选刊最新文献

MIT新研究：大模型加噪声就能替代GRPO/PPO调参

机器学习算法与自然语言处理 2026-03-17 08:03

文章摘要

背景：传统上，专家模型需要通过梯度下降或强化学习等复杂调参方法训练获得。研究目的：MIT研究提出，预训练模型权重空间周围密集存在大量“专家模型”（神经丛林现象），无需复杂调参，通过简单随机扰动和集成即可获得高性能。结论：基于此提出RandOpt算法，通过添加高斯噪声、选择最佳扰动模型并集成投票，在多项任务上达到或超越GRPO/PPO等传统方法性能，且模型越大效果越显著，但依赖优质预训练且目前适用于有明确答案的任务。

MIT新研究：大模型加噪声就能替代GRPO/PPO调参

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

全球龙虾批量黑化！Meta2小时灾难击穿硅谷心脏，OpenClaw反噬来袭

全球龙虾批量黑化！Meta2小时灾难击穿硅谷心脏，OpenClaw反噬来袭. 2026-03-21

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案. 2026-03-21

凌晨的GPU终于不闲置了，我用M2.7跑通了自动化科研流水线

凌晨的GPU终于不闲置了，我用M2.7跑通了自动化科研流水线. 2026-03-21

Cursor自研模型反超Opus4.6！价格脚踝斩，氛围编程沸腾了

Cursor自研模型反超Opus4.6！价格脚踝斩，氛围编程沸腾了. 2026-03-20

搞不懂Skills？看看ClaudeCode内部工程师们是怎么玩的

搞不懂Skills？看看ClaudeCode内部工程师们是怎么玩的. 2026-03-20

最新文章

凌晨的GPU终于不闲置了，我用M2.7跑通了自动化科研流水线

凌晨的GPU终于不闲置了，我用M2.7跑通了自动化科研流水线 2026-03-21

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案 2026-03-21

全球龙虾批量黑化！Meta2小时灾难击穿硅谷心脏，OpenClaw反噬来袭

全球龙虾批量黑化！Meta2小时灾难击穿硅谷心脏，OpenClaw反噬来袭 2026-03-21

MIT新研究：大模型加噪声就能替代GRPO/PPO调参

MIT新研究：大模型加噪声就能替代GRPO/PPO调参 2026-03-17

热门类别

综合性期刊物理法学地球科学历史学

相关文章

中科院地理资源所土地利用小组招收客座研究生邓蕾课题组《Global Change Biology》最新成果！首次揭示中国陆地生态系统的理论固碳潜力华南植物园揭示森林土壤碳稳定新机制——针叶凋落物更利于固碳南京农业大学院长团队在《Nature》子刊发表研究论文浙江大学，Nature Chemistry！

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信