发布求助

文献互助智能选刊最新文献

梁文锋发表Nature封面论文：揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力

计算材料学 2025-09-22 18:48

文章摘要

本文介绍了DeepSeek研究团队在Nature发表的封面论文，该研究背景是大语言模型虽然展现出推理能力，但传统方法依赖大量人类标注，成本高昂且性能受限。研究目的是探索通过纯强化学习方法减少对人类标注的依赖，让模型自主发展推理能力。研究结果表明，采用组相对策略优化的强化学习框架训练出的DeepSeek-R1模型在数学、编程等复杂任务上表现卓越，推理能力显著提升，同时揭示了模型训练中的"顿悟时刻"和新兴推理行为。结论指出该方法为开发更自主的大语言模型提供了新路径，但也面临伦理安全、语言混合等挑战。

梁文锋发表Nature封面论文：揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力

查看文献： DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning
查看期刊： Nature

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

推荐文献

Science Bulletin

Science Bulletin

Local reaction-global diffusion unlocks high-performance Mg<sub>3</sub>(Sb,Bi)<sub>2</sub>-based thermoelectrics.

DOI: 10.1016/j.scib.2025.11.037 Pub Date : 2026-03-15 Date: 2025/11/21 0:00:00

IF 21.1 1区综合性期刊 Q1 Science Bulletin

iScience

iScience

Physical Crowding in 3D Niche Regulates Neural Stem Cell Differentiation via Cx43-mediated Gap Junction Communication

DOI: 10.1016/j.isci.2026.115272 Pub Date : 2026-03-01

2区综合性期刊 Q1 iScience

Nature

Nature

Live parrots were carried across the Andes before the Incas' rise.

DOI: 10.1038/d41586-026-00765-9 Pub Date : 2026-03-10

IF 64.8 1区综合性期刊 Q1 Nature

计算材料学

(纯计算)印度科学学院Nano Lett.: Ti-Cr-C MXenes中的常规和谷极化量子反常霍尔相

(纯计算)印度科学学院Nano Lett.: Ti-Cr-C MXenes中的常规和谷极化量子反常霍尔相. 2025-12-30

佛山大学物理与光电工程学院本科生在一年内连续发表4篇Physical Review B

佛山大学物理与光电工程学院本科生在一年内连续发表4篇Physical Review B. 2025-12-30

非化学计量钍基碳化物局部晶格畸变与热力学性质研究

非化学计量钍基碳化物局部晶格畸变与热力学性质研究. 2025-12-30

佛山大学诚聘海内外高层次人才！

佛山大学诚聘海内外高层次人才！. 2025-12-30

AI4S回归白盒符号主义，清华等联合发布SR-LLM：自主发现科学知识

AI4S回归白盒符号主义，清华等联合发布SR-LLM：自主发现科学知识. 2025-12-30

最新文章

天津大学发表Nature Communications：通过Pd–B双原子催化剂实现废塑料与硝酸盐通过C–N偶联实现甘氨酸的光合成

天津大学发表Nature Communications：通过Pd–B双原子催化剂实现废塑料与硝酸盐通过C–N偶联实现甘氨酸的光合成 9小时前

西南大学耿豪杰/李念兵&重庆大学冉景煜Nature子刊 | Rh-Cu 双原子催化剂高效催化甲烷氧化制甲醇！

西南大学耿豪杰/李念兵&重庆大学冉景煜Nature子刊 | Rh-Cu 双原子催化剂高效催化甲烷氧化制甲醇！ 9小时前

新学期加顶刊buff！华算科技理论计算7折大放送，第一性原理/量子化学/生物模拟等全包含，速来锁定！

新学期加顶刊buff！华算科技理论计算7折大放送，第一性原理/量子化学/生物模拟等全包含，速来锁定！ 9小时前

天津大学&华南理工大学，重磅Nature！

天津大学&华南理工大学，重磅Nature！ 9小时前

热门类别

综合性期刊物理法学地球科学历史学

相关文章

【V19N3-4】成都理工大学王磊、孟祥豪：竞争吸附对页岩气藏储氢预测结果可靠性的影响天津大学发表Nature Communications：通过Pd–B双原子催化剂实现废塑料与硝酸盐通过C–N偶联实现甘氨酸的光合成一张滤膜，竟让PFAS检测结果“失真”？这篇新文讲透了中南民族大学郭小华教授团队在“生物活性肽智能挖掘”领域取得系列研究进展智能建造技术的现状与未来 Engineering

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信