发布求助

文献互助智能选刊最新文献

DeepSeek-R1通过强化学习激励大语言模型的推理能力 |《自然》论文

自然系列 2025-09-22 12:40

文章摘要

背景：通用推理能力是人工智能领域的长期挑战，大语言模型和思维链提示技术虽取得进展，但依赖大量人工标注数据且难以应对复杂问题。研究目的：DeepSeek团队提出通过纯强化学习激励大语言模型的推理能力，避免依赖人工标注的推理轨迹。结论：该强化学习框架能产生自我反思、验证等高级推理模式，在数学、编程等可验证任务上超越传统监督学习模型，并能指导提升小规模模型的推理能力。

DeepSeek-R1通过强化学习激励大语言模型的推理能力 |《自然》论文

查看文献： DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning
查看期刊： Nature

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

推荐文献

Science Bulletin

Science Bulletin

Local reaction-global diffusion unlocks high-performance Mg<sub>3</sub>(Sb,Bi)<sub>2</sub>-based thermoelectrics.

DOI: 10.1016/j.scib.2025.11.037 Pub Date : 2026-03-15 Date: 2025/11/21 0:00:00

IF 21.1 1区综合性期刊 Q1 Science Bulletin

iScience

iScience

Physical Crowding in 3D Niche Regulates Neural Stem Cell Differentiation via Cx43-mediated Gap Junction Communication

DOI: 10.1016/j.isci.2026.115272 Pub Date : 2026-03-01

2区综合性期刊 Q1 iScience

Nature

Nature

Live parrots were carried across the Andes before the Incas' rise.

DOI: 10.1038/d41586-026-00765-9 Pub Date : 2026-03-10

IF 64.8 1区综合性期刊 Q1 Nature

自然系列

古脊椎所&陕西省考古研究院：古DNA揭秘中国神秘的史前聚落 |《自然》论文

古脊椎所&陕西省考古研究院：古DNA揭秘中国神秘的史前聚落 |《自然》论文. 2025-12-31

分子间的“榫卯”艺术：从诺贝尔奖到皮肤科学的材料革命

分子间的“榫卯”艺术：从诺贝尔奖到皮肤科学的材料革命. 2025-12-31

编辑精选！《自然-化学工程》与《自然-催化》联合推出专题合集：百年费托合成技术

编辑精选！《自然-化学工程》与《自然-催化》联合推出专题合集：百年费托合成技术. 2025-12-31

哇，人类和海蛞蝓都努力沐浴阳光；领地之争：两只雄蛙的决斗；拯救绵羊 | 2025 《自然》科学影像年度之选

哇，人类和海蛞蝓都努力沐浴阳光；领地之争：两只雄蛙的决斗；拯救绵羊 | 2025 《自然》科学影像年度之选. 2025-12-31

从“天使综合征”到早衰症，罕见病背后的药物突破与市场动向

从“天使综合征”到早衰症，罕见病背后的药物突破与市场动向. 2025-12-30

最新文章

AROH | 2024–2025 在线文章精选：同一健康

AROH | 2024–2025 在线文章精选：同一健康 11小时前

亲密关系心理学，原来“听不听劝“藏着印象小心机！

亲密关系心理学，原来“听不听劝“藏着印象小心机！ 11小时前

$AHM\u00A0| 军事医学研究院车津晶教授团队：低温制备负载胸腺素 β4 的可溶性微针特异性结合下调的免疫调节因子 Vsig4 和 IL22rα2 促进伤口愈合$

AHM\u00A0| 军事医学研究院车津晶教授团队：低温制备负载胸腺素 β4 的可溶性微针特异性结合下调的免疫调节因子 Vsig4 和 IL22rα2 促进伤口愈合 11小时前

南京大学物理学院高力波、袁国文团队与合作者发现石墨烯的“波纹”竟能室温下抓住“高冷”的惰性气体

南京大学物理学院高力波、袁国文团队与合作者发现石墨烯的“波纹”竟能室温下抓住“高冷”的惰性气体 2026-03-11

热门类别

综合性期刊物理法学地球科学历史学

相关文章

【V19N3-4】成都理工大学王磊、孟祥豪：竞争吸附对页岩气藏储氢预测结果可靠性的影响天津大学发表Nature Communications：通过Pd–B双原子催化剂实现废塑料与硝酸盐通过C–N偶联实现甘氨酸的光合成一张滤膜，竟让PFAS检测结果“失真”？这篇新文讲透了中南民族大学郭小华教授团队在“生物活性肽智能挖掘”领域取得系列研究进展智能建造技术的现状与未来 Engineering

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信