DeepSeek-AI梁文锋论文登上《Nature》封面,打破独立同行评审先例

Book学术 2025-09-19 13:20
文章摘要
背景:当前主流大语言模型普遍缺乏独立同行评审验证。研究目的:DeepSeek团队旨在开发一种基于纯强化学习的训练方法,使大语言模型自发形成复杂推理能力,摆脱对人工标注数据的依赖。结论:通过群体相对策略优化(GRPO)框架,模型成功演化出多样化推理策略,在多个基准测试中表现优异,最终形成的DeepSeek-R1模型在保持推理能力的同时提升了综合任务性能,成为首个通过《自然》期刊同行评审的大语言模型研究。
DeepSeek-AI梁文锋论文登上《Nature》封面,打破独立同行评审先例
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
Book学术
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信