人工智能也要考默写?Deepseek v4:百万上下文背不完,根本背不完!

中科院物理所 2026-04-27 11:22
文章摘要
本文以通俗方式介绍了DeepSeek-V4模型实现百万上下文的关键技术。背景:大语言模型基于2017年提出的注意力机制(QKV矩阵)处理语言,但长上下文会导致显存爆炸、计算量平方增长(n²)及信息稀释问题。早期方案如GQA(分组查询注意力)通过共享KV节省资源。研究目的:解决传统上下文压缩方法(CSA)的“注意力涣散”缺陷,即筛选器可能遗漏重要信息。结论:DeepSeek-V4采用混合注意力架构,将CSA(每32个KV压缩为1个并稀疏筛选)与HCA(每128个KV重度压缩为1个且全量关注)交替排列,模拟人类短期、中期、长期记忆的三级结构。该设计使模型在百万token长度下兼顾细节保留与远距离记忆,计算和存储效率显著提升,在长上下文评测中超越Gemini-3.1-Pro,成为最强开源模型之一。
人工智能也要考默写?Deepseek v4:百万上下文背不完,根本背不完!
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
中科院物理所
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信
小红书