发布求助

文献互助智能选刊最新文献

人工智能也要考默写？Deepseek v4:百万上下文背不完，根本背不完！

中科院物理所 2026-04-27 11:22

文章摘要

本文以通俗方式介绍了DeepSeek-V4模型实现百万上下文的关键技术。背景：大语言模型基于2017年提出的注意力机制（QKV矩阵）处理语言，但长上下文会导致显存爆炸、计算量平方增长（n²）及信息稀释问题。早期方案如GQA（分组查询注意力）通过共享KV节省资源。研究目的：解决传统上下文压缩方法（CSA）的“注意力涣散”缺陷，即筛选器可能遗漏重要信息。结论：DeepSeek-V4采用混合注意力架构，将CSA（每32个KV压缩为1个并稀疏筛选）与HCA（每128个KV重度压缩为1个且全量关注）交替排列，模拟人类短期、中期、长期记忆的三级结构。该设计使模型在百万token长度下兼顾细节保留与远距离记忆，计算和存储效率显著提升，在长上下文评测中超越Gemini-3.1-Pro，成为最强开源模型之一。

人工智能也要考默写？Deepseek v4:百万上下文背不完，根本背不完！

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

中科院物理所

持续50年的“地中海超级洪水”神话，可能并不存在

持续50年的“地中海超级洪水”神话，可能并不存在. 2026-05-26

海拔4000米长出了“大白菜”？它蛰伏数十年，只为一生一次的悲壮绽放

海拔4000米长出了“大白菜”？它蛰伏数十年，只为一生一次的悲壮绽放. 2026-05-26

为啥半夜醒来千万不要看时间？

为啥半夜醒来千万不要看时间？. 2026-05-26

为了研究蚊子的飞行轨迹，他与100只饥肠辘辘的蚊子共处了4分钟…

为了研究蚊子的飞行轨迹，他与100只饥肠辘辘的蚊子共处了4分钟…. 2026-05-25

我们为什么能从音乐中感知到情感？

我们为什么能从音乐中感知到情感？. 2026-05-25

最新文章

华东理工赵伟军、朱为宏团队 Angew：红光有机塑料闪烁体研究新进展

华东理工赵伟军、朱为宏团队 Angew：红光有机塑料闪烁体研究新进展 2026-05-26

华科大谭必恩/合工大何涛、夏磊 Nat. Commun.：异质光催化剂实现大规模、宽波段且耐氧、抗阻聚剂的光驱动原子转移自由基聚合

华科大谭必恩/合工大何涛、夏磊 Nat. Commun.：异质光催化剂实现大规模、宽波段且耐氧、抗阻聚剂的光驱动原子转移自由基聚合 2026-05-26

浙工大吴化平教授团队 CEJ: 软硬磁复合形状记忆水凝胶实现可重编程驱动与形状固定

浙工大吴化平教授团队 CEJ: 软硬磁复合形状记忆水凝胶实现可重编程驱动与形状固定 2026-05-26

上海交大颜徐州、张照明/西安交大白瑞雪 Angew：生物基共价自适应寡聚轮烷网络

上海交大颜徐州、张照明/西安交大白瑞雪 Angew：生物基共价自适应寡聚轮烷网络 2026-05-26

热门类别

综合性期刊物理法学地球科学历史学

相关文章

南京农业大学院长团队发表《Science》论文、在顶级期刊再获研究进展西安交通大学杨贵东、林波团队联合南洋理工大学刘政教授AM：二维高熵磷硫族化物用于高效太阳能驱动二氧化碳还原制乙烯文献速递|武汉大学ACB:固定化CuOx网状结构内多结的自适应同步调制，用于实现持久的光催化耦合亚硫酸盐基高级氧化过程文献速递|北京林业大学CEJ:环糊精支撑的硫化物零价铁作为PMS激活剂，用于再生水中同时去除诺氟沙星和抗生素耐药基因：活性组分. 重磅 | 壳聚糖领域近十年 ESI 高被引论文和热点论文解析（2026年5月）

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信

小红书