入选ECCV2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
机器学习算法与自然语言处理
2026-06-23 00:00
文章摘要
本文由清华大学博士生刘芳甫等研究者提出Spatial-TTT模型,该工作被计算机视觉顶会ECCV 2026接收,旨在解决多模态模型在动态真实世界中从“看懂画面”到“理解空间”的核心问题。研究背景是:在机器人、自动驾驶等场景中,空间信息分散于长时间视频流中,模型需持续更新记忆而非一次性处理。研究目的是:使模型在推理过程中边看视频边更新内部参数,形成并维护动态的3D空间记忆,突破传统方法依赖长上下文的局限。结论是:仅2B参数的Spatial-TTT在多项空间智能基准上超越GPT-5、Gemini-3-pro等闭源模型,可处理最长120分钟流式视频。其创新包括混合式TTT架构(75%TTT层负责长程记忆,25%全注意力层维持语义理解)、空间预测机制(在Q/K/V中引入3D时空卷积捕捉几何连续性)以及稠密场景描述监督(训练模型维护全局3D记忆)。实验表明,Spatial-TTT在VSI-Bench、MindCube-Tiny等基准上表现优异,同时实现超40%的显存与计算节省,为Physical Agent的持续世界状态建模提供了新路径。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。