LeCun、谢赛宁转发的世界模型与VLA共融方案:中关村学院ECCV2026—VLA-JEPA
机器学习算法与自然语言处理
2026-06-24 08:35
文章摘要
本文介绍了一种面向视觉-语言-动作(VLA)模型的新框架VLA-JEPA,由中科大、北京中关村学院、上海交通大学等机构联合提出。研究背景方面,现有VLA模型依赖大量机器人数据,但采集成本高、规模有限;同时,基于人类视频的潜动作预训练方法存在像素级目标偏向外观、放大无关噪声、信息泄漏和多阶段训练复杂等问题。研究目的是改进VLA模型利用人类视频和有限机器人数据的能力,使其学习"动作如何改变世界"而非像素变化。方法上,VLA-JEPA借鉴Yann LeCun的JEPA路线,在潜在表征空间中学习预测世界状态的变化,使用V-JEPA2编码器映射视频帧到世界状态表示,通过预测器基于当前状态和潜动作预测未来状态,并在有动作标注的机器人数据上接入flow matching动作头。结论表明,该方法在LIBERO基准上达到97.2%平均成功率,在LIBERO-Plus上达78.1%,且在实际机器人实验中展示了从人类视频学到的"二次抓取"等恢复行为。该框架将人类视频重新定位为"世界动态先验",增强了VLA模型的鲁棒性和数据效率,但未能替代高质量机器人数据。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。