别再让AI“只看不搜”,真正解决问题需要它自己去查资料
数据派THU
2026-01-28 17:00
文章摘要
背景:现有的多模态模型在视频问答任务中通常局限于视频内容本身,缺乏结合外部信息进行深度推理的能力,这与人类“观看-搜索-综合”的真实问题解决模式存在差距。研究目的:为了评估AI模型结合视频线索与网络搜索进行多跳推理的能力,研究团队推出了首个视频深度研究评测基准VideoDR,旨在推动能进行开放网络深度研究的智能视频代理的发展。结论:评测显示,Gemini-3-pro-preview和GPT-5.2等闭源模型表现领先,但“端到端”的代理模式并非万能,在长视频或复杂任务中易出现目标漂移和记忆衰退;工作流模式因具有显式中间文本作为外部记忆而展现出优势。未来的视频智能体需在保持长程视觉一致性上取得突破。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。