多模态Deep Research,终于有了「可核验」的评测标准

数据派THU 2026-02-24 17:00
文章摘要
背景:随着多模态深度研究智能体的普及,现有评估方法多关注文本生成质量或短问答,难以对涉及图像证据的端到端研究过程进行可靠验证,存在“幻觉”和证据引用不实等问题。研究目的:为解决上述问题,俄亥俄州立大学与Amazon Science等机构联合推出了MMDR-Bench基准,旨在为多模态深度研究智能体建立一个过程可核验、证据可追溯、断言可对齐的硬性评估标准。结论:该基准包含140个专家任务,覆盖19个领域,并通过FLAE、TRACE和MOSAIC三段管线进行多维度评估,强调证据链的可靠性而非唯一答案。实验表明,写作能力强的模型未必证据对齐扎实,凸显了将评估重点从“能写”转向“能被查”的重要性,为智能体的可工程化迭代提供了明确信号。
多模态Deep Research,终于有了「可核验」的评测标准
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
数据派THU
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信