发布求助

文献互助智能选刊最新文献

多模态Deep Research，终于有了「可核验」的评测标准

数据派THU 2026-02-24 17:00

文章摘要

背景：随着多模态深度研究智能体的普及，现有评估方法多关注文本生成质量或短问答，难以对涉及图像证据的端到端研究过程进行可靠验证，存在“幻觉”和证据引用不实等问题。研究目的：为解决上述问题，俄亥俄州立大学与Amazon Science等机构联合推出了MMDR-Bench基准，旨在为多模态深度研究智能体建立一个过程可核验、证据可追溯、断言可对齐的硬性评估标准。结论：该基准包含140个专家任务，覆盖19个领域，并通过FLAE、TRACE和MOSAIC三段管线进行多维度评估，强调证据链的可靠性而非唯一答案。实验表明，写作能力强的模型未必证据对齐扎实，凸显了将评估重点从“能写”转向“能被查”的重要性，为智能体的可工程化迭代提供了明确信号。

多模态Deep Research，终于有了「可核验」的评测标准

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

数据派THU

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠. 19小时前

阅读7千万文章硅谷爆火：AI奇点已至，抛弃人类自我进化！

阅读7千万文章硅谷爆火：AI奇点已至，抛弃人类自我进化！. 2026-02-18

走出MMLU的高分幻觉：AI Agent的「斯坦利时刻」与职场生存法则

走出MMLU的高分幻觉：AI Agent的「斯坦利时刻」与职场生存法则. 2026-02-18

稀疏点云感知的表示学习

稀疏点云感知的表示学习. 2026-02-17

学AI别再刷朋友圈！AI大神Karpathy的92个信源公布了

学AI别再刷朋友圈！AI大神Karpathy的92个信源公布了. 2026-02-17

最新文章

多模态Deep Research，终于有了「可核验」的评测标准

多模态Deep Research，终于有了「可核验」的评测标准 19小时前

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠 19小时前

走出MMLU的高分幻觉：AI Agent的「斯坦利时刻」与职场生存法则

走出MMLU的高分幻觉：AI Agent的「斯坦利时刻」与职场生存法则 2026-02-18

阅读7千万文章硅谷爆火：AI奇点已至，抛弃人类自我进化！

阅读7千万文章硅谷爆火：AI奇点已至，抛弃人类自我进化！ 2026-02-18

热门类别

综合性期刊物理法学地球科学历史学

相关文章

北航郭林院士/刘利民教授团队马年首篇Angew：压力场诱导下的非晶催化剂电子态调控南京航空航天大学刘衍朋团队Advanced Materials：将块体金晶体插层为有序单原子阵列购买研理云服务器，让计算更省心！免费测试！中国林科院林化所孙昊&孙康&东南大学袁湘洲：吡啶氮增强的Cu-MoC界面促进C=O键断裂中国科学院上海有机化学研究所黎占亭和田佳：水分散型POPs用于大气浓度COu2082的高效直接空气捕集和光催化还原

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信