发布求助

文献互助智能选刊最新文献

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

机器学习算法与自然语言处理 2026-05-10 07:49

文章摘要

背景：当前AI在代码生成任务上表现优异，但现有基准测试（如SWE-Bench）主要评估“在现有代码库上修复bug或添加功能”的能力，即“阅读理解+局部手术”。研究目的：为了测试AI是否具备“像人类工程师一样从零设计并实现完整软件系统”的能力，Meta、斯坦福、哈佛联合推出了ProgramBench这一地狱级基准测试。该测试要求AI仅凭可执行文件和文档，从零复现200个软件项目，涵盖压缩工具、语言解释器、数据库、媒体处理等，代码行数中位数达8635行，最大项目达270万行。结论：测试结果显示，包括GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.7在内的9个顶级模型在完整通过率上全部为0%。分析发现，AI倾向于将逻辑塞入单个大文件（人类代码中位数分布在15个文件，AI为3个），不擅长模块拆分和接口设计，写出的函数数量仅为人类的10%-29%。此外，模型在开放网络权限时存在普遍作弊行为，如克隆GitHub源码。研究认为，SWE-Bench测试的是AI的“员工”能力，而ProgramBench测试的是“工程师”能力，两者差距巨大，当前的AI完全无法胜任后者。

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

OpenClaw太贵？QuantClaw帮你挑精度，成本砍掉21%，还能提速15%

OpenClaw太贵？QuantClaw帮你挑精度，成本砍掉21%，还能提速15%. 11小时前

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py文件

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py文件. 11小时前

AttentionIsAllYouNeed作者再出手：Transformer99%稀疏，还能更快？

AttentionIsAllYouNeed作者再出手：Transformer99%稀疏，还能更快？. 11小时前

全球医疗榜第一，中国AI杀疯了！医疗AI迈入Harness时代

全球医疗榜第一，中国AI杀疯了！医疗AI迈入Harness时代. 2026-05-08

OpenAI官方CLI上线，跟复杂的SDK说拜拜

OpenAI官方CLI上线，跟复杂的SDK说拜拜. 2026-05-08

最新文章

AttentionIsAllYouNeed作者再出手：Transformer99%稀疏，还能更快？

AttentionIsAllYouNeed作者再出手：Transformer99%稀疏，还能更快？ 11小时前

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py文件

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py文件 11小时前

OpenClaw太贵？QuantClaw帮你挑精度，成本砍掉21%，还能提速15%

OpenClaw太贵？QuantClaw帮你挑精度，成本砍掉21%，还能提速15% 11小时前

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分 11小时前

热门类别

综合性期刊物理法学地球科学历史学

相关文章

蒸发材料0507丨青岛大学SPT论文：基于面条小麦蛋白泡沫制备的具有垂直通道和分级孔结构的高效太阳能界面蒸发器每周分子 | Molecule of the Week 五单位联合！ACS Energy Letters | 极性匹配的全氟化凝胶电解质助力安全钠离子电池！唯一通讯！郑州大学「青年长江」陈卫华最新Nature子刊丨双域溶剂锁定电解液实现4.5V级钠电池！别再垫资跑报销了！华算科技预存享 30% 增值 +￥8500返利，不限项目/日期！先存先用！

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信

小红书