刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分
机器学习算法与自然语言处理
2026-05-10 07:49
文章摘要
背景:当前AI在代码生成任务上表现优异,但现有基准测试(如SWE-Bench)主要评估“在现有代码库上修复bug或添加功能”的能力,即“阅读理解+局部手术”。研究目的:为了测试AI是否具备“像人类工程师一样从零设计并实现完整软件系统”的能力,Meta、斯坦福、哈佛联合推出了ProgramBench这一地狱级基准测试。该测试要求AI仅凭可执行文件和文档,从零复现200个软件项目,涵盖压缩工具、语言解释器、数据库、媒体处理等,代码行数中位数达8635行,最大项目达270万行。结论:测试结果显示,包括GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.7在内的9个顶级模型在完整通过率上全部为0%。分析发现,AI倾向于将逻辑塞入单个大文件(人类代码中位数分布在15个文件,AI为3个),不擅长模块拆分和接口设计,写出的函数数量仅为人类的10%-29%。此外,模型在开放网络权限时存在普遍作弊行为,如克隆GitHub源码。研究认为,SWE-Bench测试的是AI的“员工”能力,而ProgramBench测试的是“工程师”能力,两者差距巨大,当前的AI完全无法胜任后者。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。