GAIRPaper104|Agent真的能自我进化吗?我们造了一把它骗不过去的尺子
机器学习算法与自然语言处理
2026-06-24 08:35
文章摘要
本文探讨了自进化Agent的评估问题。背景上,当前AI自进化领域火热,但缺乏有效的评估基准,尤其在企业级任务中,存在“在测试集上训练”的作弊风险。研究目的是构建一个能真实衡量Agent自进化能力的自动化基准——GDPevo。该基准覆盖CRM、ERP和金融三大场景,包含120个真实企业任务。为解决数据泄露问题,采用自动化构建流程和多Agent任务工厂;为测试真正的泛化能力,提出“规则杂交”方法,将规则打散入训练集并在测试集中组合。评估使用确定性规则打分器,确保可复现性和可追溯性,同时记录Token消耗和准确率。结论是,测试的Agent通过自进化将准确率提升17-22%,表明当前Agent已具备从经验中学习并迁移到新任务的能力。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。