程子豪@北京航空航天大学:Terminal-World:面向终端智能体的大规模环境合成
机器学习算法与自然语言处理
2026-05-27 07:45
文章摘要
背景:终端智能体通过使大语言模型直接在命令行环境中执行任务,展现了巨大潜力,但高质量训练数据稀缺限制了其发展。现有数据合成方法依赖人工种子任务或GitHub仓库,导致任务分布狭窄、环境与任务语义不匹配,且教师轨迹包含大量无引导探索和低效操作。研究目的:为了解决上述问题,该报告提出了Terminal-World,一个完全自动化的终端智能体数据合成流水线。该方法以Agent Skills为核心原语,利用技能中“做什么、何时使用、如何执行”三类信息,联合生成任务指令、可执行环境和教师轨迹,并通过将技能组合为技能团队和技能图,支持多角色、跨领域的复杂任务生成。结论:基于该流水线构建了5,723个训练环境,训练的Terminal-World系列模型在6个基准上持续优于现有基线。其中Terminal-World-32B仅使用Nemotron-Terminal训练数据的1.2%,在Terminal-Bench 2.0上以31.5的Pass@1超过Nemotron-Terminal-32B,并达到43.8的Pass@3,证明了该方法的有效性和高效性。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。