如何合成Agentic事实性SFT/Mid-train数据?
机器学习算法与自然语言处理
2026-05-18 00:07
文章摘要
本文主要探讨如何合成Agentic事实性SFT/Mid-train数据。背景指出,简单的直接问答训练无法满足需要模型进行可观察、可验证和可复盘求证过程的需求。研究目的在于训练模型在面对事实性问题时,能主动判断是否需要检索、如何查找并评估证据,最终给出有依据的结论,而非仅凭记忆。通过将Query分类(如时效事实类、给定文档问答类等),并设计“轨迹数据”结构(包含问题、类别、证据和回应),文章详细阐述了数据合成流程。结论强调,Mid-train数据应侧重底层能力训练(如拆解claim、判断证据支持/反驳),而SFT数据则偏重行为对齐(如何时检索、如何引用证据)。文章最后提出了一个可行的合成流水线,包括清洗、分类、构造证据包、生成轨迹样本、验证和写入数据,并指出了常见陷阱(如observation凭空写、问题无差别联网等)。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。