如何合成Agentic事实性SFT/Mid-train数据?
机器学习算法与自然语言处理
2026-05-28 08:07
文章摘要
本文探讨了如何合成用于训练模型Agentic事实性能力的数据,包括SFT和Mid-train数据。背景在于传统事实问答仅训练模型输出答案,而目标模型需要掌握一套可观察、可验证的求证过程。研究目的在于设计能训练模型主动检索、评估证据、处理冲突、在不确定时拒答的数据。结论指出:核心是生成“问题→检索→证据判断→回答”的轨迹;Query需筛选能产生有价值轨迹的复杂问题;需对Query打分类和处理标签以指导生成;轨迹数据应包含query、类别、证据和response;Mid-train与SFT数据目标不同,前者侧重能力训练,后者侧重行为对齐;最后提出可执行的合成流水线,并指出容易踩的坑包括observation凭空写、只看最终答案等。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。