别盲目堆采样了!OptScale 让大模型推理 “知止而胜”
数据派THU
2026-01-18 17:00
文章摘要
背景:在大模型推理领域,Inference-time Scaling(如Self-Consistency、Best-of-N)已成为提升性能的常见方法,普遍认为采样越多,模型推理能力越强,但缺乏理论指导来确定最优采样次数,导致算力可能被浪费。研究目的:香港理工大学与四川大学的研究团队旨在通过概率建模,解决推理时“到底要采多少次才是刚刚好”的问题,提出OptScale算法,以实现有置信度保证的最优停止,从而节省算力并提升精度。结论:OptScale将推理Scaling转化为一个可计算的概率最优停止问题,通过估计verifier分数分布,动态决定采样次数,实验表明其在多个数学推理基准上,能在达到相同或更高准确率的同时,显著减少推理token消耗,最高可节省约54%的算力,证明了推理性能并非单纯依赖算力堆叠,而是存在可计算的最优停止点。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。