发布求助

文献互助智能选刊最新文献

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

数据派THU 2026-02-25 17:00

文章摘要

本研究针对大语言模型在推理步数泛化场景下性能下降的问题展开。背景方面，思维链推理虽已成为解决复杂问题的标准范式，但当所需推理步数超出训练分布时，模型性能会显著降低，其内部失效机制尚不明确。研究目的旨在揭示性能下降的内部原因，并探索有效的提升方法。通过多领域任务实验，发现错误集中在少数关键Token位置，源于特定注意力头（错误处理头）通过放大错误轨迹、抑制正确轨迹打破了表征平衡。结论上，研究提出一种轻量级的测试时推理修正方法，能在推理中动态识别并停用错误处理头，实验表明该方法能显著提升模型在多种任务上的推理步数泛化能力。

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

数据派THU

原创丨弥补法律判决预测的现实鸿沟：基于证据的法律事实预测（LFP）范式与LFPBench基准数据集（二）

原创丨弥补法律判决预测的现实鸿沟：基于证据的法律事实预测（LFP）范式与LFPBench基准数据集（二）. 12小时前

【博士论文】数据驱动决策：通过数据集成与预测性决策支持优化重症监护

【博士论文】数据驱动决策：通过数据集成与预测性决策支持优化重症监护. 12小时前

原创丨多模态大模型看不清小目标？从数据到工程的优化方案

原创丨多模态大模型看不清小目标？从数据到工程的优化方案. 2026-02-25

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠. 2026-02-24

多模态Deep Research，终于有了「可核验」的评测标准

多模态Deep Research，终于有了「可核验」的评测标准. 2026-02-24

最新文章

【博士论文】数据驱动决策：通过数据集成与预测性决策支持优化重症监护

【博士论文】数据驱动决策：通过数据集成与预测性决策支持优化重症监护 12小时前

原创丨弥补法律判决预测的现实鸿沟：基于证据的法律事实预测（LFP）范式与LFPBench基准数据集（二）

原创丨弥补法律判决预测的现实鸿沟：基于证据的法律事实预测（LFP）范式与LFPBench基准数据集（二） 12小时前

原创丨多模态大模型看不清小目标？从数据到工程的优化方案

原创丨多模态大模型看不清小目标？从数据到工程的优化方案 2026-02-25

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力 2026-02-25

热门类别

综合性期刊物理法学地球科学历史学

相关文章

【Nature Ecology & Evolution】城环学院张尧课题组揭示植被对过去降水依赖的新规律【PNAS】陆地生态系统氮循环对野外增温的响应：全球模式和未来趋势 iMetaOmics | 南方医院吴芃组-解析膀胱癌中微生物-尿路上皮互作与临床转化 iMeta高引论文 | 浙江省农科院肖英平组建立不同年龄段中国儿童游离氨基酸参考区间南开大学，Nature！

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信