发布求助

文献互助智能选刊最新文献

ICML 2026 | 大模型为何越改越稳？中科大揭开终身归一化黑箱

机器学习算法与自然语言处理 2026-05-26 00:00

文章摘要

近年来，模型编辑技术为更新大语言模型中的过时知识提供了精确且低成本的途径。然而，当编辑次数扩展至数十万乃至百万次时（即终身模型编辑，LME），模型常面临灾难性遗忘和模型崩溃问题。研究发现，在长程编辑中表现稳定的方法（如ULTRAEDIT、RLEdit）均采用Lifelong Normalization (LN)策略。本文旨在揭示LN在LME中的关键作用，并首次为其提供理论解释。LN本质上是在编辑过程中对动态梯度分布进行递归贝叶斯追踪，而非简单的数值归一化。当与岭回归结合时，LN能生成具有渐近正交性与有界范数的参数更新，有效缓解灾难性遗忘与模型崩溃。研究还观察到“正向累积效应”，即历史编辑可帮助后续编辑更稳定。基于此，作者提出StableEdit方法，通过引入warm-up阶段和full whitening策略，在百万级编辑流中进一步提升了稳定性。实验表明，StableEdit在多个基准测试上表现优异，验证了理论预测。

ICML 2026 | 大模型为何越改越稳？中科大揭开终身归一化黑箱

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

GPT-5.6泄露了！

GPT-5.6泄露了！. 2026-05-26

程子豪@北京航空航天大学：Terminal-World：面向终端智能体的大规模环境合成

程子豪@北京航空航天大学：Terminal-World：面向终端智能体的大规模环境合成. 2026-05-26

ACL 2026 | 7000种语言怎么教？清华阿里找准语义瓶颈，通关多语言安全

ACL 2026 | 7000种语言怎么教？清华阿里找准语义瓶颈，通关多语言安全. 2026-05-26

CVPR 2026医学影像 AI趋势梳理：从看懂影像，到接管科研工作流

CVPR 2026医学影像 AI趋势梳理：从看懂影像，到接管科研工作流. 2026-05-26

Anthropic创始人手册：如何打造一家AINative公司！

Anthropic创始人手册：如何打造一家AINative公司！. 2026-05-25

最新文章

CVPR 2026医学影像 AI趋势梳理：从看懂影像，到接管科研工作流

CVPR 2026医学影像 AI趋势梳理：从看懂影像，到接管科研工作流 2026-05-26

ACL 2026 | 7000种语言怎么教？清华阿里找准语义瓶颈，通关多语言安全

ACL 2026 | 7000种语言怎么教？清华阿里找准语义瓶颈，通关多语言安全 2026-05-26

程子豪@北京航空航天大学：Terminal-World：面向终端智能体的大规模环境合成

程子豪@北京航空航天大学：Terminal-World：面向终端智能体的大规模环境合成 2026-05-26

GPT-5.6泄露了！

GPT-5.6泄露了！ 2026-05-26

热门类别

综合性期刊物理法学地球科学历史学

相关文章

南京农业大学院长团队发表《Science》论文、在顶级期刊再获研究进展西安交通大学杨贵东、林波团队联合南洋理工大学刘政教授AM：二维高熵磷硫族化物用于高效太阳能驱动二氧化碳还原制乙烯文献速递|武汉大学ACB:固定化CuOx网状结构内多结的自适应同步调制，用于实现持久的光催化耦合亚硫酸盐基高级氧化过程文献速递|北京林业大学CEJ:环糊精支撑的硫化物零价铁作为PMS激活剂，用于再生水中同时去除诺氟沙星和抗生素耐药基因：活性组分. 重磅 | 壳聚糖领域近十年 ESI 高被引论文和热点论文解析（2026年5月）

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信

小红书