一句话生成LoRA、长文档瞬间内化:大模型更新成本还能这样摊销?

数据派THU 2026-03-09 17:00
文章摘要
背景:Transformer模型在处理长序列时面临注意力计算二次方增长和KV-Cache显存占用高的瓶颈,同时监督微调(SFT)流水线也带来高昂的算力与时间成本。研究目的:Sakana AI提出更新成本摊销框架,旨在通过元训练阶段的超网络,将权重更新与上下文处理开销前置,从而在推理阶段实现快速、低资源消耗的任务适配和长文档内化。结论:Doc-to-LoRA能够将长文档即时内化为LoRA适配器,显著降低推理显存(如128K token处理时从12GB降至50MB以内),并在问答任务中实现亚秒级更新延迟和良好性能。Text-to-LoRA则通过自然语言描述直接生成任务特定LoRA权重,在零样本任务自适应上优于基线方法,展示了指令可控性和跨模态泛化潜力。这两种方法共同推动了高效、可扩展的模型部署范式。
一句话生成LoRA、长文档瞬间内化:大模型更新成本还能这样摊销?
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
数据派THU
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信