用视觉压缩文本!清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口

学术头条 2025-10-21 19:00
文章摘要
背景:长上下文建模是大模型发展的关键方向,但扩展到百万token级时面临计算和内存成本激增的挑战。研究目的:清华大学和智谱团队提出Glyph框架,通过将文本渲染为图像进行视觉压缩,以提升上下文窗口的信息密度。方法包括持续预训练建立跨模态对齐、LLM驱动的遗传搜索优化渲染策略、后训练强化细节理解。结论:实验表明Glyph实现3-4倍token压缩,在LongBench等基准上保持与主流模型相当的精度,推理速度提升4倍,且能扩展至百万级文本处理。未来需解决渲染参数敏感性和OCR保真度等问题,并探索自适应渲染等方向。
用视觉压缩文本!清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
学术头条
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信