用视觉压缩文本!清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口
学术头条
2025-10-21 19:00
文章摘要
背景:长上下文建模是大模型发展的关键方向,但扩展到百万token级时面临计算和内存成本激增的挑战。研究目的:清华大学和智谱团队提出Glyph框架,通过将文本渲染为图像进行视觉压缩,以提升上下文窗口的信息密度。方法包括持续预训练建立跨模态对齐、LLM驱动的遗传搜索优化渲染策略、后训练强化细节理解。结论:实验表明Glyph实现3-4倍token压缩,在LongBench等基准上保持与主流模型相当的精度,推理速度提升4倍,且能扩展至百万级文本处理。未来需解决渲染参数敏感性和OCR保真度等问题,并探索自适应渲染等方向。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。