信息聚合、能力涌现与驾驭工程:大语言模型三十年技术演进
中国物理学会期刊网
2026-05-18 10:00
文章摘要
本文系统梳理了大语言模型自二十世纪九十年代以来的技术演进历程。背景方面,语言模型的核心任务始终是预测下一个词,从基于频率统计的n-gram模型开始,经历了五次质的飞跃:统计模型、词向量与神经语言模型、预训练模型、大语言模型爆发,以及当前的多模态与智能体阶段。研究目的方面,文章旨在揭示AI能力涌现背后的核心机制——信息如何被聚合、表示与调度,以及人类如何从“提示模型”走向“驾驭系统”。结论方面,Transformer架构通过动态、数据驱动的注意力机制实现了高效的信息聚合,成为整个AI领域的基础设施;GPT系列通过预训练-微调及RLHF对齐实现了通用能力的涌现;DeepSeek等模型在训练效率上进行了优化(如GRPO)。当前,思维链、推理时扩展等技术正大幅提升模型推理能力,而工程范式也从Prompt Engineering演进至Harness Engineering,强调将大模型作为能力引擎,构建包含信息层、执行层和反馈层的完整控制系统。展望未来,AI正从“预测”走向“行动”,从文本生成器演变为任务执行者。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。