软件及服务行业人工智能十年展望(二十七):越过“遗忘”的边界 模型记忆的三层架构与产业机遇
观点聚焦
投资建议
大模型的演进史,本质上是一部与“遗忘”抗争的历史。当我们惊叹于模型的推理能力时,往往忽视了一个重要短板:在缺乏记忆留存的架构下,模型每一次对历史信息的处理,本质上都是一次昂贵的“重复计算”。这种以高昂算力对抗遗忘的粗放模式,正面临着显存墙与上下文窗口的物理极限。我们认为,2026 年及之后的AIInfra主战场将增加“模型记忆”这一极。何为模型记忆?如何理解短期、中期、长期记忆三层记忆系统对应的软硬件需求?如何对应模型训练、推理、Agent场景理解记忆分层系统?我们将在本报告中予以解答。
理由
短期记忆构成大模型单次推理的“当前视野”。作为高频读写、对延迟极度敏感的“热数据”,其核心矛盾在于KV Cache对显存容量与带宽的双重挤占。软件端通过PagedAttention显存虚拟化与PD分离调度进行优化,并探索出无限注意力(Infini-attention)等前沿架构以支撑百万Tokens上下文窗口。这一逻辑直接锚定了HBM与片上SRAM作为突破“显存墙”与“延迟墙”的重要硬件要素。
中期记忆保障跨会话的情景连续性,是Agent的基石。跨会话窗口的需求标志着AI需要从无状态的短线智能向具备“存储-检索-更新-遗忘”动态管理的复杂系统进化。软件端,GraphRAG与MemoryOS推动了从被动检索向主动治理的范式转移;硬件端,大容量DRAM与企业级SSD用以解决海量“温数据”的高并发随机读写瓶颈。我们认为,这一层级不仅影响Agent的能力上限,也是构建私有数据壁垒的核心变量。
长期记忆支撑模型从预训练走向“持续进化”。伴随实时更新的需求显现,我们发现目前模型训练、推理的界限正在逐渐模糊。长期记忆旨在打破预训练截止时间的限制,实现知识的持续积累。我们归纳了内隐参数、外显语义、参数化查表三条路径。我们认为在推理中训练的新范式将催生出多类数据库与存算硬件设备需求。
盈利预测与估值
维持相关公司盈利预测、目标价及评级不变。
风险
模型技术进展不及预期;Agent落地进度不及预期;供应链风险。


