软件及服务行业动态:AI智道(15):DEEPSEEK-V4技术解读

类别:行业 机构:中国国际金融股份有限公司 研究员:于钟海/王之昊/袁佳妮 日期:2026-04-27

  行业近况

      近期,DeepSeek发布了其新一代开源模型V4 系列并公布技术报告,作为国产开源模型的代表厂商,DeepSeek的技术创新也是模型产业进步的方向之一。此次,V4 系列最核心架构创新在于应用混合注意力机制降低单Token推理FLOPs和KV Cache,提升模型推理效率。我们认为,DeepSeek和其他国产模型以开源的方式探索模型进步方法论和工程优化方向,共同促进模型产业的繁荣以及加速AGI时代的到来。

      评论

      DeepSeek发布V4 模型,突破超长上下文效率瓶颈。V4 预览版推出两个版本的MoE模型,包括智能水平和定价更高,聚焦完成复杂任务的V4-Pro(总参数1.6T,激活参数49B,相较于V-3.2总参数规模增长近140%)以及主打性价比优势的V4-Flash(284B总参数,13B激活),两个版本模型均支持100 万Token的超长上下文,这也是此次V4 系列的核心亮点。我们认为,V4 在超长上下文的突破将赋能模型在Agentic AI领域的加速进步,更高效准确完成复杂长程任务。

      依托混合注意力机制降低单Token推理FLOPs和KV Cache。相较于V3.2,V4-Pro仅需27%的单Token推理FLOPs和10%的KVCache。V4 系列架构创新在于运用了混合注意力机制包括压缩稀疏注意力(CSA)和重度压缩注意力(HCA),两种压缩注意力在前向传播中每一层交替使用,将Prefill阶段的注意力计算复杂度从O(N^2)降低为近似线性的O(N*k),并线性压缩了Prefill和Decode阶段的KV Cache,减少了推理时显存和带宽的压力。

      采取分层管理KV Cache的方式,将部分压缩的KV Cache条目存储至SSD。为了保证推理速度,KV Cache一般存储在HBM中。V4 系列则是将CSA和HCA压缩后的KV条目存储到SSD中,当请求命中已存储的前缀时,从SSD读取并直接调用前缀对应的压缩KV条目。我们认为,V4 的优化缓解了HBM的压力,高效释放了各部分存储的效率,SSD进入模型核心推理的趋势显现。

      估值与建议

      我们看好国产开源大模型的进步趋势,在模型效率的优化下将加速下游Agentic AI的需求释放,看好模型厂商智谱、MiniMax。

      风险

      技术进步不及预期,下游需求不及预期。