软件与服务行业:AI应用进行时:DEEPSEEK-V4发布预览版 看好国产模型与国产算力的全面共振
事件描述
4 月24 日,DeepSeek-V4 发布预览版,1M 上下文,Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。
事件评论
核心参数发生哪些变化?(1)V4 实现1M 上下文(V3.2 为128K),与海外头部模型对齐,预训练数据扩大到32~33T。(2)本次发布两个版本,Pro 版本(1.6T-A49B),缓存命中输入1 元、缓存未命中12 元、输出24 元。Flash 版本(284B-A13B)缓存命中输入0.2 元、缓存未命中1 元、输出2 元。对比V3.2-Exp 缓存命中输入0.2 元、缓存未命中2 元、输出3 元。受限于高端算力,目前Pro 的服务吞吐十分有限,下半年昇腾950 超节点批量上市后Pro 的价格会有望大幅下调。
重点提升了哪些能力?(1)Agent 能力:大幅增强,Agentic Coding 评测达到开源最佳,根据DeepSeek 内部员工反馈,模型体验优于Sonnet 4.5,交付质量接近Opus 4.6 非思考模式,但仍与Opus 4.6 思考模式存在一定差距。;(2)世界知识:弥补V3.2 报告提及的“世界知识广度”短板,大幅领先其他开源模型,稍逊Gemini-3.1-Pro;(3)推理能力:
数学、STEM、竞赛型代码的测评,超越当前所有公开评测的开源模型,比肩世界顶级闭源模型。
结构创新和超高上下文效率。(1)架构层面创新:CSA(压缩稀疏注意力)和HCA(重度压缩注意力)交错混合配置。CSA 部分,先将每m 个token 的KV 缓存压缩为1 个条目→再通过DSA,每个查询token 仅关注k 个压缩后的KV 条目→滑动窗口SWA 实现局部增强,保留局部细节,弥补压缩代带来的信息损失。HCA 部分进行更极致的压缩,但不采用稀疏,将连续的 m'(远大于m)个token 的KV 缓存按权重合并为一个条目→对极度压缩的KV 条目做密集注意力,同时再次增强局部依赖。(2)优化器层面:将主优化器更换为Muon,实现更快的收敛速度和更高的训练稳定性;(3)精度优化:旋转位置编码纬度使用BF16,其余维度使用FP8;闪电索引器内部的注意力计算完全采用FP4;后训练阶段引入QAT,对MoE 专家权重和CSA 索引器中的QK 路径进行FP4(MXFP4)量化;索引得分从FP32 量化至BF16。
实现什么效果?(1)Agent 稳健性和任务完成率大幅提升:凭借1M 上下文保留完整的跨轮次推理历史、实现复杂多步工具调用&长周期搜索与代码工程实现无断点执行;(2)显存降低:KV 缓存仅占V3.2 的10%;(3)算力降低:单token 推理FLOPs 降至V3.2的27%→相同算力下,V4 的生成吞吐量可达V3.2 的数倍。
当前国产模型进入需求时代,能力继续抬升的同时加速芯模适配,伴随下半年华为超节点批量上市,国产算力将迎来实际真正可用的关键拐点,看好国产模型与算力的全面共振。
风险提示
1、AI 技术发展不及预期;
2、下游应用需求不及预期。


