软件与服务行业:AI产业速递:DEEPSEEK-R1发布 推理性能对标O1

类别:行业 机构:长江证券股份有限公司 研究员:宗建树/宋浪 日期:2025-01-23

  事件描述

      2025 年1 月20 日,DeepSeek-R1 正式发布并同步开源模型权重。基于强化学习技术,DeepSeek-R1 在极少标注数据条件下显著提升模型推理能力,在数学、代码、自然语言推理等任务上性能对齐OpenAI o1 模型。

      事件评论

      R1 模型的核心突破在于不借助监督数据,而通过专注RL 过程的自我进化提升模型推理能力。根据官方论文,首先介绍DeepSeek-R1-Zero 模型的变化:1)以DeepSeek-V3-Base 作为基础模型,采用群组相对策略优化算法(GRPO)作为RL 框架,以降低RL 的训练成本。2)奖励决定RL 的优化方向,DeepSeek 采用基于规则的奖励系统,由准确性奖励和格式奖励两部分组成。3)培训模板,通过设计模板规范R1 模型推理过程,避免产生基于特定内容的偏见。结合上述三点实现的DeepSeek-R1-Zero 模型表现出强大的推理能力,但具有易读性差及语言混合等问题。于是DeepSeek 进一步优化并推出R1模型,方法包括:1)RL 初期构建并收集少量长CoT 数据进行微调,防止RL 训练早期出现不稳定的冷启动阶段;2)在R1-Zero 的大规模强化学习训练过程引入语言一致性奖励,减少语言混合问题;3)通过拒绝采样和监督微调以增强模型在写作、角色扮演和其他通用任务中的能力。4)实施二级强化学习阶段以进一步令模型与人类偏好保持一致。

      推理性能比肩OpenAI o1 模型,同时具备性价比优势。从模型效果看,DeepSeek-R1 在多项任务上表现比肩OpenAI o1 模型:1)推理任务:DeepSeek-R1 在AIME 2024 上获得79.8% Pass@1 的分数,略高于OpenAI-o1-1217;在MATH-500 上获得了97.3%的分数,与OpenAI-o1-1217 性能相当,并且明显优于其他模型。2)编码任务:DeepSeek-R1 具备代码竞赛任务专家的水平,在Codeforce 上获得了2029 个Elo 评级,超过了竞争中96.3%的人类参与者。3)知识任务:在MMLU、MMLU-Pro 和GPQA Diamond 等基准测试中,DeepSeek-R1 得分分别为90.8%、84.0%和71.5%,优于DeepSeek-V3 及其他闭源模型,略低于OpenAI-o1-1217。4)其他任务: DeepSeek-R1 在创意写作、一般问题回答、编辑、总结等广泛任务中表现出色,其于AlpacaEval 2.0 上的长度控制胜率达到87.6%,在Arena Hard 上实现92.3%的胜率,体现强大的智能处理非应试查询能力。从定价看,DeepSeek-R1 API 服务的定价为每百万输入tokens1 元(缓存命中)/4 元(缓存未命中),每百万输出tokens16 元,显著低于o1(每百万输入tokens 15 美元、每百万输出tokens 60 美元),具备性价比优势。

      投资建议:国产模型推理能力对齐业界领先水平,看好推理算力与应用侧受益。一方面,国产推理模型持续迭代,推理侧的scaling up 将带来推理算力需求的显著提升;另一方面,通过利用DeepSeek-R1 整理的80 万个样本进行微调,小型模型推理能力显著提升,或加速垂类模型应用落地进程。建议关注:1)中国领先的AI 大模型厂商,重点推荐国产大模型领军科大讯飞;2)中国推理算力产业链,重点推荐国内AI 芯片领军寒武纪。

      风险提示

      1、AI 技术发展不及预期;

      2、下游应用需求不及预期。