电子行业动态点评:DEEPSEEK是否会改变AI投资范式?
事件:DeepSeek 发布R1,引发资本市场对算力增长展望的担忧1/20,DeepSeek 发布R1 模型及相关应用,以较低的训练成本达到与现有前沿模型相当的效果,引发市场对算力投资的担忧。我们认为:1)DeepSeek主要创新是通过在预训练阶段加入强化学习,DeepSeek V3 训练成本相当于Llama3 系列的7%,对当前世代AI 大模型的降本做出了重要贡献,有望降低现有模型的训练和推理成本;2)目前北美四大AI 公司主要通过扩大GPU 集群规模的方式探索下一代大模型,DeepSeek 的方式是否在下一代模型研发中有效还有待观察。3)DeepSeek 这次的成功显示,在Scaling Law放缓的大背景下,中美在大模型技术上的差距有望缩小。
思考#1:DeepSeek R1 对当前世代大模型降本做出重要贡献据DeepSeek V3 技术报告,V3 模型的训练总计只需要278.8 万 GPU 小时,相当于在2048 卡的H800GPU 集群上训练约2 个月,合计成本约557.6 百万美金,相较而言,Llama 3 系列模型的计算预算则多达 3930 万 H100GPU 小时,DeepSeek 训练成本约相当于Llama 3 系列模型的7%。我们认为:1)DeepSeek R1 通过在预训练阶段使用强化学习,在仅有极少标注数据的情况下,提升了模型推理能力,能够大幅降低训练成本,实现和现有大模型(如o1)相当的效果。如果Meta 等采用DeepSeek 的路径,或降低现有模型的训练成本。
思考#2:DeepSeek 的方法在探索下一代大模型上是否有效尚不可知根据Factset 一致预期,2024 年,微软、谷歌、亚马逊、Meta、苹果等北美五大科技公司合计资本开支2253 亿美元,2025 年有望继续增长19.6%。
其中很大部分投入是用在包括GPT-5、Llama4 等在内下一代模型的算力投资。目前北美四大AI 公司主要通过扩大GPU 集群规模的方式探索下一代大模型。如1/21 宣布的The Stargate Project 所显示,下一代大模型所需的算力可能达到百万卡集群的规模。DeepSeek 的方式是否在下一代模型研发中有效还有待观察。
思考#3:Scaling Law 放缓大背景下,中美技术差距有望缩小2022 年11 月,OpenAI 发布GPT3.5 以来,中美在大模型技术上的差距出现扩大趋势。进入2024 年下半年,随着互联网文本数据的耗尽,预训练阶段的 Scaling law 面临挑战,最先进大模型的发展出现放缓趋势。过去两年,中国涌现了包括智谱、月之暗面、Minimax 等初创企业。这次DeepSeek R1受到广泛关注,显示随着最先进模型发展放缓,大模型的竞争从探索转向工程创新,中美技术差距有望缩小。
风险提示:中美贸易摩擦升级风险,宏观下行风险,创新品渗透不及预期风险。本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。