DEEPSEEK初探:从V3到R1 高性能+低价格打开全新AI发展范式
DeepSeek 热度高涨,在168 国家位居下载榜第一。近期,DeepSeek 的热度居高不下。日前,英伟达、微软、亚马逊等AI 巨头纷纷宣布,已接入DeepSeek。
DeepSeek 在2024 年12 月26 日推出V3 模型(对标GPT4 o),因其显著的性能,用户迅速开始增长,在1 月20 日发布R1 模型(对标 OpenAI o1)后,进一步出圈。根据七麦数据,截至1 月30 日,DeepSeek 在168 个国家位居下载榜第一名。1 月24 日,著名投资公司A16z 的创始人马克〃安德森发文称,Deepseek-R1 是他见过的最令人惊叹、最令人印象深刻的突破之一,而且还是开源的,它是给世界的一份礼物。DeepSeek 日前最新开源模型DeepSeek-R1,用较低的成本达到了接近于OpenAI o1 的性能。这一进展破解了全球AI 产业长期以来“堆算力”的路径依赖,其影响也进一步波及了资本市场。
DeepSeek-V3:极低训练成本带来强劲性能。2024 年12 月16 日,DeepSeek全新系列模型 DeepSeek-V3 首个版本上线并同步开源。DeepSeek-V3 是一个大型混合专家(MoE)模型,拥有671B 参数,其中每个token 激活37B。
DeepSeek 根据一系列全面的基准测试对DeepSeek-V3 进行了评估。尽管训练成本不高,但全面的评估表明,DeepSeek-V3-Base 已成为彼时最强大的开源基础模型,并且在一系列标准和开放式基准测试中实现了与领先的闭源模型(包括GPT-4o 和Claude-3.5-Sonnet)相当的性能。 DeepSeek-V3 的完整训练仅花费278.8 万GPU 小时。假设H800 GPU 的租赁价格为每GPU 小时2 美元,DeepSeek-V3 的总训练成本仅为557.6 万美元。
DeepSeek-R1:革新推理范式+强化蒸馏效果。1 月20 日,DeepSeek-R1 正式发布,其在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1 正式版。DeepSeek 通过DeepSeek-R1 的输出,蒸馏了6 个小模型开源给社区,其中32B 和70B 模型在多项能力上实现了对标OpenAIo1-mini 的效果。此外,DeepSeek-R1 遵循MIT License,允许用户通过蒸馏技术借助R1 训练其他模型。DeepSeek-R1 API 服务定价为每百万输入tokens 1元(缓存命中)/4 元(缓存未命中),每百万输出tokens 16 元,在目前主流o1类推理模型中定价最低。对比来看,OpenAI o1 每百万输出tokens 438 元,是DeepSeek-R1 的27 倍以上。
我们认为,DeepSeek 系列模型的共通之处在于,都在凭借对算法、框架和硬件的协同优化,大幅降低了训练与使用成本,同时维持了行业顶尖的性能水平,使其在性价比上远超同类竞品。特别是 DeepSeek-R1,借助蒸馏技术实现了低参数、低成本与高性能的结合,这无疑将推动 AI 在办公、教育、医疗等众多领域的广泛应用。这些经过蒸馏处理的轻量化模型,能够轻松进行端侧部署。
值得一提的是,DeepSeek 的开源策略对 AI 应用产生了深远影响,打破了少数企业的技术垄断,激发了其他企业和科研机构的技术创新与探索热情,推动了AI 技术的快速发展。总结来说,DeepSeek 的系列模型正在通过高性能+低价格的模式打开全新的AI 发展范式,AI 全面落地的时代也在有望其的推动下加速到来。
建议关注。 AI 应用:金山办公、虹软科技、合合信息、汉得信息、赛意信息、新致软件、鼎捷数智、科大讯飞、万兴科技、新国都、当虹科技、同花顺、福昕软件、泛微网络、致远互联、三六零、商汤-W、迈富时、中国软件国际、海康威视、大华股份、拓尔思、竞业达;AI 算力:润泽科技、浪潮信息、华勤技术、中科曙光、海光信息、寒武纪-U、每日互动、并行科技。
风险提示。AI 技术发展不及预期,AI 商业落地不及预期,市场竞争加剧的风险。