计算机设备:国产大模型进展快速 DEEPSEEK-V2和通义千问2.5均展现强大性能

类别:行业 机构:中信建投证券股份有限公司 研究员:于芳博 日期:2024-05-13

  核心观点

      1. 幻方子公司DeepSeek 发布了新的MoE(混合专家网络)大模型DeepSeek-V2,模型表现优秀,相比V1 的稠密模型,Deepseek-V2 节约了42.5%的训练成本,减少了推理时93.3%的 KV-cache 显存占用,将生成的吞吐量也提升到了原来的5.76 倍。同时API 调用定价低至每百万输入Tokens仅1 元,具有极高的性价比。

      2. 阿里云正式发布通义千问2.5 大模型,模型在中文语境下的性能超越了GPT-4 Turbo。相比上一代通义千问2.1 版本,通义千问2.5 在理解能力、逻辑推理、指令遵循、代码能力上全方位提升。同时阿里还开源了Qwen1.5-110B 模型,该模型性能超越Llama-3-70B,有超 1000 亿参数,可以处理32K tokens 的上下文长度,并支持多种语言。

      产业要闻

      【阿里云通义千问 2.5 大模型发布】

      【谷歌 AlphaFold 3 模型登 Nature】

      【三星 AI 推理芯片 Mach-1 即将原型试产】

      【三星停止自动驾驶研究】

      【英国无人驾驶汽车公司Wayve 获得10 亿美元融资】【美科镜头新品官宣】

      持续关注:

      GPU:英伟达、超威半导体、海光信息等;

      FPGA:安路科技-U 等;

      SoC:高通、全志科技等;

      自然语言处理:科大讯飞等;

      计算机视觉:格灵深瞳-U 等;

      自动驾驶:德赛西威、中科创达、均胜电子、光庭信息;智慧交通:千方科技、万集科技;

      AI+工业:中控技术、华大九天、广立微、概伦电子等。

      风险提示:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期。