国产算力三问三答系列之一:万卡集群对AI意味着什么?

类别:行业 机构:长江证券股份有限公司 研究员:宗建树/余庚宗 日期:2024-06-16

  总览全球,万卡集群 趋势越发凸显

    什么是万卡集群?参考产业界认知,一般而言,万卡集群是指由一万张及以上的计算加速卡(如GPU、TPU 或其他专用AI 加速芯片)组成的集群式的高性能计算系统,主要用来训练当前参数和训练数据量越来越庞大的大模型。这种集群充分整合高性能GPU 计算、高性能存储以及网络、智算平台等关键技术,将各类底层基础设施整合成为一台“超级计算机”,可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代升级。

      在AI 算力领域,全球万卡集群趋势凸显。1)国际市场,OpenAI、Google、Meta 等科技巨头,都争相部署万卡集群,用来支撑其在基座大模型及生态服务等方面的技术创新。2)在国内,运营商、头部互联网大厂、大型AI 研发企业等均在万卡集群的建设和使用过程中不断推动技术革新。

      军备竞赛,万卡集群是支撑AIGC 基石

      自ChatGPT 引爆大模型AI 后,大模型步入了快速发展期,“千模大战”,行业百花齐放,过程中Scaling Law 不断得到验证,大模型能力持续提升。大模型所使用的数据量和参数规模呈现“指数级”增长,同时随着Mixture of Experts (MoE)等先进模型结构的出现,模型参数迈入万亿规模。模型大小和训练数据大小成为决定模型能力的关键因素。在同等模型参数和数据集下,集群训练时间有望显著缩短。更大和先进的集群能及时对市场趋势作出反应,快速进行迭代训练。整体上超万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对,实现大模型技术上的追赶和领先。

      国产万卡集群突破支撑我国AIGC 追赶

      持续追赶,国产万卡集群或逐渐成熟。在国内,通信运营商、头部互联网、大型AI 研发企业等均在万卡集群的建设和使用过程中不断推动技术革新,支撑国内AI 大模型训练底座。

      集群互联和液冷是万卡集群相对传统小规模算力重要技术差异。万卡集群需进一步解决超大规模算力组网、集群效能提升、多元异构算力生态等问题。与此同时从技术维度,我们认为也会有三个新的技术趋势是万卡集群实现过程中的提升:1)万卡集群的计算效能提升需要从单芯片能力提升、超越单机8 卡的超节点技术、服务器内卡间通信效率提升等多方面系统推进;2)大规模、大带宽、低时延、高可靠的通信网络是万卡集群智算中心能正常高效工作关键;3)万卡集群智算中心具备高密度高能耗的典型特点,通过液冷等新技术节能也是重要方向。

      在国产算力整体高景气高确定下产业背景下,我们认为当前时点迎来国产万卡集团突破期,看好全产业链机遇的同时,建议重点关注产业趋势变化带来新的结构性投资机会,重点关注集群化和液冷等新兴变化方向。

      风险提示

      1、实际需求落地不及预期;

      2、行业竞争格局变化的风险。