AI算力架构系列1:GB200网络架构测算 1.6T光模块需求有望超预期

类别:行业 机构:招商证券股份有限公司 研究员:梁程加/刘浩天 日期:2024-04-18

  2024 年3 月,英伟达发布推出 NVIDIA Blackwell 平台, Blackwell 平台包括全域NVLink 和Infiniband 两种连接方式。NVLink 连接方式中若单机柜连接,则全部采用铜缆连接;若构建576 张卡的集群,则需要光模块与GPU 的比例为9:1,我们测算光模块价值量5080 万元。Infiniband 架构中,若为两层架构则1.6T 光模块与GPU 比例为2.06:1;若为三层架构则1.6T 光模块与GPU 比例为2.98:1(将800G 均换算为1.6T)。当机柜出货量达到5.8 万时,我们预计有望带来650 万支1.6T 光模块需求,1.6T 光模块需求有望超预期。

      GB200 机柜内算力密度大幅提升,互联技术是关键。2024 年3 月,英伟达宣布推出 NVIDIA Blackwell 平台。Blackwell 平台包括最新一代的B200 芯片、第二代Transformer 引擎、第五代NVLink、RAS 引擎、安全AI、解压缩引擎六项核心变革性创新。GB200 单机柜算力大幅提升,包括9 个交换托盘和18 个计算托盘。在交换托盘内包含两颗最新一代NVLink 芯片支持72端口双向1.8TB 传输速率交换。同时顶部装配一台NVIDIA Quantum-X800交换机提供144 端口800Gb 速率端口用于Infiniband 架构连接。计算托盘包含两颗Blackwell Superchip 芯片,每颗Superchip 芯片上包含1 颗Grace Cpu与两颗B200 GPU。同时包含4 颗ConnectX-8 SuperNIC 芯片与1 颗BlueField-3 DPU 芯片。

      全域NVLink:机柜内部仅用铜缆,外部连接需九倍光模块。1)NVL72: NVL72中单机柜内18 个Compute Tray 共有72 颗B200 芯片,9 个Switch Tray 共有18 颗NVSwitch 芯片。NVL72 中需要5184 根铜缆连接。2)NVL576:16机柜互联,光模块数量9 倍于GPU。NVL72 方案已将所有NVLink 端口插满,不具备进一步扩大规模的空间。若要扩大集群规模需降低机柜内算力密度,给出空的NVLink 端口用于向上连接。在L2 与L1 之间连接需要光模块,我们测算第二层总共有10368 个端口50GB 端口需要连接,需要5184 个1.6T光模块进行连接。假设1.6T 光模块单价1400 美金,则NVL576 总共需要光模块价值量5080 万元。

      Infiniband 连接:架构与H100 SuperPod 相仿,光模块比例介于2-3 之间。

      Infiniband 网络传输为单端口单向传输速率800Gb,远小于NVLink 单端口单向传输速率的900GB(7.2Tb),因此应用光模块比例小于NVLink 连接。

      GB200 的Infiniband 连接结构与DGX H100 SuperPod 的网络架构类似,但是与光模块比例关系略小于H100 SuperPod 架构。据测算,两层交换机最多支持9216 张卡互联,光模块与GPU 比例关系为2.56:1,将800G 换算为1.6T后与GPU 比例关系为2.06:1。三层交换机最多支持73728 张卡互联,光模块与GPU 比例关系为3.48:1,将800G 换算为1.6T 后与GPU 的比例为2.98:1。

      投资建议:考虑到GB200 为英伟达当前最新一代产品,在当前GB200 供应有限的情况下,超过576 卡的Infiniband 集群预计为主要出货形式。在假设NVL72、NVL576 与Infiniband 三种情形的比例分别为15%、15%、70%,Infiniband 中两层和三层架构的比例分别为50%的前提下,当机柜出货量达到5.8 万个时有望带来650 万支1.6T 光模块需求。GB200 芯片批量出货有望带动1.6T 光模块需求超预期。重点推荐北美光通信核心供应商:中际旭创、天孚通信。建议关注:新易盛。

      风险提示:计算假设与实际情况存在差异,GB200 市场接受度不及预期,1.6T光模块产业链成熟度低于预期