市场对通信网络未来迭代方向认识不敷。
市场对付通信网络的迭代更多的认识勾留在跟 随显卡换代的研究层面。
我们认为,硬件迭代带来的更新的周期和方向相对固定,而其 余方向的迭代和家当链创新程度进步神速。
同时,当前外洋巨子的 AI 成本投入战役已经 达到数百亿美元级别,而模型参数的扩展,巨子的惨烈厮杀依然激烈。
现如今,“降本”、 “开放”和算力规模之间的平衡将是网络创新的紧张议题。
总体来看,家当链对付前沿的探索紧张集中于三个方向。
第一,通信介质迭代,这里面 既包括光、铜、硅三种基材的共同进步,也包括各种介质内的技能创新,如 LPO、LRO、 硅光、chiplet、Wafer-scaling 等。
第二,通信协议的创新,这同样包含两个方面,第一, 节点内部通信,如 NVLINK 和 Infinity Fabric,该领域壁垒和创新难度极高,属于巨子战 场,第二,节点间通信,家当界则紧张聚焦于 IB 与以太网两大协议的竞争。
第三,网络 架构的更新,叶脊架构是否能够适应超多节点数量,OCS 助力下,Drangonfly 能否成为 下一代网络架构主流,同时 Rail-only+软件优化能够成熟,都是家当的新看点。

2. 从云打算时期迈向 AI 时期,为什么通信愈发主要

AI时代的通信收集专题:需求从何而来立异将走向何方?_模子_节点 智能问答

上一轮通信的辉煌,可以追溯到互联网时期,爆发式的网络流量传输需求,让人类第一 次搭建起了以海量做事器,存储和交流机共同构成的交流体系。
在这一轮培植中,思科 一枝独秀,成为了人类科技进步的领头羊。
但随着互联网浪潮趋于平和,光模块与交流 机更多的随着宏不雅观经济,云开支,和产品更新而颠簸,更加倾向于宏不雅观经济品种,而速 率,技能的更迭也较为按部就班,进入了周期颠簸向上稳态发展期。
小模型时期,业界更加专注于算法创新,每每全体模型体积可以由单卡、单台做事器或 者较为大略的小集群来承担,因此来自 AI 侧的网络连接需求并不突出。
但大模型的涌现 改变了统统,OpenAI 证明了在当下,用较为大略的 Transformer 算法,通过堆砌参数的 形式,可以较好地提高模型性能,因此,全体家当界进入了模型体积加速膨胀的快速发 展期。
我们先来看两个决定模型打算速率的基本公式,从而可以更好的理解为什么大模型时期, 算力规模或者说算力硬件家当链会率先受益。

(1) 演习耗时=演习数据规模 x 模型参数量/打算速率

(2) 打算速率=单设备打算速率 x 设备数 x 多设备并行效率

在当下的大模型时期,我们可以看到,在演习耗时的分子真个两项因子,正在同时扩大, 在算力恒定的情形下,演习耗时将会被指数级延长,而在愈发激烈的巨子模型沙场,时 间是最宝贵的资源。
因此,竞争之路非常明确,唯有加速堆叠算力。
在第二个公式中我们可以看到,在算力日益膨胀的本日,单卡算力由于模型体积,芯片 更新的上限,在算力构成的占比中已经从全部退化成了个中一环,显卡数量,以及多设 备并行效率也成为两个同样主要的一环,这也是英伟达前瞻性收购 Mellanox 的缘故原由,是 希望在打算速率的每一个决定因子中,都能取得领先。
我们在前期报告《AI 算力的 ASIC 之路-从以太坊矿机提及》中详细阐述了单卡算力的多 种路线,本文中不在赘述,而我们看到的后两项,设备数与多设备并行效率,并不是简 单的通过堆叠显卡数量就可以大略实现。
越多的设备数,对付网络构造的可靠程度,并 行打算的优化程度哀求呈现指数级增加,这也是为何网络成为 AI 主要瓶颈之一的终极原 因。
我们在本节中会从演习事理出发,阐述为何设备的堆叠和并行销量的提升,是人类 历史上最繁芜的系统工程。

2.1 大模型时期的多卡互助事理,模型并行与数据并行

在模型演习中,将模型拆分至多卡的过程并非传统流水线或大略分割那样大略,而是采 用更为繁芜的办法来分配显卡之间的任务。
总体来看,任务分配办法大体可以分为两种, 模型并行与数据并行。
最早在模型体积较小但数据量上升时,业界普遍采取数据并行的办法。
在数据并行式的 运算中,每张 GPU 上都保留有完全的模型副本,而演习用的数据被分割后进入不同显卡 并进行演习,在反向传播后,每张卡上的模型副本梯度将被同步减少。
但随着模型参数 膨胀下,单块显卡愈发难以容纳完全模型,因此,在头部大模型演习中,数据并行作为 单一并行的分配办法正在逐渐减少。

模型并行则是当下在大模型时期逐渐兴起的一种分配办法。
由于模型体积过于弘大,因 此将模型的不同部分装载进入显卡内,并给显卡注意灌输相同的数据流,对每一部分的参数 进行演习。
模型并行有两种主流模式,分别为张量并行与流水线并行。
在一个模型演习运算的底层 运算矩阵乘法中(C=AxB),张量并行指的先将 B 矩阵拆分成多个向量,每个设备持有 一个向量,然后将 A 矩阵分别与每一个向量相乘,然后将得出进行汇总,即可总结出 C 举证。
而流水线并行则是将模型按层进行分割,将模型按层分割成多少块,每一块都交给一个 设备进行,同时在前向传播过程中,每个设备将中间的激活通报给下一个阶段,在随后 的向后传播过程中,每个设备将输入张量的梯度回传给前一个流水线阶段。

在当下的大模型演习中,没有任何一种数据并行能够单独存在,在头部大模型演习中, 每每须要将上述的多种技能稠浊,实现多维稠浊并行。
在实际连接时,会将这个 AI 集群 划分为多少 Stage,每个 Stage 对应一个逻辑上的 Batch,每个 Stage 由多少台 GPU 节 点组成。
这样在架构上知足多维稠浊并行的需求。

无论是何种并行办法,都须要在每一轮打算后,都须要通过反向广播的形式来同步每一 张 GPU 内的参数,不同的并行的办法,对应不同的广播延迟,也须要依赖不同的网络 协议或者通信介质来,由此我们可以看出,当下的网络集群构建,正在逐步从“传输” 进化成一个真正意义上的“系统工程”。

2.2 大模型时期的多卡互联核心:同步的准确率

AI 网络集群承担的一项主要功能,便是将不同显卡分工演习完成的结果,在打算单元之 间进行对齐,从而使得显卡能够进行下一步的事情,这项事情也被称为反向广播,由于 广播过程中每每对结果采取 Reduce,Gather 等算法进行处理,那么全局的广播则被称 为 All to All,我们在 AI 集群性能指标中常见的 All-to-All 延迟,指的便是做一次全局反向 广播须要的韶光。
从事理上来看,做一次反向广播同步数据彷佛较为随意马虎,只须要每张显卡互发数据即可, 但在真正的网络集群构建中,却会碰着许多问题,这也让缩短这一时延,成为了各种网 络方案追求的一个重点方向。
第一个问题在于,每一张显卡完成当前打算所须要的韶光是非是不一致的,如果统一等 待同一组内的末了一个显卡完成任务后再进行反向广播,那会导致先一步完成任务的显 卡有大量的韶光处于空置状态,从而降落全体打算集群的性能。
而同样,如果采取过于 激进的同步方法,则有可能导致同步期间涌现缺点,从而导致演习中断。
因此,稳定高 效的同步方法,一贯是业界追寻的方向。
从当下来看,紧张的同步方法可以分为同步并行,异步并行,All-Reduce 等等。

我们先来看同步并行,同步并行的思路我们在前文中已有提及,即在当前单元内,所有 打算单元完成打算后,统一进行一次通讯,其优点是稳定与大略,但是会造成大量的计 算单元空置。

异步并行则是面对如兴趣推广等非天生式大模型时候的选择,当一个设备完成一轮正向 与反向打算后,不须要等待另一台设备完成循环,直接进行数据同步,这种传输模式下, 网络模型演习不收敛,不适用于大模型演习,但对付如搜索模型,推举模型等较为适用。

第三类,也是目前大家利用的最多的一类,All-Reduce 或者也可以称为 All-to-All-Reduce, 即将所有设备(All)上的信息归纳(Reduce)到所有设备(All)上。
显然,直接的 All-Reduce 将带来极大的通信资源摧残浪费蹂躏,由于同一份数据可能会被冗余传输多次。
因此,许多优化 版 All-Reduce 算法被提出,如环状 All-Reduce、基于二叉树的 All-Reduce 等,这些算法 均能极大降落 All-Reduce 的带宽和延迟。
我们以中国 AI 龙头百度发明的 Ring All-Reduce 为例,来解释分布式打算工程师们,是 如何通过不断迭代,来缩短同步韶光的。
在 Ring All-Reduce(环同步)中,每台设备仅需与其余两台设备通信,分为 Scatter-Reduce 与 All-Gather 两个步骤。
首先对相邻设备完成多次 Scatter-Reduce 操作,在每台设备分 别得到聚合后的完全数据的一部分。
随后,每台设备再对齐相邻设备完成多次 All-Gather操作,在每台设备中补全完全数据。
环状 All-Reduce 不仅能降落带宽和延迟,还可以简 化网络的拓扑构造,降落网络的搭建本钱。

但无论是何种算法,都依赖于网络通信硬件的支持,无论是从芯片原生和协议层面支持 更大的带宽,还是从纯铜线连接转为通过 NVLink,亦或是 IB 协议的引入,RDMA 需求 的爆发,均是为了知足愈发繁芜的沟通与同步需求,这些内容我们会在后文中陆续展开。
至此,我们对付为何 AI 须要高密度通信的事理层逻辑已经有了初步认知,首先从小模 型时期到大模型时期的迅速切换,使得多节点集群与分布式演习成为刚需,而将模型分 拆至不同算力节点运算时,如何分拆,如何担保同步则是更加繁复的系统工程,而通信 则是这统统软件事理实现的根本,高质量、高通量、高稳定性的通信元器件与通信网络。

2.3 大模型时期的系统工程:监测-总结-创新,迭代永久在路上

上文中,我们阐述了演习事理决定了大模型对付通信体系的依赖程度。
无数不同的,复 杂的并行与同步需求一起,组成了 AI 集群中的数据流动,虽然通信网络在此类需求的带 动下,速率和产品迭代不断加速,连接办法创新不断,但时至今日,仍旧没有一个完美 的集群能够一劳永逸地办理所有问题,同时集群的稳定性虽然不断优化,但由上百万个 精密器件组成的系统,断点与中断问题仍旧时有发生。
因此,大模型通信体系的进化方向可以大体分为三个,一个是对大模型系统的监测能力, 能够实时感知大模型数据流动,运行态势,从而能够及时创造故障,在这一过程中,以 网络可视化为根本的软硬件抓包成为了主流手段,通过 FPGA 芯片和专用软件,监控集 群中的数据流动,从而为感知供应根本工具, 以软件实现的数据抓包最常用,国内外有名产品有 Wireshark(处理 TCP/UDP)、Fiddler (处理 HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet 等。
以 Wireshark 为例,其基本事情事理是:程序将网卡的事情模式设置为“殽杂模式”(普通模式下,网 卡只处理属于自己的 MAC 地址的数据包,殽杂模式下,网卡会处理所有流经的数据包), 同时由 Wireshark 进行数据包的截获、重发、编辑和转存。

软件抓包会占用部分系统性能。
首先,殽杂模式下网卡处于“广播模式”,会处理网络下 层收发的所有数据包,本身就会花费网卡一部分性能;其次,软件抓包不是在链路层串 行或并行抓取,而是将数据包进行复制和存储,占用了一部分 CPU 和存储的资源。
同时, 类似 Wireshark 这种软件大多只能做到对系统里的单一网络节点进行流量监控,难以覆 盖到全局网络,适宜被动的故障打消作业,不适用于主动风险监测。
为了不影响系统整体性能,并行或串行接入的软硬件结合工具应运而生,常用的工具有 DPI 和 DFI。
DPI(Deep Packet Inspection,深度报文检测)是一种基于报文的运用层 信息对流量进行检测和掌握的功能。
DPI 着重对运用层的剖析,能够识别各种运用及其 内容。
当 IP 数据包、TCP 或 UDP 数据流利过支持 DPI 技能的硬件设备时,设备会通过 深入读取报文载荷来进行重组和剖析,从而识别全体运用程序的内容,然后按照设备定义的管理策略对流量进行后续处理。
DFI(Deep/Dynamic Flow Inspection,深度/动态 流检测)采取的是一种基于流量行为的运用识别技能,即不同的运用类型表示在会话连 接或数据流上的状态各有不同。
DPI 技能适用于须要风雅和准确识别、风雅管理的环境; 而 DFI 技能适用于须要高效识别、粗放管理的环境。

DPI/DFI 由独立硬件串/并接在物理层,不会影响物理层的性能表现。
以浩瀚深度的 DPI 软硬件产品为例,其可以支配在电信网络的各层级网络节点,同时通过 SaaS/PaaS 完成对各层级监测节点数据网络、剖析和呈现。
DPI 硬件串接或并接在通信物理层,通 过镜像数据包实现近乎无损的网络监测。
DPI 软件嵌入在 DPI 硬件、独立做事器或交流 机/路由器中,实现网络监测。

办理了监测问题之后,大模型系统工程的迭代之路便有了根本,前文提到,在实操中, 更加须要看重的便是系统运行效率和稳定性间的平衡,一方面,我们通过 Reduce 方法 的优化,并行方法的创新等等,创造出新的演习方法和理论,分布式演习的底层创新, 然而底层创新始终须要干系硬件的支持,更大通量的交流机,更加契合的交流协议,更 稳定,更便宜的通信器件将是大模型系统升级中永久不可或缺的一环。

3. 通信协议的竞争与迭代:承载 AI 数据流的话语权

上一章节中,我们系统阐述了 AI 集群中的通信紧张起到哪些浸染,本节中,我们将系统 性地先容构成全体通信体系的最根本部分-通信协议。
从直觉上来看,通信系统紧张由交流机、光模块、线缆、网卡等等实物硬件组成,但其 实真正决定了一个通信系统的建立,运行和性能特点的,却是流转在实物硬件内部的通 信协议。
通信协议是在打算机网络中,为了担保数据顺利、准确地传送,通信双方必须 遵守的一系列约定。
这些约定包括数据的格式、编码规则、传输速率、传输步骤等。
在 AI 时期,通信协议的分类紧张分为两大类,第一,用于算力节点内部的算力卡之间通 信的高速协议,这一类协议具有速率快,封闭性强、可扩展性弱等特点,每每是各家显 卡厂商的核心能力壁垒之一,其速率,接口等等须要芯片层面的支持。
第二类协议则是 用于连接算力节点之间的协议,这类协议具有速率慢,可扩展性强等特点,第二类协议 目前紧张有两大主流,InfiniBand 协议以及以太网下的 RoCE 协议族,这类协议担保了数 据的跨节点传输能力,也是构建超大集群的根本,同时也为智算单元接入数据中央供应 理解决方案。

3.1 节点内通信—大厂核心壁垒,算力“摩尔定律”的希望

节点内通信,即单台做事器内部的显卡通信协议,卖力同一做事器内部的显卡之间的高 速互联,发展至今,这一协议紧张包括了 PCIe、NVLink、Infinty Fabric 三种协议 我们先来看历史最为悠久的 PCIe 协议,PCIe 协议是一种公开的通用协议,传统做事器 个人电脑中的不同硬件都通过 PCIe 协议来进行连接,在当第三方组装的算力做事器中, 显卡之间任然像传统做事器一样,通过 PCIe 插槽和主板上的 PCIe 线路进行互联。
PCIe 是最广泛利用的总线协议。
总线是做事器主板上不同硬件相互进行数据通信的管 道,对数据传输速率起到决定性浸染,目前最遍及的总线协议为英特尔 2001 年提出的 PCIe(PCI-Express)协议,PCIe 紧张用于连接 CPU 与其他高速设备如 GPU、SSD、网 卡、显卡等,2003 年 PCIe 1.0 版本发布,后续大致每过三年会更新一代,目前已经更 新到 6.0 版本,传输速率高达 64GT/s,16 通道的带宽达到 256 GB/s,性能和可扩展性 不断提高。

PCIe 总线树形拓扑和端到端传输办法限定了连接数量和速率,PCIe Switch 出身。
PCIe 采取端对端数据传输链路,PCIe 链路的两端只能各接入一个设备,设备识别数量有限, 无法知足有大量设备连接或须要高速数据传输的场景,因此 PCIe Switch 出身。
PCIe Switch 具备连接和交流双重功能,可以让一个 PCIe 端口识别和连接更多设备,办理通 道数量不足的问题,并可以将多条 PCIe 总线连接在一起,从而形成一个高速网络,实现 多设备通信,简言之 PCIe Switch 相称于 PCIe 的拓展器。

但正如上文中所说,随着模型规模逐步扩大,同时 NPU 之间同步循环愈发繁芜,速率较 低并未对模型运行模式进行专门优化的的 PCIE 已经不能知足大模型时期的需求,因此, 各大显卡厂商专有的协议在大模型时期快速兴起。
我们认为,当先业界关注度最高,进化速率最快的协议便是 NV-Link 协议,英伟达提出 的高速GPU互联协议,比拟传统PCIe总线协议,NVLINK紧张在三个方面做出较大改变: 1)支持网状拓扑目,办理通道有限问题;2)统一内存,许可 GPU 共享公共内存池,减 少 GPU 之间复制数据的须要,从而提高效率;3)直接内存访问,不须要 CPU 参与,GPU 可直接读取彼此的内存,从而降落网络延迟。
此外,为办理 GPU 之间通讯不屈衡问题, 英伟达还引入 NVSwitch,一种类似交流机 ASIC 的物理芯片,通过 NVLink 接口将多个 GPU 高速互联,创建高带宽多节点 GPU 集群。

我们通过回顾 NV-link 的发展史,可以创造,节点间的 NV-Link 互联正是随着显卡间同步 需求的变革而逐步迭代。

但随着单个显卡性能的扩展,吞吐量的提升,以及显卡之间同步办法的愈发繁芜,纯挚 纯线缆连接以及固定的线路已经无法知足显卡间的沟通需求。
因此在 Ampere 架构中, 也便是对应的第三代 NVLINK,英伟达引入了第一代专用的 NV-Link Switch 芯片,从而 进一步加大 NV-Link 速率,灵巧性。

但从 Pascal 架构到 Ampere 架构的更新中,由于当时的客户需求仍旧集中于小模型,大 规模的打算集群并未涌现,因此 NV-LINK 保持着常规更新的节奏,紧张通过芯片内部通 道迭代,NV-Link Switch 芯片迭代来实现速率的更新,期间英伟达还为游戏显卡推出了 NV-Link 桥接器,来知足部分高端 C 端用户的需求。

从 A100 到 H100 的更新中,英伟达迈出了 NV-Link 进化的第一步,昔时夜模型的需求开始 呈现,超大的数据规模、模型体积使得过去以 8 张显卡为上限的 NV-Link 互联难以搪塞, 利用者们不得不把模型切片,装进不同做事器间进行演习以及对齐,而做事器间较慢的 沟通速率直接影响了模型演习的效果。
我们把能用最高速通信协议互联的显卡数量称之 为 HB-DOMIN,而在模型参数日益弘大的发展过程中,在同等代际芯片内,HB-DOMIN 成为了决定模型演习能力的关键成分。
在这种背景下,英伟达的 NV-LINK 在 Hopper 架构上迈出了进化的第一步,通过外置的 专用交流机,承载更多的 NV-LINK switch 芯片,从而扩大现有显卡的 HB-DOMIN。
在 Hopper100 时期,通过 GH200 SuperPOD 产品,NV-LINK 第一次走出做事器内部,实现 了超过做事器的 256 张显卡互联。

但由于 Hopper 架构下对应的 NV-Link 3.0 交流芯片成熟度较低,英伟达须要两层架构来 连接显卡,因此一个 GH200 256 卡集群内须要大量的高端光模块,本钱极高,给客户的 采购带来了不便。
同时,在 GH200 发布之时,模型的参数还未膨胀到万亿级别,根据 Meta 的研究结果显示,在万亿参数之下,超过 100 后的 HB-Domin 扩展边际效应会涌现 加速递减。

在 Blackwell 架构时期,英伟达正式完善了 NVLINK 的扩展之路,随着 4NM 最新一代 NV-Link 交流芯片的发布,英伟达推出了正式的拳头产品 GB200 NVL72。
英伟达通过单 机柜内部单层 NVlink+铜缆的连接,实现了用较低本钱达成一个具有高性价比的 HB-DOMIN 数字的目标,真正迈出了节点内互联协议向上层扩展的第一步。

我们除了在最新一代 NV-LINK 上,也再一次重新认识了节点内互联协议的主要性,乃至 可以说,节点内通信的扩展,已经成了摩尔定律是否能在算力时期延续的关键。
节点内 通信协议的迭代以及低本钱实现,是当前应对“通信墙”、“内存墙”的最佳办理办法。
当前 NV-LINK 最大的竞争者便来自于英伟达在通用显卡领域的最大竞争者 AMD,与英伟 达相同,纵然是对网络协议开放最为支持的 AMD,在其节点内互联领域,依然利用其专 用的协议“Infinity Fabric”,但同时,与英伟达不同 AMD 将这份协议共享给了互助的博 通、Arista、思科这三家以太网龙头。

当下来看,Infinity Fabric 与 NVLINK 的差距仍旧较大,在包括专用交流芯片、多卡互联、 协议完成度等方面,AMD 仍旧有较长的路须要追赶、这也表示出,当前的头部通用算力 竞争,已经从芯片设计这一单一环节,逐步扩大到节点内通信这一环节。
总结来看,节点间通信正在变成算力中愈发主要的组成部分,同时,随着 HB-DOMIN 扩大,“算力节点”也在逐步扩大,我们认为,这背后是节点间协议在全体 AI 集群内的 “向上渗透”,同时,依赖在节点间协议及其承载硬件的系统化压缩,也是未来 AI 算力 实现摩尔定律的办理之道。

3.2 节点间通信协议:经久弥新,封闭与开放之争

现在我们把视角移到算力节点外部,来看一下当前构成环球算力集群连接的主流协议。
当下的算力中央,NPU 正在逐步迈向百万级规模,纵然算力节点或者我们说的 HB-DOMIN 加速扩大,但节点间连接依然是构成环球 AI 算力的基石部分。
从当前来看,节点间连接协议紧张分为InfiniBand协议与以太网家族内的ROCE协议族。
超算节点间互联的核心在于 RDMA 功能。
过去,在传统的 CPU 为主的数据中央中,普遍 采取 TCP/IP 协议进行传输,即数据从发送端内存发出后,经由发送端设备 CPU 编码后, 发送至吸收端设备的 CPU,经由解码后放入内存。
这一过程中由于数据经由多个设备且 多次编解码,因此会产生较高的延迟,而延迟则是对打算卡间相互同步最关键的的成分, 因此,在显卡间互联的需求下,绕过 CPU,实现内存之间的远程直接互访(Remote Direct Memory Access)RDMA 变成为了 AI 集群连接的刚需。

在这种背景下,当前由英伟达主导的原生支持 RDMA 的 IB 协议以太网下支持该功能的 ROCE 协议族变成了当下的唯二选择,而这两种协议光鲜的特点又让全体节点间协议的 竞争变得精彩非常。
IB 协议的涌现最早可以追溯至 1999 年,当时,通信能力过差的 PCI 总线逐渐成为各个 设备之间沟通的瓶颈,在此背景下,英特尔、微软、IBM、几大巨子成立的 FIO Developers Forum 和 NGIO Forum 进行了合并,创立了 InfiniBand 贸易协会(InfiniBand TradeAssociation,IBTA),并在 2000 年推出了初版的 IB 协议框架。
在 1999 年创立的交 换芯片公司 Mellanox 也加入了 IB 阵营。
IB 从创立之初,便领先性的提出了 RDMA 观点,从而能够绕开 PCI 总线的限定,进行更 加高速的访问,但好景不长,在 2022 年,英特尔,微软等巨子相继宣辞职出 IB 同盟, 转而转向我们上文提到的 PCIE 协议的研发,IB 因此走向衰落。
但到了 2005 年,随着存 储设备间的通信需求上升,IB 重新迎来上升期,再后来,随着环球超算搭建,越来越多 的超级打算机开始利用 IB 进行连接。
在这过程中,依赖着对 IB 的不离不弃和干系收购, Mellanox 从一家芯片公司扩展到了网卡、交流机/网关、远程通信系统和线缆及模块全 领域,成为天下级网络供应商,在 2019 年,英伟达用 69 亿美元的报价击败英特尔与 微软,成功收购了 Mellanox。

另一方面,以太网则在 2010 年发布了 RoCE 协议,基于以太网协议实现 RDMA,同 时在 2014 年提出了更加成熟的 RoCE v2。
进入大模型时期以来,环球数据中央快速转向智算化,因此紧张的新增投资设备都须要 RDMA 连接办法的支持。
但当下的竞争格局又与之前的 RoCE V2 与 IB 的竞争发生了 变革,由于英伟达在环球显卡领域的绝对领先地位,英伟达显卡对付 IB 的适配程度更 加完善,个中最明显的一点表示在 Mellanox 交流机支配的 Sharp 协议中。

由于在 AI 运算中,显卡与显卡之间须要大量的繁芜 Reduce 通信,上文中也提到,这 也是 AI 通信系统工程中须要办理的核心问题,在 Mellanox 交流机产品中,在英伟达 的帮助下,公司创新性地在交流芯片中集成了打算引擎单元,可以支持干系 Reduce 计 算,从而帮助 GPU 减轻负载,但是干系功能须要 GPU 厂商的合营。
由此可见,AI 时期的通信协议之争,背后核心已然变成了显卡厂商的话语权之争,当下 来看,IB 协议凭借着英伟达的支持,霸占了较好的竞争上风,而传统的以太网厂商们, 由于缺少一款有力的芯片支撑,则在部分功能上稍显弱势。
但是 AMD 带领下的超以太 同盟的涌现,有望逐渐旋转这一局势。

2023 年 7 月 19 日,AMD、博通、思科、ARISTA、Meta、微软等来自打算芯片、网络侧以及用户侧的各个龙头厂商共同组建了超以太网同盟,我们认为,超以太网同盟成立的 目的便是为了能够在以太网的根本之上,搭建起一个完备开放,更加灵巧,且性能超越 IB 的网络协议,从而与 IB 进行反抗。

AMD 作为超以太同盟的核心成员,在 Mi300 系列发布会上,公司表示其显卡的后端连接 将会无条件利用以太网,同时用于节点内互联的 Infinity Fabric 协议,也将开放给以太网 厂商。
我们判断,随着 AMD 和 UEC 同盟中博通等成员的互助进度逐渐加快,UEC 联 盟也有望真正形成一套类似于 N 卡+IB 的兼容与互助体系,从而给英伟达带来寻衅。
但其过程注定漫长,从 AMD 侧单卡算力的追赶,再到博通侧交流芯片的进步,再到不 同厂商间的开放与互助,仍有许多路要走。
总结来看,节点间通信协议之争,已经逐渐的从事理之争演化成了话语权之争,利用何 种协议,更多的是 GPU 话语权的延伸,英伟达希望通过 IB 扩大全环节话语权,客户则 希望拥抱更加开放的 IB,行业的竞争将持续推动通信协议的持续进化。

4. AI 推动下,网络硬件创新将走向何方?

上节我们谈论了 AI 需求是如何推动 RDMA 功能的进化与放量,同样,在网络硬件的领 域,AI 的新需求也正在带来除了速率更新外的其他变革,从传输介质、交流机、网络架 构乃至数据中央整体形态都在发生变革。

4.1 光、铜与硅,传输介质之争将走向何方

近年来,随着人类数据量快速膨胀,以及传输速率成倍提升,我们在无线网、固网等电 信侧率先迎来了光进铜退的浪潮,从最早的拨号上网,再到光纤入户乃至现在的 FTTR, 正式一轮轮光纤光缆对付铜线的逐步替代。
到了数据中央内部,光进铜退的进程也同样在进行,由光模块、AOC 等等光通信组成的 通信系统正在逐渐代替有 DAC,AEC 等组成的铜传输系统,这背后是高速率传输下,铜 介质衰减愈发剧烈的一定物理规律。
如果没有 AI 带来的多样需求,随着做事器网口速率 逐代提升,光传输会逐渐向机柜内部持续渗透,并终极形玉成光数据中央。
但 AI 的涌现,给个“光进铜退”这一过程带来了一丝波折,或者说让市场产生了一定的 困惑。
其背后的核心缘故原由是:AI 带来了通信系统繁芜度与造价的非代际线性增长,在指 数级的需求增加面前,高速率光模块变得愈发昂贵。
因此,性价比更高的铜缆在当前速 率吸引力逐步提升,同时叠加散热等等配套部件的改进,显卡厂商得以将更多的打算单 元尽可能多的压缩在铜缆可以触及的单机柜范围内。

从背后我们不难创造,在 AI 时期,由于开支的增加,在当前 2-3 年的节点内,光铜之争 的核心从速率升级变为了本钱先行,同时由于通信系统的繁芜程度加速上升,简化与低 故障率亦成为了客户选择介质的关键考虑成分。
长间隔跨做事器传输:光模块是唯一方案,降本与简化是创新方向。
由于铜缆的传输间隔限定,所谓“光退铜进”也只能发生在短间隔传输上,而面对 5 米以上的传输间隔,也便是跨做事器或跨算力节点传输时,光传输仍旧是唯一选择。
但当 下,客户的除了关心常规的速率升级之外,对付本钱和故障率(器件繁芜程度)的追求 正在愈发急迫,这也带动了光通信行业未来的升级方向。
LPO/LRO:LPO 通过线性直驱技能更换传统的 DSP,将其功能集成到交流芯片中,只留 下 driver 和 TIA 芯片。
LPO 光模块中用到的 TIA、driver 芯片性能也有所提升,从而实 现更好的线性度。
LRO 则是在一端采取传统光模块,其余一端采取 LPO 光模块,从而使 得客户的接管度更高的一种过渡方案。
硅光:硅光通过成熟技能使得部分光模块的光引擎中的分立器件能够自动化集成在硅基 芯片上,从而能够实现大幅的本钱降落,同时自动化生产和制程更新也能帮助硅光芯片 进行迭代,我们认为,LPO、硅光是行业进度最快的两个降本创新方案。

薄膜铌酸锂:铌酸锂材料是可靠材料中电光系数最优的选择(考虑居里点和电光系数)。
薄膜工艺拉进电极间隔,降落电压提升带宽电压比。
比较其他材料兼具大带宽/低损耗/ 低驱动电压等诸多光电最须要的优点。
当下来看,薄膜铌酸锂紧张用于高速率硅光调制 器,我们认为,利用薄膜铌酸锂调制器可以在 1.6T,3.2T 实现更好的性能。
CPO:CPO 指将光模块直接封装在交流机主板上,从而能够共享交流机主板散热,同时 缩短电旗子暗记在交流机主板上传输的间隔,但是目前来看,由于 AI 中央中的光模块属于易 损品,共封装后掩护难度较大,因此客户对 CPO 的认可程度还有待不雅观察。
机柜内连接:本钱与稳定双重上风下,铜线是中短期上风选择,随着长期速率上升,光 进铜退仍会发生。
DAC:Direct Attach Cable,即为高速铜缆,可以适应较短间隔内的超高速连接,当前市 场主流 800G DAC 长度在 3 米以内,是一种拥有较高性价比的机柜内连接方案。
AOC:Active Optical Cables,有源光缆,即为两端提前完成一体化分装的光模块与光纤 构成的系统,其传输间隔相较传统的多模或单模光模块较短,但是本钱也较低,是超越 铜缆传输极限后的机柜内短间隔连接选择。
关于硅的演进,当下的主流思路紧张包括了 Chiplet 与 Wafer-scaling 两种,这两种方法 的核心思路都在于,通过更前辈的半导系统编制造与设计工艺,从而扩大单块芯片能够承载 的打算单元数,并尽可能的使得更多通信发展在单块硅片内,最大化打算效率,这部分 内容我们在此前深度《AI 算力的 ASIC 之路——从以太坊矿机提及》中有详细先容,在 本文中不再赘述。
综合来看,传输介质的更迭与竞争跟随需求而动,而当下的需求则非常明晰,在 MOE 等新演习框架下,模型参数往万亿规模进发,如何高性价比的实现更可能强的单节点算 力,或者说是扩大“HB-DOMIN”域的数量,从而使得模型的切分不必过于细碎,导 致演习效率的降落,无论是光、铜还是最底层的硅,都在此路线上不断努力。

4.2 交流机的创新:光交流机初出茅庐

交流机作为网络的核心节点,是承载通信协议的核心部件,在如今的 AI 集群内,交流机 也承担起愈发繁芜的任务,如上文提到的 Mellanox 交流机中,其就通过 SHARP 协议兼 具了部分对齐运算的功能,帮助 AI 运算进行加速。

但另一方面,只管如今的电交流机愈发强大,更新迭代的速率依旧稳定,但纯光交流似 乎正在成为一种全新的潮流。
究其缘故原由,我们认为,光交流机风潮的背后紧张有两点原 因,第一,AI 参与者的巨子化。
第二,AI 集群的加速扩大。
光交流系统比较于电交流系统,其去除了电芯片,利用光学镜片,对传入交流机内部的 光旗子暗记进行折射与分配,从而让其不经由转换,从而传入对应的光模块之中。
与电交流 机比较,光交流机由于省去了光电转换的过程,因此功耗,时延等等会更低,同时由于 其不受制与电交流机芯片的容量上限限定,对付网络层数优化和单台交流机能够覆盖的 台数也有增加,但相反,利用光交流机须要专门设计网络架构让其适配,同光阴交流机 的集群一旦建立,无法进行零散扩容,只能一次性扩容一全体网络集群,灵巧性也较差, 此外,光交流机在目前阶段,没有通用版本,须要自研或者定制化设计,门槛较高。

但随着 AI 竞争正式进入巨子厮杀的后半程,巨子所拥有的 AI 集群规模正在快速扩大, 巨子拥有成熟的投资方案、网络架构的自研能力、以及充足的资金,因此在节点规模不 断扩大的本日,如谷歌等巨子客户正在加速 OCS 体系的研发与支配。

而回归到传统的电交流部分,如今的电交流机的创新,除了上文的协议部分,更多的集 中在了芯片部分,包括制程的迭代,功能的创新等等,同时,如博通等交流机厂商,凭 借自有 IP 在不同下贱客户芯片处的利用,使得自身的与客户的绑定变得更强,结合通信 协议上的战队,在 AI 时期,交流机行业已经正式变成了芯片同盟之间的全方位比拼。

4.3 网络架构的创新:叶脊之后,走向何方?

网络架构则是协议与硬件外的通信系统的主要构成部分,架构决定了做事器中的数据以 何种路径进行传输,同时精良的网络架构能够使得数据流量全域可达的同时,缩减时延, 担保稳定性。
同时,网络架构还须要知足易于掩护和扩容的需求,因此,架构是通信系 统从纸面设计走向实物工程中的主要一环。
当代社会的网络架构,从电话时期的矩阵图构造,再到 ClOS 网络模型为当代网络奠定 根本架构,CLOS 的架构核心是,用多个小规模、低本钱的单元,构建繁芜、大规模的 网络。
在 CLOS 模型的根本上,逐渐发展出了各种网络拓扑构造,例如星型、链型、环 型、树型等架构,随后,树型网络逐渐成为主流架构。

树型架构紧张经由了三代演化,第一代即为最为传统的树型架构,这种树型架构的特点 在于,每经由一层,带宽严格 2:1 收敛,即两个 100M 的下贱设备接入交流机后,固定 输出一起 100M 的数据流,面对云打算到来之前较小的数据流,这种架构尚能搪塞,但 随着互联网以及云打算时期的到来,逐级收敛的带宽无法知足流量传输需求,因此一种 名为“胖树”的改进型架构被逐渐利用于数据中央。
胖树架构采取三层交流机,其核心 理念是,利用大量的低性能交流机,构建出大规模的无壅塞网络。
对付任意的通信模式, 总有路径让他们的通信带宽达到网卡带宽,但是在上层利用更加高等的交流机,让顶层 交流尽可能保持较低的收敛比。

“胖树”架构为当代数据中央的连接奠定了根本,但其本身也存在着诸如带宽的摧残浪费蹂躏、 难以扩容、难以支持大规模云打算等等问题,面对日益弘大的网络规模,传统胖树的缺 陷愈发明显。

于是在胖树的根本上,进化出了当下前辈数据中央与 AI 集群利用的叶脊(Spine-Leaf) 架构,比较于胖树,叶脊更加强调扁平化,与繁复的三层胖树比较,每个低层级的交流 机(leaf)都会连接到每个高层级的交流机(spine),形成一个 full-mesh 拓扑。
leaf 层 由接入交流机组成,用于连接做事器等设备。
spine 层是网络的骨干(backbone),卖力 将所有的 leaf 连接起来。
这样的构型下,任意两个物理做事器之间的数据转发,其经由 的节点数都是固定的一台叶与一台脊交流机,担保了东西向流量的承载和时延,也通过 了脊交流机的扩容,避免了大量利用非常昂贵的核心层交流机,同时也可以通过随时增 加脊层交流机的数量,来对全体网络进行扩容。
当下来看,叶脊凭借其诸多优点,已经成为了主流 AI 集群与头部数据中央的标准架构, 但随着单个AI集群内部的节点数量急剧膨胀,同时AI演习过程中对付延时的极度追求, 胖树架构的一些问题也开始凸显,我们,第一,当规模急剧膨胀时,交流机的容量上限 更新是否能够知足显卡集群进化的速率。
第二,叶脊在面对上百万打算节点的互联时, 是否还具备性价比?

叶脊架构的如上两个问题,也带领着网络架构层面的创新,我们认为,创新紧张集中在 两个方向,第一,追寻超大节点数下的新型架构,第二通过诸如扩大 HB-DOMIN 叠加 软件优化的办法,在充分理解模型的根本上,缩减节点之间的流量沟通。
第一种办理方法的代表之一,便是蜻蜓(Dragonfly)架构,蜻蜓架构最早在 2008 年被 提出,最早被利用于 HPC 中,但由于其每一次扩展都必须重新布线,同时布线较为繁芜, 以是纵然其利用的交流机相较于 CLOS 架构的较少,但终极没能成为主流。
但是如今在 海量节点和 AI 硬件成本支出昂贵的背景下,Dragonfly 架构逐渐开始重新受到业界前沿 的关注。
在当下,随着上文提到的 OCS 光交流系统的涌现,繁芜的布线有望通过 OCS 进行简化,第二巨子对付 AI 集群的方案和成本支出节奏更为明确,因此 dragonfly 较为 繁琐的扩容过程也不再成为掣肘。
第三,dragonfly 在时延上相较于叶脊,在物理层面更 具上风,当下如 Groq 等对付时延更为敏感的 AI 芯片已经开始采取该架构来构建集群。

第二种办理方法的代表之一,是 Meta 与 MIT 提出的 Rail-only 架构,Rail-Only 架构通过 将 GPU 分组,组成一个高带宽互联域(HB 域),然后再将这些 HB 域内的特定的 GPU 跨接到特定的 Rail 交流机,虽然增加了跨域通信的路由调度繁芜度,但是通过合理的 HB 域和 Rail 交流机设计,整体架构可以大量减少交流机的利用,最多可以降落 75%的网络 通信耗费。
这一架构也暗合上文提到的通过片间通信的创新,通过扩大后的 HB-DOMIN 域,给予演习切分和软件优化更多的实现空间,从而减少 HB-DOMIN 之间的交流机需求 量,为超大集群的网络降本供应空间。

4.4 数据中央集群的创新:未来算力网络的终极形式?

随着 AI 集群规模连续膨胀,单个数据中央的容量终将达到上限,这里的上限指的并非是 成本开支亦或是通信网络能够承载的节点上限,而是数据中央所在地的电力资源或是有 性价比的电力资源承载能力将达到上限。
2024 年初,微软与 OPENAI 开始磋商在 2028 年构建一台超级超算“星际之门”,根据The information 宣布,星际之门终极整体操持可能涉及超过 1000 美元的投资,并须要 利用多达 5 千兆瓦的电力,这也将成为项目在芯片,资金之外,最急需办理的问题之一。
因此,在当下的行业前沿,如何通过智算中央之间的长间隔互联,使得算力能够均匀分 布在有性价比电力的地区,避免因单一地区价格过高从而产生的算力本钱上升或算力容 量上限。
而数据中央之间的互联,比较集群内部互接洽统,所利用的协议,硬件等等都 有很大的不同。
当下数据中央常日通过对上层交流机或核心交流机与外部网络相连接,而数据中央互联 网 DCI 则每每由运营商搭建,其采取长间隔的相关光模块,虽然传输速率较长,但其速 率和稳定性相较数据中央用的光模块有较大差异,同时其价格居高不下,因此降本,重 新搭建架构都是在正式培植前须要考虑的问题。
但如若我们将视线拉到更加宏不雅观的角度来看,单个的算力中央实质上与前文的一个 HB-DOMIN 域类似且功能更加强大,因此我们认为该类连接未来的发展路径,一方面是 加速对付相关光模块家当的投资,使其能够承担起 AI 中央互联的承载和容量哀求,一方 面是加强数据中央内部的互联密度,将数据中央打造的更加类似于单个 HB 域,末了则 是对分布式软件和演习软件的创新,使其能够进行跨 IDC 的数据、模型切分以及并行。

(本文仅供参考,不代表我们的任何投资建议。
如需利用干系信息,请参阅报告原文。

精选报告来源:【未来智库】。
未来智库 - 官方网站