人工智能行业深度申报:算力大年夜时代AI算力家当链全景梳理_数据_芯片
人工智能(AI)是指由机器展示的智能,即打算机基于大数据仿照人脑的各项功能,例如推理、视觉识别、 语义理解、学习能力及方案与决策能力等。人工智能天生内容(AIGC)是指利用人工智能技能来天生内容,包 括绘画、作曲、剪辑、写作等。AIGC 的抽芽可追溯到上世纪 50 年代,90 年代从实验性向实用性逐渐转变, 但受限于算法瓶颈,无法直接天生内容,从 21 世纪 10 年代开始,随着以天生对抗网络(GAN)为代表的深度 学习算法的提出和迭代,AIGC 迎来了快速发展阶段。
市场需求推动 AIGC 技能加速落地。1)降落人力和韶光本钱:AIGC 可以帮助人们完成许多繁琐事情,从而 节省人力成本和事情韶光,并可以在相同的韶光内产出更多内容。2)改进内容质量。AIGC 被认为是继专业生 产内容(PGC)、用户生产内容(UGC)之后的新型内容生产办法。只管 PGC 和 UGC 的内容更具多元化、个性化, 但受限于勉励方法和创作者自身成分影响,市场存在供给不敷的征象。3)促进家当数字化,助力数字经济发展。 家当数字化是数字经济的领悟部分,是传统家当运用数字技能所带来的生产数量和效率提升,其新增产出构成 数字经济的主要组成部分,AIGC 为数字经济供应了主要的数据要素。
ChatGPT 的爆红引发了人们对付人工智能发展的高度关注。2022 年 11 月 30 日,OpenAI 发布措辞模型 ChatGPT。该模型采取对话的形式与人进行交互,可以回答后续问题、承认缺点、寻衅禁绝确的条件、谢毫不适 当的要求。ChatGPT 不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现 出强大的能力,还具有天生代码、调试代码、为代码天生注释的能力。
1.2 人工智能须要强大算力支撑
以 ChatGPT 为代表的人工智能运用在运行背后须要强大的算力支撑。OpenAI 在 2018 年推出的 GPT 参数量 为 1.17 亿,预演习数据量约 5GB,而 GPT-3 参数量达 1750 亿,预演习数据量达 45TB。在模型演习阶段,ChatGPT 的总算力花费约为 3640PF-days,总演习本钱为 1200 万美元,在做事访问阶段则会有更大花费。
IDC 数据显示:2021 年环球人工智能 IT 投资额为 929.5 亿美元,估量 2026 年将增至 3014.3 亿美元,复合 年增长率约 26.5%。2026 年中国市场 AI 投资估量将达 266.9 亿美元,约占环球投资 8.9%,居天下第二位,复合 年增长率约 21.7%。未来五年,硬件将成为中国人工智能最大的细分市场,占人工智能总投资的 50%以上。IDC 预测,2026 年,中国在人工智能硬件市场的 IT 投资将超过 150 亿美元,靠近美国人工智能硬件的市场规模,五年复合年增长率 16.5%。做事器作为硬件市场的紧张组成部分,估量将占总投入的 80%以上。 人工智能的发展将对算力提出更高哀求,算力网络根本举动步伐需求有望持续提升。根据中国信通院数据,2021 年环球打算设备算力总规模达到 615EFlops(每秒浮点运算次数),同比增长 44%,个中根本算力规模为 369EFlops, 智能算力规模为 232EFlops,超算算力规模为 14EFlops,估量 2030 年环球算力规模将达到 56ZFlps,均匀年均增 长 65%。 我国智能算力规模持续高速增长,2021 年智能算力规模已经超过通用算力。根据中国信通院数据,我国计 算设备算力总规模达到 202EFlops,环球占比约为 33%,保持 50%以上的高速增长态势,增速高于环球,个中智 能算力增长迅速,增速为 85%,在我国算力中的占比超过 50%。
1.3AI 算力家当链涉及环节较多,行业需求有望全面提升
AI 算力家当链涉及环节较多,按照算力根本举动步伐构成来看,包括 AI 芯片及做事器、交流机及光模块、IDC 机房及上游家当链等。个中,随着演习和推理需求提升,AI 芯片及做事器需求将率先放量;AI 算力对数据中央 内部数据流量较大,光模块速率及数量均有显著提升,交流机的端口数及端口速率也有相应的增长;IDC 也有 望进入需求开释阶段,估量液冷温控渗透率将快速提升,海底数据中央也可能将迎来家当化的关键节点。
1、AI 芯片和做事器需求将率先放量
根据测算,2023 年-2027 年环球大模型演习端峰值算力需求量的年复合增长率为 78.0%。2023 年环球大模 型演习端所需全部算力换算成的 A100 总量超过 200 万张。从云端推理所需算力角度测算,2023 年-2027 年,全 球大模型云端推理的峰值算力需求量的年复合增长率为 113%,如果考虑边缘端 AI 推理的运用,推理端算力规 模将进一步扩大。
2、AI 算力改变数据中央内部网络架构,光模块和交流机速率及需求提升
AI 数据中央中,由于内部数据流量较大,因此无壅塞的胖树网络架构成了主要需求之一,光模块速率及数 量均有显著提升,交流机的端口数及端口速率也有相应的增长。 800G 光模块 2022 年底开始小批量出货,2023 年需求紧张来自于英伟达和谷歌,2024 年有望大规模出货, 并存在韶光前移的可能。从交流机的电口来看,SerDes 通道的速率每四年翻倍,数量每两年翻倍,交流机的带 宽每两年翻倍;从光口来看,光模块每 4 年升级一次,实际出货韶光是晚于电口 SerDes 及交流机芯片新版发布 的韶光。2019 年作为 100G 光模块升级的韶光点,市场分成了 200G 和 400G 两条升级路径。但是在 2023 年这 个韶光点,市场下一代高速率光模块均指向 800G 光模块,叠加 AIGC 带来的算力和模型竞赛,我们估量北美各 大云厂商和干系科技巨子均有望在 2024 年大量采购 800G 光模块,同时 2023 年也可能提前采购。
3、IDC 需求有望开释,AI 做事器高功率密度或将推升液冷渗透率
IDC 作为算力根本举动步伐家当链的关键环节,也有望进入需求开释阶段。在过去两年半,受多重成分影响下, 云打算需求景气度下行,但 IDC 培植与供给未涌现明显放缓,2021 年和 2022 年分别新增机柜数量 120 万架和 150 万架,因此短期内涌现供需失落衡情形(核心区域供需状况相对良好),部分地区上电率情形一样平常。以是 IDC 公司 2022 年纪迹普遍承压。随着平台经济发展规复以及 AI 等拉动,IDC 需求有望逐步开释,叠加 2023 新增供 给量有望较 2022 年减少(例如三大运营商 2022 年新增 IDC 机柜 15.6 万架,2023 年操持新增 11.4 万架)。 人工智能大模型演习和推理运算所用的 GPU 做事器的功率密度将大幅提升,以英伟达 DGX A100 做事器为 例,其单机最大功率约可以达到 6.5kW,大幅超过单台普通 CPU 做事器 500w 旁边的功率水平。在此情形下, 一方面须要新建超大功率的机柜,另一方面为降落 PUE,估量液冷温控渗透率将快速提升,海底数据中央也可 能将迎来家当化的关键节点。
二、AI 芯片需求爆发式增长2.1 AI 大规模落地运用对 AI 芯片性能、数量提出全方位哀求
从广义上讲,能运行 AI 算法的芯片都叫 AI 芯片。CPU、GPU、FPGA、NPU、ASIC 都能实行 AI 算法, 但在实行效率层面上有巨大的差异。CPU 可以快速实行繁芜的数学打算,但同时实行多项任务时,CPU 性能开 始低落,目前行业内基本确认 CPU 不适用于 AI 打算。 CPU+xPU 的异构方案成为大算力场景标配,GPU 为运用最广泛的 AI 芯片。目前业内广泛认同的 AI 芯片 类型包括 GPU、FPGA、NPU 等。由于 CPU 卖力对打算机的硬件资源进行掌握调配,也要卖力操作系统的运行,在当代打算系统中仍是不可或缺的。GPU、FPGA 等芯片都是作为 CPU 的加速器而存在,因此目前主流的 AI 打算系统均为 CPU+xPU 的异构并行。CPU+GPU 是目前最盛行的异构打算系统,在 HPC、图形图像处理以及 AI 演习/推理等场景为主流选择。IDC 数据显示,2021 年中国 AI 芯片市场中,GPU 市占率为 89%。
2.1.1 GPU 性能、功能经历长期迭代升级,成为 AI 芯片中运用最广泛的选择
GPU 能够进行并行打算,设计初衷是加速图形渲染。NVIDIA 在 1999 年发布 GeForce 256 图形处理芯片时 首先提出 GPU(Graphic Processing Unit)的观点,并将其定义为“具有集成转换、照明、三角形设置/裁剪和渲 染引擎的单芯片处理器,能够每秒处理至少 1000 万个多边形”。从打算资源占比角度看,CPU 包含大量的掌握 单元和缓存单元,实际运算单元占比较小。GPU 则利用大量的运算单元,少量的掌握单元和缓存单元。GPU 的 架构使其能够进行规模化并行打算,尤其适宜逻辑大略,运算量大的任务。GPU 通过从 CPU 承担一些打算密 集型功能(例如渲染)来提高打算机性能,加快运用程序的处理速率,这也是 GPU 早期的功能定位。
GPU 性能提升与功能丰富逐步知足 AI 运算须要。2010 年 NVIDIA 提出的 Fermi 架构是首个完全的 GPU 打算架构,个中提出的许多新观点沿用至今。Kepler 架构在硬件上拥有了双精度打算单元(FP64),并提出 GPU Direct 技能,绕过 CPU/System Memory,与其他 GPU 直接进行数据交互。Pascal 架构运用了第一代 NVLink。 Volta 架构开始运用 Tensor Core,对 AI 打算加速具有主要意义。简要回顾 NVIDIA GPU 硬件变革进程,工艺、 打算核心数增加等根本特性的升级持续推动性能提升,同时每一代架构所包含的功能特性也在不断丰富,逐渐 更好地适配 AI 运算的须要。
均衡分配资源的条件下,处理低精度的硬件单元数量更多,表现更高的算力性能。GPU 作为加速器得到广 泛运用一定程度上得益于它的通用性,为了在不同精度的数据类型上具有良好的性能,以兼顾 AI、科学打算等 不同场景的须要,英伟达在分配处理不同数据类型的硬件单元时大体上保持均衡。由于低精度数据类型的打算 占用更少的硬件资源,同一款 GPU 中的处理低精度数据类型的硬件单元的数量较多,对应打算能力也较强。以 V100 为例,每个 SM 中 FP32 单元的数量都为 FP64 单元的两倍,终极 V100 的 FP32 算力(15.7 TFLOPS)也近 似为 FP64(7.8 TFLOPS)的两倍,类似的规律也可以在各代架构旗舰 P100、A100 和 H100 中看到。
Tensor Core 持续迭代提升其加速能力。Volta 架构引入 Tensor Core 的改动使 GPU 的 AI 算力有了明显提升, 后续在每一代的架构升级中,Tensor Core 都有比较大的改进,支持的数据类型也逐渐增多。以 A100 到 H100 为例,Tensor Core 由 3.0 迭代至 4.0,H100 在 FP16 Tensor Core 的峰值吞吐量提升至 A100 的 3 倍。同时,H100 Tensor Core 支持新的数据类型 FP8,H100 FP8 Tensor Core 的吞吐量是 A100 FP16 Tensor Core 的 6 倍。
数据访问支配着打算能力利用率。AI 运算涉及到大量数据的存储与处理,根据 Cadence 数据,与一样平常事情 负载比较,每台 AI 演习做事器须要 6 倍的内存容量。而在过去几十年中,处理器的运行速率随着摩尔定律高速 提升,而 DRAM 的性能提升速率远远慢于处理器速率。目前 DRAM 的性能已经成为了整体打算机性能的一个 主要瓶颈,即所谓阻碍性能提升的“内存墙”。除了性能之外,内存对付能效比的限定也成为一个瓶颈,Cadence 数据显示,在自然措辞类 AI 负载中,存储花费的能量占比达到 82%。
硬件单元的改进与显存升级增强了单张 GPU 算力的开释,然而,随着 Transformer 模型的大规模发展和应 用,模型参数量呈爆炸式增长,GPT-3 参数量达到了 1750 亿,比较 GPT 增长了近 1500 倍,预演习数据量更是 从 5GB 提升到了 45TB。大模型参数量的指数级增长带来的诸多问题使 GPU 集群化运算成为必须: (1)纵然最前辈的 GPU,也不再可能将模型参数拟合到主内存中。 (2)纵然模型可以安装在单个 GPU 中(例如,通过在主机和设备内存之间交流参数),所需的大量打算操 作也可能导致在没有并行化的情形下不切实际地延长演习韶光。根据 NVIDIA 数据,在 8 个 V100 GPU 上演习 一个具有 1750 亿个参数的 GPT-3 模型须要 36 年,而在 512 个 V100 GPU 上演习须要 7 个月。
NVIDIA 开拓 NVLink 技能办理 GPU 集群通信。在硬件端,GPU 之间稳定、高速的通信是实现集群运算 所必须的条件。传统 x86 做事器的互连通道 PCIe 的互连带宽由其代际与构造决定,例如 x16 PCIe 4.0 双向带宽 仅为 64GB/s。除此之外,GPU 之间通过 PCIe 交互还会与总线上的 CPU 操作竞争,乃至进一步占用可用带宽。 NVIDIA 为打破 PCIe 互连的带脱期制,在 P100 上搭载了首项高速 GPU 互连技能 NVLink(一种总线及通讯协 议),GPU 之间无需再通过 PCIe 进行交互。
NVDIA 开拓基于 NVLink 的芯片 NVSwitch,作为 GPU 集群数据通信的“枢纽”。NVLink 1.0 技能利用时, 一台做事器中的 8 个 GPU 无法全部实现直接互连。同时,当 GPU 数量增加时,仅依赖 NVLink 技能,须要众 多数量的总线。为办理上述问题,NVIDIA 在 NVLink 2.0 期间发布了 NVSwitch,实现了 NVLink 的全连接。 NVSwitch 是一款 GPU 桥接芯片,可供应所需的 NVLink 交叉网络,在 GPU 之间的通信中发挥“枢纽”浸染。 借助于 NVswitch,每颗 GPU 都能以相同的延迟和速率访问其它的 GPU。就程序来看,16 个 GPU 都被视为一 个 GPU,系统效率得到了最大化,大大降落了多 GPU 系统的优化难度。
通过添加更多 NVSwitch 来支持更多 GPU,集群分布式运算得以实现。当演习大型措辞模型时,NVLink 网络也可以供应显著的提升。NVSwitch 已成为高性能打算(HPC)和 AI 演习运用中不可或缺的一部分。
2.1.2 NPU 通过分外架构设计对 AI 运算起到加速浸染
NPU 在人工智能算法上具有较高的运行效率。为了适应某个特定领域中的常见的运用和算法而设计,常日 称之为“特定域架构(Domain Specific Architecture,DSA)”芯片,NPU(神经网络处理器)属于个中一种,常 被设计用于神经网络运算的加速。以华为手机 SoC 麒麟 970 为例,NPU 对图像识别神经网络的运算起到了显著加速效果,使其图像识别速率明显优于同代竞品的表现。
目前已量产的 NPU 或搭载 NPU 模块的芯片浩瀚,其他有名的芯片包括谷歌 TPU、华为昇腾、特斯拉 FSD、 特斯拉 Dojo 等。各家厂商在打算核心的设计上有其差异,例如谷歌 TPU 的脉动阵列,华为昇腾的达芬奇架构。 以谷歌 TPU 及打算核心构造脉动阵列为例,比拟其相较于 CPU、GPU 的差异: CPU 和 GPU 均具有通用性,但以频繁的内存访问导致资源花费为代价。CPU 和 GPU 都是通用途理器, 可以支持数百万种不同的运用程序和软件。对付 ALU 中的每一次打算,CPU、GPU 都须要访问寄存器或缓存 来读取和存储中间打算结果。由于数据存取的速率每每大大低于数据处理的速率,频繁的内存访问,限定了总 吞吐量并花费大量能源。 谷歌 TPU 并非通用途理器,而是将其设计为专门用于神经网络事情负载的矩阵处理器。TPU 不能运行文 字处理器、掌握火箭引擎或实行银行交易,但它们可以处理神经网络的大量乘法和加法,速率极快,同时花费 更少的能量,占用更小的物理空间。TPU 内部设计了由乘法器和加法器构成的脉动阵列。在打算时,TPU 将内 存中的参数加载到乘法器和加法器矩阵中,每次乘法实行时,结果将通报给下一个乘法器,同时进行求和。所 以输出将是数据和参数之间所有乘法结果的总和。在全体海量打算和数据通报过程中,完备不须要访问内存。 这便是为什么 TPU 可以在神经网络打算上以低得多的功耗和更小的占用空间实现高打算吞吐量。
NPU 已经在 AI 运算加速领域得到了广泛运用。在数据中央得到大规模运用的 NPU 案例即 TPU,已被谷歌 用于构建数据中央的超级打算机,实行特定神经网络的演习任务。在用户端,手机、汽车、智能安防摄像头等 设备开始搭载 AI 打算功能,常日是利用演习好的神经网络模型实行图像处理等事情,此时 NPU 通用性差的劣 势被缩小,高算力、高能耗比的上风被放大,因而得到了广泛的运用。在终端设备中,NPU 常以模块的形式包 含在 SoC 内部,对 AI 运算进行加速,例如特斯拉自动驾驶芯片 FSD 均包含 NPU。
2.1.3 演习/推理、云/边分别对 AI 芯片提出不同哀求,未来推理真个算力需求将远超演习端
AI 技能在实际运用中包括两个环节:演习(Training)和推理(Inference)。演习是指通过大数据演习出一个复 杂的神经网络模型,使其能够适应特定的功能。演习须要较高的打算性能、能够处理海量数据、具有一定的通 用性。推理是指利用演习好的神经网络模型进走运算,利用输入的新数据来一次性得到精确结论的过程。
根据所承担当务的不同,AI 芯片可以分为演习 AI 芯片和推理 AI 芯片: (1)演习芯片:用于构建神经网络模型,须要高算力和一定的通用性。 (2)推理芯片:利用神经网络模型进行推理预测,看重综合指标,单位能耗算力、时延、本钱等都要考虑。 根据 AI 芯片支配的位置,可以分为云端 AI 芯片和边缘端 AI 芯片: (1)云端:即数据中央,关注算力、扩展能力、兼容性。云端支配的 AI 芯片包括演习芯片和推理芯片。 (2)边缘端:即手机、安防摄像头等领域,关注综合性能,哀求低功耗、低延时、低本钱。边缘端支配的 AI 芯片以实现推理功能为主。 云端推理占比逐步提升,AI 落地运用数量增加。根据 IDC 数据,随着人工智能进入大规模落地运用的关键 期间,2022 年在云端支配的算力里,推理占算力已经达到了 58.5%,演习占算力只有 41.5%,估量到 2026 年, 推理占到 62.2%,演习占 37.8%。云端推理占比逐步提升解释,AI 落地运用数量正在不断增加,人工智能模型 将逐步进入广泛投产模式。
带宽、互连速率的限定,使云端超大规模的模型推理选择 A100、H100 更优,而非 T4、A10 等推理卡。以 GPT-3 为例,OpenAI 数据显示 GPT-3 模型 1750 亿参数对应超过 350GB 的 GPU 显存需求。假设参数规模与所 需显存呈线性关系,且推理的中间参数量按 1 倍估算,则 1 万亿参数规模的大模型推理须要约 4000GB 显存, 则须要 50 张 A100(80GB)或者 167 张 A10(24GB)。集群中的 GPU 数量越多意味着更繁芜的互连哀求,而 且 A10 无法运用 NVLink 和 NVSwitch 技能,大量 A10 组成的集群仅依赖 PCIe 通信,互连带宽比较 A100 等显 卡的劣势明显,进而可能导致模型推理的时效性不佳。
经测算,AI 大模型在演习端和推理端都将产生巨量的算力/AI 芯片需求。如果未来大模型广泛商用落地, 推理真个算力/AI 芯片的需求量将明显高于演习端。 大模型云端演习对算力的需求测算: 测算事理:从模型的(1)参数规模入手,根据(2)演习大模型所需的 Token 数量和(3)每 Token 演习成 本与模型参数量的关系估算总算力需求,再考虑(4)单张 GPU 算力和(5)GPU 集群的算力利用率推导得出 GPU 总需求。 (1)参数规模:过去几年,大模型的参数量呈指数上升,GPT-3 模型参数量已达到 1750 亿。GPT-4 具有 多模态能力,其参数量比较 GPT-3 会更大。我们在测算中假设 2023 年多模态大模型的均匀参数量达到 10000 亿个,之后每年保持 20%的增速;普通大模型的均匀参数量达到 2000 亿个,之后每年保持 20%的增速。 (2)演习大模型所需的 Token 数量:参数规模在千亿量级的自然措辞大模型 GPT-3、Jurassic-1、Gopher、 MT-NLG,演习所需的 Token 数量在千亿量级,而一些多模态大模型在演习过程中所需 Token 数据量也跟随参 数量增长而增长,我们在测算中假设多模态大模型演习所需 Token 数量达到万亿级别,并且 Token 数量与模型 参数规模保持线性增长关系。
(3)每 Token 演习本钱与模型参数量的关系:参考 OpenAI 发布的论文《Scaling Laws for Neural Language Models》中的剖析,每个 token 的演习本钱常日约为 6N,个中 N 是 LLM 的参数数量,我们在测算中遵照这一 关系。详细事理如下,神经网络的演习过程包括前向传播和反向传播两个过程,个中大致包括四个步骤: 1. 做一个单次的推理操作,得到输出 y,例如输入猫的图片得到输出 0.986。 2. 求到输出 y 与真实的目标输出 Y(假定设置的目标输出 Y=1)之间的差值,例如得到输出与目标真实 值的差值为 0.014。 3. 将输出差值回溯,打算差值关于每个参数的梯度关系。 4. 根据输出差值和梯度改动每个神经元的参数,实现神经网络的参数更新,匆匆使输出逼近目标真实值。 因而在一个参数量为 N 的神经网络中,一次输入带来演习过程的整体运算量大致为 6N,个中 2N 为前向传播过程,4N 为反向传播过程。
(4)单张 GPU 算力:由于在演习大模型时,紧张依赖可实现的稠浊精度 FP16/FP32 FLOPS,即 FP16 Tensor Core 的算力,我们在测算中选取 A100 SXM 和 H100 SXM 对应的算力 312 TFLOPS 和 990 TFLOPS 作为参数。 (5)GPU 集群的算力利用率:参考 Google Research 发布的论文《PaLM: Scaling Language Modeling with Pathways》中的剖析,我们在测算中假设算力利用率约为 30%。
大模型云端推理对算力的需求测算:在云端推理场景下,我们分别从云端推理所需算力和云端模型支配所 需显存两个维度分别进行测算。 算力角度的测算事理:基于前文对参数规模、模型数量等数据的假设,根据(1)大模型日活用户人数、(2) 每人均匀查询 Token 数量、(3)每 Token 推理本钱与模型参数量的关系估算推理端总算力需求,再考虑(4)单 张 GPU 算力和 GPU 集群的算力利用率推导得出 GPU 总需求。 (1)大模型日活用户人数:根据 Similarweb 统计数据,2023 年 1 月 ChatGPT 的日活用户数达到 1300 万。 我们在测算中假设 2023 年多模态大模型的均匀日活量达到 2000 万,普通大模型的均匀日活量达到 1000 万,之 后每年保持快速增长。 (2)每人均匀查询 Token 数量:根据 OpenAI 数据,均匀每 1000 个 Token 对应 750 个单词,我们在测算 中假设每位用户均匀查询的 Token 数量坚持在 1000 个。 (3)每 Token 推理本钱与模型参数量的关系:参考 OpenAI 发布的论文《Scaling Laws for Neural LanguageModels》中的剖析,每个 token 的推理本钱常日约为 2N,个中 N 是 LLM 的参数数量,我们在测算中遵照这一 关系。 (4)单张 GPU 算力:由于测算中的大模型参数量级分别在千亿量级和万亿量级,考虑带宽容量和集群计 算中的带脱期制,我们在测算中假设采取 H100 或 A100 作为云端推理卡。
根据所有假设及可以得到,从云端推理所需算力角度测算,2023 年-2027 年,环球大模型云端推理的峰值 算力需求量的年复合增长率为 113%。 显存角度测算事理:首先,目前 SK Hynix 已开拓出业界首款 12 层 24GB HBM3,考虑到一张 GPU 板卡面 积有限,限定了打算核心周围可支配的 HBM 数量,因此未来一段韶光内,GPU 显存容量的提升空间较小。其 次,推理最紧张的需求是时效性,为了知足时效性,模型所须要的存储空间须要放到显存内。综合 GPU 板卡 HBM 容量有限和推理端模型需放置在 GPU 显存中这两个条件,我们从模型推理端运行所需显存入手,先预估 推理端运行一个大模型所需显存容量(1),再假设业务场景中大模型的峰值访问量,并以此得到总体的显存需 求(2),终极得到算力/AI 芯片的需求。 (1)运行一个模型所需显存:以 1750 亿参数的 GPT-3 模型为例,OpenAI 数据显示参数存储须要 350GB 空间。假设推理打算中间产生的参数按照一倍打算,因此推理至少须要 700GB 显存空间,即支配一个模型须要 9 张 80GB 显存版本的 A100。 (2)业务场景支配模型量及所需显存:假设该模型能够同时处理的并发任务数量为 100,即 9 张 A100 80GB 处理 100 用户同时并发访问。业务场景支配以搜索引擎为例,假设最高并发访问人数为 2000 万,则须要 2000 万/1009=180 万张 A100 80GB。
2.2 英伟达龙头地位稳固,海内厂商正逐步追赶
外洋龙头厂商霸占垄断地位,AI 加速芯片市场呈现“一超多强”态势。数据中央 CPU 市场上,英特尔份 额有所低落但仍保持较大领先上风,AMD 持续抢占份额势头正盛。AI 加速芯片市场上,英伟达凭借硬件上风 和软件生态一家独大,在演习、推理端均霸占领先地位。根据 Liftr Insights 数据,2022 年数据中央 AI 加速市场 中,英伟达份额达 82%,别的外洋厂商如 AWS 和 Xilinx 分别占比 8%、4%,AMD、Intel、Google 均占比 2%。 海内厂商起步较晚正逐步发力,部分加速芯片领域已经呈现出一批破局企业,但目前多为初创企业规模较小, 技能能力和生态培植仍不完备,在高端 AI 芯片领域与外洋厂商仍存在较大差距。未来,随着美国持续加大对中 国高端芯片的出口限定,AI 芯片国产化进程有望加快。
GPU 市场方面,外洋龙头霸占垄断地位,国产厂商加速追赶。当前英伟达、AMD、英特尔三巨子霸占全 球 GPU 芯片市场的主导地位。集成 GPU 芯片一样平常在台式机和条记本电脑中利用,性能和功耗较低,紧张厂商 包括英特尔和 AMD;独立显卡常用于做事器中,性能更高、功耗更大,紧张厂商包括英伟达和 AMD。分运用 场景来看,运用在人工智能、科学打算、***编解码等场景的做事器 GPU 市场中,英伟达和 AMD 霸占紧张份 额。根据 JPR,2023 年 Q1 英伟达的独立显卡(包括 AIB 互助伙伴显卡)的市场份额达 84%, AMD 和 Intel 则分别占比 12%、4%。
图形渲染 GPU:英伟达引领行业数十年,持续技能迭代和生态构建实现长期领先。2006 年起,英伟达 GPU 架构保持约每两年更新一次的节奏,各代际产品性能提升显著,生态构建完全,Geforce 系列产品市占率长期保 持市场首位,最新代际 GeForce RTX 40 系列代表了目前显卡的性能顶峰,采取全新的 Ada Lovelace 架构,台积 电 5nm 级别工艺,拥有 760 亿晶体管和 18000 个 CUDA 核心,与 Ampere 比较架构核心数量增加约 70%,能耗 比提升近两倍,可驱动 DLSS 3.0 技能。性能远超上代产品。AMD 独立 GPU 在 RDNA 架构迭代路径清晰,RDNA 3 架构采取 5nm 工艺和 chiplet 设计,比 RDNA 2 架构有 54%每瓦性能提升,估量 2024 年前 RDNA 4 架构可正 式发布,将采取更为前辈的工艺制造。目前海内厂商在图形渲染 GPU 方面与国外龙头厂商差距不断缩小。芯动 科技的“风华 2 号”GPU 像素添补率 48GPixel/s,FP32 单精度浮点性能 1.5TFLOPS,AI 运算(INT8)性能 12.5TOPS, 实测功耗 4~15W,支持 OpenGL4.3、DX11、Vulkan 等 API,实现国产图形渲染 GPU 打破。景嘉微在工艺制程、 核心频率、浮点性能等方面虽掉队于英伟达同代产品,但差距正逐渐缩小。2023 年顺利发布 JM9 系列图形处理 芯片,支持 OpenGL 4.0、HDMI 2.0 等接口,以及 H.265/4K 60-fps ***解码,核心频率至少为 1.5GHz,配备 8GB 显存,浮点性能约 1.5TFlops,与英伟达 GeForce GTX1050 性能附近,有望对标 GeForce GTX1080。
GPGPU:英伟达和 AMD 是目前环球 GPGPU 的领军企业。英伟达的通用打算芯片具备精良的硬件设计, 通过 CUDA 架构等全栈式软件布局,实现了 GPU 并行打算的通用化,深度挖掘芯片硬件的性能极限,在各种 下贱运用领域中,均推出了高性能的软硬件组合,逐步成为环球 AI 芯片领域的主导者。根据 stateof.AI 2022 报 告,英伟达芯片在 AI 学术论文中的涌现频次远超其他类型的 AI 芯片,是学术界最常用的人工智能加速芯片。 在 Oracle 以及腾讯云中,也险些全部采取英伟达的 GPU 作为打算加速芯片。AMD 2018 年发布用于数据中央的 Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架构,如 MI250X 采取 CDNA2 架构,在通用打算领域 实现打算能力和互联能力的显著提升,此外还推出了对标英伟达 CUDA 生态的 AMD ROCm 开源软件开拓平台。 英伟达的 H100 及 A100、AMD 的 MI100、MI200 系列等是当前最为主流的 GPGPU 产品型号。
ASIC 市场方面,由于其一定的定制化属性,市场格局较为分散。在人工智能领域,ASIC 也霸占一席之地。 个中谷歌处于相对前沿的技能地位,自 2016 年以来,就推出了专为机器学习定制的 ASIC,即张量处理器(Tensor Processing Unit,TPU),近期,谷歌首次公布了其用于演习人工智能模型的 AI 芯片 TPU v4 的详细信息,其采 用低精度打算,在险些不影响深度学习处理效果的条件下大幅降落了功耗、加快运算速率,同时利用了脉动阵 列等设计来优化矩阵乘法与卷积运算,对大规模矩阵的乘法可以最大化数据复用,减少访存次数,大幅提升 Transformer 模型的演习速率,同时节约演习本钱。谷歌称在同等规模系统下基于 TPU 的谷歌超级打算机比基于 英伟达 A100 芯片的系统最高快 1.7 倍,节能效率提高 1.9 倍。谷歌 TPU 属于定制化 ASIC 芯片,是专门为神经 网络和 TensorFlow 学习框架等量身打造的集成芯片,须要在这类特定框架下才能发挥出最高运行效率。
生态体系决定用户体验,是算力芯片厂商最深的护城河。虽然英伟达 GPU 本身硬件平台的算力卓越,但其 强大的 CUDA 软件生态才是推升其 GPU 打算生态遍及的关键力量。从技能角度来讲,GPU 硬件的性能门槛并 不高,通过产品迭代可以接龙首领头子先水平,但下贱客户更在意能不能用、好不好用的生态问题。CUDA 推出之 前 GPU 编程须要机器码深入到显卡内核才能完成任务,而推出之后相称于把繁芜的显卡编程包装成为一个大略 的接口,造福开拓职员,迄今为止已成为最发达、最广泛的生态系统,是目前最适宜深度学习、AI 演习的 GPU 架构。英伟达在 2007 年推出后不断改进更新,衍生出各种工具包、软件环境,构筑了完全的生态,并与浩瀚客 户互助构建细分领域加速库与 AI 演习模型,已经积累 300 个加速库和 400 个 AI 模型。尤其在深度学习成为 主流之后,英伟达通过有针对性地优化来以最佳的效率提升性能,例如支持稠浊精度演习和推理,在 GPU 中加 入 Tensor Core 来提升卷积打算能力,以及最新的在 H100 GPU 中加入 Transformer Engine 来提升干系模型的性 能。这些投入包括了软件和芯片架构上的协同设计,使得英伟达能利用最小的代价来保持性能的领先。而即便 是英伟达最大的竞争对手 AMD 的 ROCm 平台在用户生态和性能优化上还存在差距。CUDA 作为完全的 GPU 办理方案,供应了硬件的直接访问接口,开拓门槛大幅降落,而这套易用且能充分调动芯片架构潜力的软件生生态让英伟达在大模型社区拥有巨大的影响力。正因 CUDA 拥有成熟且性能良好的底层软件架构,故险些所有 的深度学习演习和推理框架都把对付英伟达 GPU 的支持和优化作为必备的目标,帮助英伟达处于持续处于领先 地位。
英伟达领先地位稳固。英伟达凭借良好的硬件性能和完善的 CUDA 生态将持续处于领先地位,但起步较晚 的寻衅者也在奋起直追,未来有望涌现一超多强的多元化竞争格局。演习市场方面,英伟达高算力 GPU 是当前 AI 演习主流选择,谷歌 TPU 面临着通用性的局限,AMD 存在生态构建差距,但在二者的冲击及云厂商自研芯 片的竞争下,AI 演习市场也或将涌现格局的变动。推理市场方面,GPU 具有较好的生态延续性仍占主流,如英 伟达针对推理市场的产品 Tesla T4 上的芯片包含了 2560 个 CUDA 内核,性能达到了 FP64 0.25 TFLOPS、 FP32 8.1TFLOPS、INT8 达 130 TOPS,可供应多精度推理性能,以及优于 CPU 40 倍的低延时高吞吐量,可以 实时知足更多的要求。但其他办理方案在本钱、功耗具有上风,特定市场竞争格局相对激烈,事情负载不同对 应的芯片性能需求不同,T4 PCIe,有望涌现各种芯片共存的局势。
海内算力芯片厂商具备较好的入局机会。国产算力芯片市场需求巨大,海内子工智能生态环境较好,在 AI 运用领域的步伐处于环球前列,国产 GPU 厂商具孵化和发展的沃土,海内厂商供应链多元化的需求带来了海内 AI 芯片厂商适配窗口期,尤其是当前大模型发展早期是适配的黄金窗口期。个中,寒武纪、华为等兼容 CUDA 和自建生态是国产厂商发展的两大趋势,具备很大的竞争力潜力。短期来看,海内厂商兼容英伟达 CUDA,可 以减轻开拓和迁移难度,进而快速实现客户端导入。同时须要避开英伟达绝对上风领域,在芯片设计构造上形 成差异化竞争;长期来看,国产 GPU 如果完备依赖 CUDA 生态,硬件更新将不得不绑定英伟达的开拓进程, 应借鉴 AMD、Google 构建自身生态体系,开展软硬件结合的平台化布局,并打造不同领域快速落地垂直办理 方案的能力,铸造自己的生态圈核心壁垒。估量硬件性能高效以及能够构建符合下贱需求的生态体系的国产厂 商有望脱颖而出。
2.3 前辈封装成为高性价比替代方案,存算一体运用潜力巨大
2.3.1 前辈封装:后摩尔定律时期的创新方向,前辈制程的高性价比替代方案
大算力芯片哀求性能持续提升,后摩尔时期急需高性价比办理方案。随着大模型参数增加,AI 大模型对付 算力需求大幅提升,GPU 等大算力芯片的性能提升遭遇两大瓶颈:一方面,进入 28nm 往后摩尔定律逐渐失落效, 前辈制程的本钱快速提升。根据 IBS 统计在达到 28nm 制程节点往后,如果连续缩小制程节点数,每百万门晶 体管的制造本钱不降反升,摩尔定律开始失落效。而且运用前辈制程的芯片研发用度大幅增长,5nm 制程的芯片 研发用度增至 5.42 亿美元,险些是 28nm 芯片研发用度的 10.6 倍,高额的研发门槛进一步减少了前辈制程的应 用范围。另一方面,内存带宽增长缓慢,限定处理器性能。在传统 PCB 封装中,走线密度和旗子暗记传输速率难以 提升,因而内存带宽缓慢增长,导致来自存储带宽的开拓速率远远低于处理器逻辑电路的速率,带来“内存墙” 的问题。
为了使异构集成的 Chiplet 封装实现,须要借助到 2D/2.1D/2.3D/2.5D/3D 等一系列前辈封装工艺。前辈封装 的不同层次紧张依据多颗芯片堆叠的物理构造和电气连接办法划分,例如 2D 封装中的芯片直接连接到基板, 其他封装则以不同形式的中介层完成互联。个中,2.5D 封装常用于打算核心与 HBM 的封装互连,3D 封装常用 于 HBM 显存的多层堆叠,并有望用于不同 IC 的异构集成。
1)CoWoS:2.5D 封装主要办理方案,实现打算核心与 HBM 封装互连
打算核心与 HBM 通过 2.5D 封装互连,台积电开拓的 CoWoS 封装技能为广泛利用的办理方案。台积电早 在 2011 年推出 CoWoS 技能,并在 2012 年首先运用于 Xilinx 的 FPGA 上。此后,华为海思、英伟达、谷歌等厂 商的芯片均采取了 CoWoS,例如 GP100(P100 显卡核心),TPU 2.0。如今 CoWoS 已成为 HPC 和 AI 打算领域 广泛运用的 2.5D 封装技能,绝大多数利用 HBM 的高性能芯片,包括大部分创企的 AI 演习芯片都运用了 CoWoS 技能。
CoWoS-S 基于硅中介层(Si-interposer)为前辈 SoC 和 HBM 供应系统集成,在 GPU 等算力芯片的封装 中运用广泛。CoWoS-S 的特点是稠浊了宽带内存模块 HBM(High Bandwidth Memory)和大规模 SoC 的高性能 子系统,通过 Si 中介层连接 HBM 和 SoC,实现了宽带内存访问。CoWoS-S 最早于 2011 年开拓,经历 5 代发 展。最初,安装在中介层上的硅芯片是多个逻辑芯片,采取该技能的赛灵思高端 FPGA“7V2000T”在 CoWoS-S 中配备了四个 FPGA 逻辑芯片。第 3 代开始支持逻辑和内存的稠浊加载。第 5 代 CoWoS-S 技能利用了全新的 TSV 办理方案,更厚的铜连接线,晶体管数量是第 3 代的 20 倍,硅中介层扩大到 2500mm2,相称于 3 倍 光罩面积,拥有 8 个 HBM2E 堆栈的空间,容量高达 128 GB。第 6 代技能有望于 2023 年推出,将会在基板 上封装 2 颗运算核心,同时可以板载多达 12 颗 HBM 缓存芯片。
CoWoS 帮助台积电取得英伟达、AMD 等高性能打算芯片订单。根据 DIGITIMES 宣布,微软已与台积电 及其生态系统互助伙伴接洽,商榷将 CoWoS 封装用于其自己的 AI 芯片。英伟达高端 GPU 都采取 CoWoS 封 装技能将 GPU 芯片和 HBM 凑集在一起。Tesla P100 通过加入采取 HBM2 的 CoWoS 第三代技能,将打算性 能和数据紧密集成在同一个程序包内,供应的内存性能是 NVIDIA Maxwell 架构的三倍以上。V100、A100、 等高端 GPU,均采取台积电 CoWoS 封装,分别配备 32 GB HBM2、40GB HBM2E 内存,全新 Hopper 架构的 H100 GPU 也采取 CoWoS 封装,具有 80GB 的 HBM3 内存和超高的 3.2TB/s 内存带宽。AMD 也将重新采取 CoWoS 封装。根据 DIGITIMES 宣布,AMD MI 200 原来由日月光集团与旗下矽品供应,运用 FO-EB 前辈封 装(扇出嵌入式桥接),而新 MI 系列数据中央加速器芯片将重新采取台积电前辈封装 CoWoS。基于 Aldebaran GPU 的 MI250 或采取第五代 CoWoS 封装技能,可实现 128GB HBM2E 内存等超高性能配置。
2)HBM:3D 封装打造多层堆叠内存,打破容量与带宽瓶颈
HBM 采取 3D 封装,通过 TSV 将多个 DRAM die 垂直堆叠。在后摩尔时期,存储带宽制约了打算系统的 有效带宽,导致芯片算力性能提升受到限定,HBM 应运而生,与传统 DRAM 不同,HBM 是 3D 构造,它利用 TSV 技能将数个 DRAM 裸片堆叠起来,形成立方体构造,即 DRAM 芯片上搭上数千个细微孔并通过垂直贯通 的电极连接高下芯片;DRAM 下面是 DRAM 逻辑掌握单元,对 DRAM 进行掌握。从技能角度看,HBM 匆匆使 DRAM 从传统 2D 加速走向立体 3D,充分利用空间、缩小面积,契合半导体行业小型化、集成化的发展趋势。 HBM 和硅互联技能打破了内存容量与带宽瓶颈,被视为新一代 DRAM 办理方案。而相较传统封装办法,TSV 技能能够缩减 30%体积,并降落 50%能耗。
HBM 相对传统内存数据传输线路的数量大幅提升。存储器带宽指单位韶光内可以传输的数据量,要想增 加带宽,最大略的方法是增加数据传输线路的数量。在范例的 DRAM 中,每个芯片有八个 DQ 引脚 2,也便是 数据输入/输出引脚。在组成 DIMM3 模块单元之后,共有 64 个 DQ 引脚。然而,随着系统对 DRAM 和处理速 度等方面的哀求有所提高,数据传输量也在增加。因此,DQ 引脚的数量(D 站的出入口数量)已无法担保数据 能够顺利通过。HBM 由于采取了系统级封装(SIP)4 和硅通孔(TSV)技能,拥有高达 1024 个 DQ 引脚,但 其形状尺寸(指物理面积)却比标准 DRAM 小 10 倍以上。由于传统 DRAM 须要大量空间与 CPU 和 GPU 等处 理器通信,而且它们须要通过引线键合 5 或 PCB 迹线 6 进行连接,因此 DRAM 不可能对海量数据进行并行处 理。比较之下,HBM 产品可以在极短间隔内进行通信,增加了 DQ 路径,显著加快了旗子暗记在堆叠 DRAM 之间 的传输速率,实现了低功耗、高速的数据传输。
HBM 正在成为 AI 做事器 GPU 的标配。AI 做事器须要在短韶光内处理大量数据,对带宽提出了更高的要 求,HBM 成为了主要的办理方案。AI 做事器 GPU 市场以 NVIDIA H100、A100、A800 以及 AMD MI250、MI250X 系列为主,基本都配备了 HBM。HBM 方案目前已演进为较为主流的高性能打算领域扩展高带宽的方案。SK 海 力士 HBM3 显存的样品已通过 NVIDIA 的性能评估事情,在 2022 年 6 月向 NVIDIA 正式供货,2023 GTC 大会发布的 ChatGPT 专用最新 H100 NVL GPU,也配置了 188GB HBM3e 内存;Rambus HBM3 或将在 2023 年流片,实际运用于数据中央、AI、HPC 等领域。IDC 数据显示,2019 年中国 AI 加速做事器单机 GPGPU 搭 载量最多达到 20 颗,加权均匀数约为 8 颗/台。单颗 GPU 配套的 HBM 显存存储容量达到 80GB,对应代价量 约为 800 美元。
SK 海力士是 HBM 开拓的先行者,并在技能开拓和市场份额上霸占领先地位。2014 年,SK 海力士与 AMD 联合开拓了环球首款 HBM 产品。SK 海力士的 HBM3 发布 7 个月后实现了量产,将搭载于 NVIDIA H100 之上。 根据 BussinessKorea 的宣布,SK 海力士在 HBM 市场已得到 60%-70%的市场份额。SK 海力士之后,三星、美 光推出了各自的 HBM 产品,分别迭代至 HBM3 和 HBM2E。晶圆代工厂商包括如台积电、格芯等也在发力 HBM 干系的封装技能。 随着 HBM3 的性能提升,未来市场空间广阔。以位元打算,目前 HBM 占全体 DRAM 市场比重仅约 1.5%, 渗透率提升空间较大。在将 GPU 等 AI 芯片推向高峰的同时,也极大带动了市场对新一代内存芯片 HBM(高带 宽内存)的需求,据悉,2023 年开年以来,三星、SK 海力士的 HBM 订单就快速增加,价格也水涨船高。根据 TrendForce 咨询,2023-2025 年 HBM 市场 CAGR 有望发展至 40-45%以上,至 2025 年市场规模有望快速增至 25 亿美元。
3)3D IC:多芯片垂直堆叠增强互联带宽,未来发展潜力巨大
3D IC 是指利用 FAB 工艺在单个芯片上堆叠多个器件层,包括多 Logic 芯片间的堆叠。与 2.5D 封装比较,3D IC 封装在互连办法有所不同。2.5D 封装是通过 TSV 转换板连接芯片,而 3D IC 封装是将多个芯片垂直堆叠 在一起,并通过直接键合技能实现芯片间的互连。在 2.5D 构造中,两个或多个有源半导体芯片并排放置在硅 中介层上,以实现极高的芯片到芯片互连密度。在 3D 构造中,有源芯片通过芯片堆叠集成,以实现最短的互 连和最小的封装尺寸。另一方面,2.5D 封装和 3D IC 封装的制造工艺也有所不同,2.5D 封装须要制造硅基中介 层,并且须要进行微影技能等繁芜的工艺步骤;而 3D IC 封装须要进行直接键合技能等高难度的制造工艺步骤。 当前 3D IC 封装主流产品包括台积电 SoIC 技能、英特尔 Foveros 技能和三星 X-Cube 技能。
2.3.2 存算一体:办理传统冯诺依曼架构“存储墙”,能效比提升潜力巨大
存算一体有望办理传统冯诺依曼架构下的“存储墙”。由于处理器的设计以提升打算速率为主,存储则更注 重容量提升和本钱优化,“存”“算〞之间性能失落配,从而导致了访存带宽低、时延长、功耗高档问题,即常日 所说的“〝存储墙〞和“功耗墙”。访存愈密集,“墙”的问题愈严重,算力提升愈困难。随着以人工智能打算 单元为代表的访存密集型运用快速崛起,访存时延和功耗开销无法忽略,打算架构的变革显得尤为急迫。存算一体作为一种新型算力,指打算单元与存储单元领悟,在完成数据存储功能的同时可以直接进行打算,有望解 决传统冯诺依曼架构下的“存储墙〞、“功耗墙〞 问题,以其巨大的能效比提升潜力,有望成为人工智能时期 的前辈运用技能。 存储墙:数据搬运慢、搬运能耗大等问题是高速打算的关键瓶颈。从处理单元外的存储器提取数据,搬运 韶光每每是运算韶光的成百上千倍,全体过程的无用能耗大概在 60%-90%之间,能效非常低。
PIM:用硅通孔(Through Silicon Via,TSV,2010 年实现)技能将打算单元塞进内存高下 bank 之间。 CIM:打算操作由位于存储芯片/区域内部的独立打算单元完成,存储和打算可以是仿照的也可以是数字的。 这种路线一样平常用于算法固定的场景算法打算。目前紧张路线是基于 NOR flash,多数情形下存储容量较小,这使 得 NOR flash 单片算力达到 1TOPS 以上器件代价较大,常日业内大算力一样平常是 20-100TOPS 以上。而其他存储 器,包括 SRAM、RRAM 等,可以用来做到大算力的存算一体。
科研院所与龙头厂商积极布局,未来市场潜力较大。2011 年,存算一体芯片开始受到学界关注,2016-2017 年景为学界热议话题,随之而来学术大佬与业界领军厂商纷纭开启其商业化探索。科研院所方面,加州大学圣 芭芭拉分校谢源教授团队致力于在新型存储器件 ReRAM(阻变存储)里面实现打算的功能研究,即 PRIME 架 构。清华大学刘勇攀教授团队和汪玉教授团队均参与了 PRIME 架构的研发,目前已实现在 150nm 工艺下流片, 在阻变存储阵列里实现了打算存储一体化的神经网络,功耗降落 20 倍,速率提高 50 倍。此外,清华大学与 SK 海力士联合成立智能存储打算芯片联合研究中央,未来五年,中央将致力于研发存算一体与近存储处理技能。 在家当运用方面,英特尔、博世、美光、Lam Research、运用材料、微软、亚马逊、软银都投资了 NOR 闪存存 算一体芯片。个中,英特尔发布的傲腾固态盘采取片外存储技能,实现 CPU 与硬盘之间数据高速搬运,从而 平衡高等剖析和人工智能等大规模内存事情负载的性价比。SK 海力士在今年的 ISSCC 揭橥存内打算的开拓成 果-基于 GDDR 接口的 DRAM 存内打算,并展示了其首款基于存内打算技能产品-GDDR6-AiM 的样本。根据 量子位智库估量,2030 年基于存算一体的大算力芯片将实现规模量产,运用处景覆盖大数据检索、蛋白质/基因 剖析、数据加密、图像处理等。2030 年,基于存算一体技能的中小算力芯片市场规模约为 1069 亿公民币,基 于存算一体技能的大算力芯片市场规模约为 67 亿公民币,总市场规模约为 1136 亿公民币。
三、AI 做事器渗透率快速提升
3.1 AI 做事器是算力根本举动步伐最紧张的硬件,演习型紧张成本来自于 GPU 芯片
3.1.1 AI 做事器采取异构架构,主流构造为 CPU+多颗 GPU
与普通做事器的绝大多数空间分配给 CPU 比较,AI 做事器是采取异构形式的做事器,在异构办法上可以 根据运用的范围采取不同的组合办法,一样平常采纳 CPU+多颗 GPU 的架构,也有 CPU+TPU、CPU+其他的加速卡 等组合。相较普通做事器,AI 做事器更善于并走运算,具有高带宽、性能优胜、能耗低等优点。 在大模型的预演习中,一方面侧重对文本高下文的理解,另一方面算法上存在大量的向量、矩阵打算,这 让并行打算的 AI 做事器更善于处理大模型的预演习任务。人工智能与通用大模型作为数字经济中的新兴行业, 带动了大量的算力需求,也成为海内算力根本举动步伐培植中最紧张的硬件之一。
以 GPU 为核心的异构做事器未来将成为主流。比拟 CPU 和 GPU 的内部架构,CPU 采取整块的 ALU(运算单 元),且大量空间用于掌握单元和缓存,串行打算能力强;而 GPU 采取分立的大量 ALU,很少空间分配给掌握单 元和缓存,并行打算能力强。而由于图像识别、视觉效果处理、虚拟现实、大模型演习等任务都包含大量的简 单重复打算、矩阵打算等,更适宜用搭载 GPU 更多的异构型 AI 做事器进行处理,而随着企业的智能化变革和通 用大模型的兴起,以 GPU 为核心的异构型 AI 做事器将在算力根本举动步伐培植中霸占愈发主要的地位。
3.1.2 AI 做事器家当链高下游&本钱构造拆解
AI 做事器家当链上游紧张由做事器元器件生产商组成,个中 CPU、GPU 作为核心组件,紧张由 Intel、 AMD、Nvidia 供应,国产供应商占比较少,其他部件包括内存、SSD、PCB、光模块、电源等存在更多的国 产供应商;家当链中游包括主板集成商和做事器厂商,先由主板集成商将浩瀚芯片集成,再交由做事器厂 商装置成整机发卖。目前海内企业在做事器厂商中霸占主要地位;家当链下贱紧张包括以 BAT 为首的互联 网厂商,移动、电信、联通三大运营商和浩瀚政企客户(紧张集中在政府、金融、医疗三大行业,因其最 须要 AI 客服等干系产品)。
通用做事器本钱紧张由 CPU、存储、内存及其他部分构成,而 AI 做事器由于采取了多颗 GPU 芯片组成异 构架构,其本钱构成也会发生变革。详细来看,演习型 AI 做事器由于须要处理大量数据,具备更强的打算能力, 演习芯片价格显著高于推理芯片。演习型 AI 做事器本钱中,约 7 成以上由 GPU 构成,别的 CPU、存储、内存 等占比相对较小。对付推理型做事器,其 GPU 本钱约为 2-3 成,整体本钱构成与高性能型附近。
3.2 AI 做事器市场规模有望保持高速增长,当前订单饱满
3.2.1 环球 AI 做事器近三年将保持高速增长
根据 IDC 数据,2022 年环球 AI 做事器市场规模 202 亿美元,同比增长 29.8%,占做事器市场规模的比例 为 16.4%,同比提升 1.2pct。我们认为随着数据量的持续提升,大模型参与玩家和单个模型参数量提升,以及 数字化转型推进等多成分影响,AI 做事器市场规模将连续保持较快增长。 结合 2.1.3 节图表 45 我们对付大措辞模型带来 AI 芯片的增量需求测算,我们认为 2023-2025 年环球 AI 做事器有望实现高速增长。以目前企业对付 AI 做事器的实际需求来看,虽然推理端需求更为兴旺,但从采购角度 更方向于搭载 A100/A800GPU 的演习/推理一体做事器。因此我们结合 3.1.2 节对付演习型、推理型 AI 做事器的 本钱拆解测算,预估 2023-2025 年增量的 GPU 需求约占 AI 做事器本钱比重为 70%。此外,随着包括 H100/H800 等新一代芯片的推出、算法迭代升级均有望带来整体效率提升,AI 做事器增量市场空间可能略低于大模型需求 预期。结合上述假设,我们认为环球 AI 做事器市场规模未来 3 年内将保持高速增长,市场规模分别为 395/890/1601 亿美元,对应增速 96%/125%/80%。由于互联网厂商等紧张下贱客户方向于为未来潜在需求提前 备货,因此 2023 年市场增速可能高于预测值,同时 2024、2025 年市场增速可能略低于预测值。
3.2.2 中国 AI 做事器近三年将保持高速增长
根据 IDC 数据,2022 年中国 AI 做事器市场规模 67 亿美元,同比增长 24%。个中 GPU 做事器霸占主导地 位,市场份额为 89%至 60 亿美元。同时,NPU、ASIC 和 FPGA 等非 GPU 加速做事器以同比 12%的增速霸占 了 11%的市场份额,达到 7 亿美元。在大模型浪潮到来前,由数字经济和“东数西算”等政策影响下,中国 AI 算力在2021年实现了68.2%的同比高速增长。据浪潮信息、国际数据公司(IDC)和清华大学联合推出的《2021-2022 环球打算力指数评估报告》显示,中国 AI 算力发展领跑环球,AI 做事器支出规模位列环球第一。我们认为, 在大模型浪潮下,叠加数字经济、东数西算带动的数据中央、智算中央培植,AI 做事器市场中我国的份额在当 前约环球 1/3 比例上有望进一步提升。我们估量,2023-2025 年,结合对付环球 AI 做事器市场规模的预判,以 及对付我国份额占比持续提升的假设,我国 AI 做事器市场规模有望达到 134/307/561 亿美元,同比增长 101%/128%/83%。由于互联网厂商等紧张下贱客户方向于为未来潜在需求提前备货,因此 2023 年市场增速可 能高于预测值,同时 2024、2025 年市场增速可能略低于预测值。
3.2.3 当前 AI 做事器厂商在手订单充分,AI 做事器市场高增长确定性较强
自去年 ChatGPT 带动的大模型浪潮以来,国内外头部互联网厂商纷纭加入 AI 算力的武备竞赛,加大对付 AI 算力侧的资源投入。AI 算力的高景气带动 AI 做事器需求端爆发式增长,并表示在 AI 做事器厂商订单端。环球 AI 做事器出货金额排名第一位的龙头厂商浪潮信息,提到一季度以来 AI 做事器市场迎来明显增长,客户 关注点由价格转向能否及时知足自身需求。此外,据紫光股份于投资者互动平台的回答,其 AI 做事器订单今年 一季度有很大提升,产能知足市场需求不存在问题,针对 GPT 场景优化的 GPU 做事器已经完成开拓,估量今 年二季度全面上市。作为环球 ICT 设备龙头企业的遐想集团,根据其最新公布的财报数据,ISG(根本举动步伐解 决方案业务集团)在 2023 年 1-3 月实现营收同比增长 56.2%,全财年营收同比增长 36.6%,紧张受益于外洋 AI 做事器需求爆发以及存储业务的高速增长,公司预期新财年 AI 做事器收入增速将显著快于通用做事器,带动 ISG 部门营收增长超市场均匀水平 20%以上。中科曙光深度布局算力领域,包括上游芯片、中游做事器办理方案、 液冷技能、以及下贱算力调度等业务,公司于投资者互动平台多次回答,会根据用户需求供应通用算力和智能 算力产品及做事,随着我国算力需求的增长,各种产品发卖均呈现增长态势,伴随我国人工智能技能和家当的 发展,估量智能打算产品需求将逐步提升。
3.3 AI 做事器市场集中度有望提升,海内厂商呈现一超多强格局
3.3.1 环球 AI 做事器竞争格局
据 IDC 数据,2022 年上半年环球 AI 做事器市场中,浪潮信息、戴尔、惠普、遐想、新华三分别以 15.1%、 14.1%、7.7%、5.6%、4.7%的市场份额位居前五位。市场格局相对分散,龙头厂商份额较为靠近。此外,由于以 北美云厂商为主的需求方倾向于采取 ODM 模式,因此非品牌商份额占比较高,靠近 50%。
3.3.2 中国 AI 做事器竞争格局
据 IDC 数据,2022 年我国 AI 做事器市场按发卖额统计市场份额中,浪潮信息、新华三、宁畅位居前三位, 市场份额分别为 47%、11%、9%。市场格局呈现一超多强局势,除浪潮外其与厂商份额相对靠近。由于海内头 部厂商采取类 ODM 模式做事互联网客户,因此 ODM 厂商份额占比偏低。
3.3.3 AI 做事器竞争格局未来演进趋势
从 AI 做事器的研发与交付考虑,品牌商和代工厂的模式及时间线略有不同,品牌商研发周期更长但交付 更快,代工厂研发周期略短但交付产品韶光略长。5 月 29 日,英伟达 CEO 在台北国际电脑展 COMPUTEX 2023 大会带来主题演讲,演讲中发布了目前台系 ODM 厂商针对客户需求做出的 AI 做事器雏形,并将进一步根据客 户需求做定制化开拓,由定制化开拓到产品交付客户估量须要数月韶光。对付 OEM 厂商来说,包括浪潮、联 想、新华三等厂商的研发周期相对较长,须要靠近一年的韶光进行验证,并根据不同客户做不同配置规格进行 进一步验证。OEM 厂商验证完成后的成熟产品在交付中比较 ODM 厂商可以实现更快交付。
3.4 环球做事器市场规模估量保持平稳
3.4.1 通用做事器仍处库存去化阶段,环球市场规模估量将涌现下滑
根据研究机构 TrendForce5 月 17 日发布的报告,2023 年做事器市场需求展望不佳,再次下调今年环球做事 器整机出货量预测至 1383.5 万台,同比减少 2.85%。TrendForce 称,美国谷歌、微软、Meta、亚马逊四大互联 网公司陆续下调做事器采购量;同时戴尔、HPE 等 OEM 厂商也在 2~4 月间下调整年出货量预估,同比分别减少 15%、12%;此外,受国际形势以及经济成分等多种成分导致整年做事器需求展望不佳。2023 年 Q1 受淡季效应 以及终端库存改动的影响,环球做事器出货量环比减少了 15.9%。TrendForce 对付二季度家当回暖信心偏低,产 业旺季并未准期发生,环比增长预估仅为 9.23%。此外,ESG 方面的谈论使得美国四大互联网公司延长做事器的 利用年限,进而降落采购量,掌握成本支出,这也是影响做事器市场的成分之一。估量库存去化完成将在今年 下半年或明年上半年到来,若库存去化进度不及预期,整年做事器市场规模预测可能会进一步下调。
3.4.2 AI 做事器出货量占比进一步提升,对环球做事器市场整体出货量贡献有限
去年底以来,ChatGPT 等人工智能运用的火热带动了 AI 做事器需求暴增,英伟达芯片涌现供不应求情形。 包括微软、谷歌、Meta、腾讯、百度等国内外云做事供应商纷纭积极加大 AI 算力投入。根据 TrendForce 预估, 2023 年 AI 做事器出货量将同比实现 10%增长,但由于从台数来看 AI 做事器占比不敷 10%,对付全体市场影响 相对有限,估量环球整年做事器出货量整体呈现持平或小幅下滑趋势。 从海内市场来看,互联网厂商及智算中央培植推动 AI 做事器需求暴涨,一季度干系厂商新增订单同比超 4 成,整年估量出货金额将保持高速增长。考虑到通用做事器市场下半年需求有望回暖,整年市场规模有望持平 或小幅增长,叠加 AI 做事器的快速增长,根据 IDC 预测,估量整年做事器市场规模有望实现超 10%的增长。
四、AI 正在推动高速率光模块需求放量在传统的数据中央中,网络着重要包括传统树形三层架构和叶脊架构。早期的数据中央一样平常采取传统的三 层构造,包括接入层、汇聚层和核心层,个中接入层用于连接打算节点与机柜交流机,汇聚层用于接入层的互 联,核心层用于汇聚层的互联且实现与外部网络连接。随着数据中央内部东西向流量的快速提升,三层网络架 构的核心层和汇聚层任务加重,性能提升需求高,设备本钱将大幅提升。因此,适用于东西向流量的扁平化的 叶脊网络架构应运而生,叶交流机直接与打算节点相连,脊交流机相称于核心交流机,通过 ECMP 动态选择多 条路径。叶脊网络架构具备带宽利用率高、扩展性好、网络延迟可预测和安全性高档上风,在数据中央中实现广泛的运用。
AI 数据中央中,由于内部数据流量较大,因此无壅塞的胖树网络架构成了主要需求之一。英伟达的 AI 数据 中央中,采取了胖树(fat-tree)的网络架构来实现无壅塞的功能。胖树的网络架构基本理念为:利用大量低性 能的交流机,构建出大规模的无壅塞网络,对付任意的通信模式,总有路径让他们的通信带宽达到网卡带宽, 架构中用到的所有交流机都是相同的。胖树网络架构一样平常用于网络哀求较高的数据中央中,如超算中央和 AI 数 据中央等。
英伟达的 A100 GPU 紧张对应 200G 光模块,H100 GPU 可以对应 400G 或 800G 光模块。每个 A100 GPU 配 一张 Mellanox HDR 200Gb/s Infiniband 网卡,每个 H100 GPU 配一张 Mellanox NDR 400Gb/s Infiniband 网卡。英伟 达在 H100 SuperPOD 的设计中,采取了 800G 的光模块,在光口采取 1 个 800G 光模块可以替代 2 个 400G 光模 块,在电口也可以将 8 个 SerDes 通道进行整合,与光口的 8 个 100G 通道逐一对应。因此这种设计下,交流机 的通道密度提高,物理尺寸显著降落。
NVLink 带宽远大于网卡侧的 PCIe 带宽,因此若将 NVLink 从做事器内部 GPU 互连拓宽至不同做事器之间的 GPU 的互连,将显著提升系统的带宽。若要实现不同做事器之间按照 NVLink 协议的 GPU 互连,除了须要采取 NVSwitch 芯片的物理交流机,还须要物理器件来实现交流机和做事器之间的连接,那么光模块也成为了主要的 组成部分,从而也会大幅增长 800G 光模块的需求。近日,英伟达创始人兼 CEO 黄仁勋在 NVIDIA Computex 2023 演讲中宣告,天生式 AI 引擎 NVIDIA DGX GH200 现已投入量产。GH200 通过 NV Link4 的 900GB/s 超大网络带宽 能力来提升算力,做事器内部可能采取铜线方案,但做事器之间我们认为可能会用光纤连接。对付单个256 GH200 芯片的集群,打算侧 1 个 GH200 对应 9 个 800G 光模块;对付多个 256 的 GH200 集群,打算侧 1 个 GH200 对 应 12 个 800G 光模块。
演习侧光模块需求与 GPU 出货量强干系,推理侧光模块需求与数据流量强干系。AI 对光模块需求的拉升主 要分为两个阶段,演习和推理。个中,演习侧的网络架构以胖树架构为主,由于在大模型演习过程中,对付网 络性能的哀求很高,网络无壅塞是主要的需求之一,比如腾讯用于大模型演习的星脉网络采取了胖树架构。同 时,我们认为大部分厂商会采取 Infiniband 协议的网络,时延远低于以太网,可以提升打算效率,缩短模型演习 韶光。演习侧光模块的需求与所用 GPU 显卡的数量强干系,根据胖树架构中 GPU 和光模块的比例关系可以得到 所需光模块的数量,A100 对应 200G 光模块,H100 对应 400G 或者 800G 光模块。推理侧面向用户侧,网络架 构更靠近于传统云打算数据中央的叶脊架构,紧张用于承载 AI 运用带来的数据流量增量。传统云打算紧张是 ToB 市场,用户数量不多,若未来涌现图片或***干系的爆款 AI 运用,一方面用户数量有望大幅提升,另一方面单 个用户产生的数据流量可能会显著增长,因此数据总流量将暴增,以是推理所需的算力和流量实际上可能远大 于演习,因此对付包括光模块在内的网络设备需求将起到有力的支撑和提振。
硅光子技能因此硅或硅基材料(Si, SiO2,SiGe)作为衬底材料,利用与集成电路兼容的 CMOS 工艺制造 对应的光子器件和光电器件,以实现对光的引发,调制,相应等,广泛运用于光通信,光传感,高性能打算等。 数通领域的硅光模块同样实现了大规模商用,未来份额有望不断提升。随着数据中央的快速发展,对付光模块 的需求爆发式增长,多家厂商开始大力研发用于数据中央的硅光模块。初期是 40G 硅光数通光模块小规模运用, Intel 和 Luxtera 的 100G 硅光模块大规模运用,目前 400G 的硅光模块已经实现量产,800G 亦在验证中。目前国 内的硅光模块厂商具备较强的竞争力,包括中际旭创、新易盛、华工科技等公司有自研的硅光芯片,博创科技 等公司与外洋硅光芯片巨子厂商深度互助,有望在 800G 光模块市场取得打破。
Co-packaged Optics,即共封装光学,光学引擎 PIC 与电学引擎 EIC 合封在一起的封装技能。CPO 交流机主 要分为交流机芯片、SerDes 和光学部分,过去 10 年交流机带宽增长了 80 倍。交流机芯片的带宽每两年提升一 倍;电接口的 SerDes 数量和速率也在提升,速率从 10G/s 提升到 112G/s,数量从 64 个通道提升到 51.2T 时期 的 512 个通道。交流机带宽从 640G 提升到 51.2T,交流机芯片功耗提升 7.4 倍,每个 Serdes 通道的功耗提升 2.84 倍,结合 Serdes 通道数的增加,总功耗增加 22.7 倍。而 CPO 可以降落功耗(核心上风)、降落本钱和减小尺寸。 CPO 参与公司紧张包括云做事厂商、设备商和芯片厂商等。目前,CPO 仍有很多技能难题,例如光源的功耗问 题,光源作为核心的部件之一,虽然外部光源在配置上更加灵巧,但是激光器在高温下效率较低,因此给多个通道同时供应光源时,高功率带来低效率,其功耗反而会更高。而且,光引擎紧密排布在交流机芯片的周围, 巨大的发热量如何进行有效地散热,光引擎失落效后如何进行灵巧地改换,新的光学连接器如何定义等这些技能 难题都须要更加有效的办理方案。此外,CPO 产品是将光模块和交流机集成在一起,因此将对光模块和交流机 行业产生较大的影响,在制订好干系产品标准之后如何使得两个家当链更好的协同,也将是一个主要的寻衅。
我们认为,本轮光模块板块行情可以参考 2016-2018H1 与 2019H2-2020H1。 数通光模块行业在 2016-2018H1 处于景气周期,中际旭创期间股价表现较好,2018H2-2019H1 环球云打算 及互联网巨子成本开支迎来调度,期间股价也下行。北美 FAAM(Facebook、Amazon、Alphabet、Microsoft) 2016-2018 Capex 增速为 29.65%、27.94%、62.74%,虽然 2018 年整年增速强劲,但 2018Q3 起增速显著放缓。 经由近 3 年(2016-2018H1)的景气周期,云厂商根本举动步伐如做事器、光网络等利用率不足饱满,相称于打算、 存储、网络能力有一定的“库存”,叠加宏不雅观经济及中美摩擦导致的不愿定性,企业信息化投入紧缩,企业上云 放缓,互联网巨子面临增长压力,因此成本开支增速明显放缓,直至 2019Q1 成本开支负增长。
五、AI 将会拉动交流机市场需求AI 带来数据中央的网络架构变革,光模块速率及数量均有显著提升,因此交流机的端口数及端口速率也有 相应的增长。以 ChatGPT 为代表的 AIGC 技能,依赖强大的 AI 模型和海量数据,能够在多个运用处景下产生优 质的内容,有望推动人工智能更广泛的运用。算力作为 AIGC 技能的主要支撑之一,是影响 AI 发展与运用的核 心成分。算力根本举动步伐成了目前行业亟需布局的资源,除了 CPU/GPU 等算力硬件需求强劲,网络端也催生了更 大带宽需求,以匹配日益增长的流量。与传统数据中央的网络架构比较,AI 数据网络架构会带来更多的交流机 端口的需求。
演习侧大概率会采取 Infiniband 或者类 IB 的低时延网络协议,推理侧估量会采取以太网协议的交流机。 InfiniBand 是一种开放标准的高带宽,低时延,高可靠的网络互联技能,随着人工智能的兴起,也是 GPU 做事 器首选的网络互联技能。比较较以太网协议的网络,Infiniband 网络在带宽、时延、网络可靠性、和组网办法上 都有一定的上风。当然,以太网的兼容性更好,本钱更低,可以运用在各种运用处景中,适配各种不同的设备 终端。AI 演习端对时延哀求较高,因此演习侧大概率会采取 Infiniband 网络,也可以采取 ROCE 网络,即基于 以太网的 RDMA 技能,也能够达到较低的时延。而英伟达 NVLink 技能,其带宽大幅提升,NVLink4 的双向带 宽可以达到 900GB/s,在演习侧也将具备较强的上风。在推理侧,我们认为网络协议可以沿用云打算数据中央 的以太网。
交流机中 SerDes 的功耗大幅提升。随着单个 SerDes 带宽提升带来功耗的提升,同时结合 SerDes 数量的提 升,未来 SerDes 的总功耗在交流机中的功耗占比将大幅提升。网络部分的功耗在数据中央中的功耗大幅提升: 根据 Facebook 的测算,随着数据中央内部流量的大幅提升,网络部分的功耗占比增加明显,到下一代网络部分 的功耗占比将从现在的 2%旁边提升到 20%旁边。传输间隔越近,SerDes 功耗越低。缩短交流机和光模块之间 电旗子暗记须要传输的间隔,可以简化 Serdes 芯片的功能,同时降落电旗子暗记的发射功率,从而降落 SerDes 的功耗。
六、AI 提升大功率 IDC 机柜需求,液冷渗透率随之提升6.1“东数西算”统筹全国算力网络培植,云打算需求可能将回暖
2021 年 5 月,发改委、网信办、工信部、能源局联合印发《全国一体化大数据中央协同创新体系算力枢纽 履行方案》,明确提出布局全国算力网络国家枢纽节点,启动履行“东数西算”工程,构建国家算力网络体系。 《全国一体化大数据中央协同创新体系算力枢纽履行方案》环绕国家重大区域发展计策,根据能源构造、 家当布局、市场发展、景象环境等,在京津冀、长三角、粤港澳大湾区、成渝以及贵州、内蒙古、甘肃、宁夏 等地布局培植全国一体化算力网络国家枢纽节点,勾引数据中央集约化、规模化、绿色化发展,构建数据中央 集群。国家枢纽节点间将进一步打通网络传输通道,加快履行“东数西算”工程,提升跨区域算力调度水平。
根据《全国一体化大数据中央协同创新体系算力枢纽履行方案》哀求,京津冀、长三角、粤港澳大湾区、 成渝等节点,用户规模较大、运用需求强烈,要重点统筹好城市内部和周边区域的数据中央布局,优化数据中 心供给构造,扩展算力增长空间,知足重大区域发展计策履行须要,城市内部加快对现有数据中央的改造升级, 优先知足对实时性哀求高的业务需求。贵州、内蒙古、甘肃、宁夏等节点,可再生能源丰富、景象适宜、数据 中央绿色发展潜力较大,要重点提升算力做事品质和利用效率,充分发挥资源上风,夯实网络根本保障,积极 承接全国范围需后台加工、离线剖析、存储备份等非实时算力需求,打造面向全国的非实时性算力保障基地。
根据发改委表态,“东数西算”工程总体思路有三方面:一是推动全国数据中央适度集聚、集约发展;二是 促进数据中央由东向西梯次布局、统筹发展;三是实现“东数西算”循规蹈矩、快速迭代。在当前起步阶段,8 个算力枢纽内方案设立 10 个数据中央集群,划定了物理边界,并明确了绿色节能、上架率等发展目标,如集群 内数据中央的均匀上架率至少要达到 65%以上,哀求张家口、韶关、长三角、芜湖、天府、重庆集群的 PUE 在 1.25 以下,和林格尔、贵安、中卫、庆阳集群的 PUE 在 1.2 以下。我们认为,10 个国家数据中央集群更多属于 新建项目,遍地所此前已发放的能耗指标及干系 IDC 公司在其它地区的投资方案可能多数会连续履行(现有 IDC 供应商本来在上述 10 个区域的投放安排就少),因此对付 IDC 培植家当链带来利好。
6.2 AI 大算力做事器须要高功率机柜,液冷或成必选项
人工智能大模型演习和推理运算所用的 GPU 做事器的功率密度将大幅提升,以英伟达 DGX A100 做事器为 例,其单机最大功率约可以达到 6.5kW,大幅超过单台普通 CPU 做事器 500w 旁边的功率水平。在此情形下, 一方面须要新建超大功率的机柜,另一方面为降落 PUE,估量液冷温控渗透率将快速提升。 PUE 值是衡量 IDC 能效的主要指标。PUE 的打算方法为数据中央的总耗电量比上 IT 设备的耗电量,数值越 靠近 1,表明 IDC 的能效越高。根据赛迪顾问的统计数据,2019 年中国数据中央的能耗中约有 43%是用于 IT 设 备的散热,基本与 45%的 IT 设备自身的能耗持平。因此,设备散热能耗成为降落 PUE 的关键影响成分。
液冷数据中央适宜供应高密算力,提升单柜支配密度,提高数据中央单位面积利用率。根据《冷板式液冷 做事器可靠性白皮书》数据显示,液体相对空气能够传热更快(相差 20-25 倍),能够带走更多热量(相差 2000-3000 倍),给高密支配供应了较好方案。常日液冷数据中央单机柜可以支持 30kW 以上的散热能力,并能较好演进到 100kW 以上。自然风冷的数据中央单柜密度一样平常只支持 8kW-10kW,冷热风道隔离的微模块加水冷空调水平制 冷在 15kW 以上性价比将大幅降落,比较较而言液冷的散热能力和经济性均有明显上风。 由于 AIGC 的发展,大功率 AI 做事器出货量有望快速增长,进而哀求单机柜功率要明显提升,业界已经开 始规模培植 20kW、30kW 功率的机柜。同时,数据中央降 PUE 也是刚需。在此背景下,由于风冷技能在高功率 机柜制冷方面的短板比较明显,因此液冷有望成为 AI 大算力数据中央的紧张制冷方案。
无论是冷板式液冷还是浸没式液冷,都须要数据中央温控和 ICT 设备厂商彼此合营,此前市场对付家当链 的协作问题存在疑虑。目前在 AI 算力需求的推动下,做事器厂商已经开始大力布局液冷做事器产品,液冷的产 业化进度有望加速。2022 年,浪潮信息将“All in 液冷”纳入公司发展计策,全栈布局液冷,实现通用做事器、 高密度做事器、整机柜做事器、AI 做事器四大系列全线产品均支持冷板式液冷,建成年产能 10 万台的亚洲最大 液冷数据中央研发生产基地,实现了业界首次冷板式液冷整机柜的大批量交付。2022 年,复兴通讯发布了《中 兴通讯液冷技能白皮书》,公司培植的全液冷数据中央项目得到了 2022 年 CDCC 数据中央科技成果奖,近期公 司 G5 系列做事器在泰国进行外洋市场首发,支持液冷散热技能,采取冷板式液冷散热。
6.3 人工智能算力需求有望推动海底数据中央规模化发展
我们认为,海底数据中央可能将迎来家当化的关键节点。一是中国通信工业协会已于 2022 年 12 月 14 日批 准发布标准 T/CA 303—2022《水下数据中央设计规范》。二是中国及环球近两年海上风力发电取得大发展,海 底数据中央可就近消纳海上风电。三是东部沿海城市算力及 IDC 需求兴旺,海底数据中央可就近知足需求。四 是 AIGC 须要单机柜功耗可能达几十 kW,海底数据中央单机柜功率可达 35kW 旁边,利用海水冷却,无压缩机 运行,单舱 PUE 可以低于 1.10,且无需冷却塔,可节约大量的水资源。五是环球在海底数据中央布局领先的是 微软,2015 年开始启动测试,两次测试都成功,2022 年美国 subsea cloud us 操持推出商用海底数据中央。
6.3.1 海内海底数据中央干系设计规范已经发布
海内第一个水下数据中央标准已发布并已开始履行。中国通信工业协会已于 2022 年 12 月 14 日批准发布标 准 T/CA 303—2022《水下数据中央设计规范》,该标准于 2023 年 1 月 1 日起开始履行。该标准遵照开放、公正、 透明、协商同等和促进贸易和互换的原则,按照全国团体标准信息平台公布的标准制订程序文件制订,由深圳海兰云数据中央科技有限公司、中国通信工业协会数据中央委员会、中国长江三峡集团有限公司、海洋石油工 程株式会社、维谛技能有限公司、清华大学等单位共同起草。 该标准适用于辅导和规范新建、改建和扩建支配于海洋的水下数据中央设计事情。《水下数据中央设计规范》 基于海底数据中央水下密封、无氧无尘、空间受限、无人值守等特点,规定了水下数据中央的分级与性能哀求、 选址与系统组成、水下舱体系统设计哀求、电气系统设计哀求、空调系统设计哀求、监控系统设计哀求、网络 与布线系统设计哀求、动力与通讯缆线系统设计哀求、消防与安全系统设计哀求。支配于湖泊、江水等水下数 据中央亦可参照实行。
6.3.2 海上风电已经实现规模化发展,有望与海底数据中央结合产生新商业模式
经历了 2020-2021 年海风抢装潮,海内海上风电家当链加速成熟。我国海上风电探索起源于 2007 年。是年 11 月 8 日,首座安装有 1 台金风科技 1.5 MW 风电机组的海上风电项目在渤海绥中油田建成发电,经历了十余 年的发展,2020 年末,我国海上风电装机量达到了 9.89GW。2019 年 5 月 24 日,国家发改委发布《关于完善风 电上网电价政策的关照》,提出将海上风电标杆上网电价改为辅导价,新核准海上风电项目全部通过竞争办法确 定上网电价;对 2018 年底前已核准的海上风电项目,如在 2021 年底前全部机组完成并网的,实行核定时的上网电价(约 0.85 元/千瓦时,补贴力度超 0.4 元/千瓦时),极具诱惑力的补贴价格,带来了海上风电的抢装潮, 仅 2021 年中国海上风电新增装机量超过 16.9GW,抢装也加速了我国海风家当链的成熟,2010 年我国海上风电 的单 GW 造价水平大约在 240 亿旁边,目前已经降至 120-130 亿元。截至 2022 年末,中国海上风电装机量达 30.51GW。
6.3.3 海底数据中央节能上风突出,可较好知足沿海地区的兴旺算力需求
海底数据中央 UDC 是水下数据中央的一种。海底数据中央是将做事器等信息根本举动步伐安装在海底密封的压 力容器中,利用流动海水进行散热,并利用海底复合缆供电且将数据回传至互联网的新型数据中央。海底数据 中央具有节能、节地、低时延、安全可靠等显著的绿色低碳特色和多方面的优点,符合绿色低碳发展趋势。 海底数据中央一样平常培植在海岸线 10-20 公里之处,可知足沿海地区较高的算力、数据存储及低延迟的哀求。 水下数据中央为低延迟连接供应了一种办理方案,即减少数据在源和目的地之间传输所需的韶光。西部要地本地地 区的数据中央可以进行一些冷数据的存储和延迟哀求较低的打算,但对付延迟哀求较高的还是须要在东部沿海 地区探求数据中央资源。东部沿海城市算力需求兴旺,海底数据中央可以利用较近的间隔为基数巨大的沿海人 供词给低延迟连接,由于天下上超过 50%的人口居住在间隔海岸 120 英里(200 公里)的范围内。
6.3.4 环球海底数据中央培植案例——微软 Natick 项目
环球首个海底数据中央于 2015 年由美国微软公司研制,微软在海洋中建立水下数据中央和放置做事器的 研究实验——Natick 项目目前已完成了为期 4 个月的水下观点验证测试与为期两年的水下数据中央测试。该项 目第一阶段的目的是有效地测试水下数据中央的冷却系统。第二阶段的目的则在于确定全尺寸水下数据中央模 块的制造可行性以及在 90 天内支配它们的经济可行性。此外,在两年的韶光里,微软还能够测试和监控水下数 据中央做事器的性能和可靠性。
微软 Natick 项目未来的第三阶段被描述为“试点”。详细来说,微软将为 Natick 项目的第 3 阶段建立一个 “更大规模”的水下数据中央,该数据中央“可能是多艘船”,并且“可能是与第二阶段不同的支配技能”。微 软 Natick 项目的第 3 阶段将被放置在大于 117 英尺(36 米)的深度。 微软通过 Natick 项目探索了海底数据中央发展的潜力。Natick 项目第二阶段测试结果显示,海底数据中央 的 PUE 为 1.07,故障率是地面数据中央故障率的八分之一。同时,微软通过 Natick 项目创造,水下数据中央可 实现快速支配,并可密封在类似潜艇的管道内,在海床上运行多年,而无需人工进行任何现场掩护。初步剖析 表明,做事器在水下具有卓越性能的紧张缘故原由是避免了湿气和氧气的堕落。 但须要把稳的是,目前海底数据中央也存在发展瓶颈。一是海底数据中央须要高额的培植本钱,包括购买 数据舱、做事器、布线、配电系统、通信系统等。二是海底数据中央的技能难度大,须要具备海洋环境下的建 设、抗潮汛、抗海浪、抗噪声等技能。三是海底数据中央的运维事情繁芜,由于海底环境条件繁芜多变,须要 分外的技能和设备才能完成运维事情。
(本文仅供参考,不代表我们的任何投资建议。如需利用干系信息,请参阅报告原文。)
精选报告来源:【未来智库】。「链接」
本文系作者个人观点,不代表本站立场,转载请注明出处!