ChatGPT将AI带入了大模型时期,开启了IT技能新纪元。
一韶光,大模型领域的技能创新有如雨后春笋、不断呈现,个中关注度最高确当属大模型本身。

大年夜模型走出“象牙塔”这项技能将扮演关键角色_模子_技巧 AI快讯

当下大模型领域上演的“百模大战”朝阳东升,实在质上是为了抢占大模型时期的入口,可以称之为“魔派”。
次之为,模型的开拓平台旨在为大模型时期供应演习、精调、优化,数据的洗濯、知识库的天生等功能,它们意图成为大模型时期的“卖铲人”,可称之为“铲派”。
此外,作为大模型演习的根基,GPU、NPU、DPU等各种芯片技能的研究自然也是热点,尤其是在英伟达一家独大之际,如何冲破垄断,技能扎到根?这一派可称之为“根派”。

在“魔派”“铲派”和“根派”诸家争鸣、群雄逐鹿之时,我们也把稳到更多人开始关注大模型的工程落地技能,如何让大模型走出“象牙塔”、走进千行百业,走出“吟诗为难刁难”、走向工程实践?这个中,关于GPU的虚拟化技能研究最值得关注。

近日,在中国开源大会上,上海交通大学推出GPU虚拟化统一框架openCoDA,呼吁产学研联合构建统一开放的国产 GPU 虚拟化生态,并率先在华为的训推超领悟一体机 FusionCube A3000上进行了工程实践,给人留下了深刻的印象。

虚拟化并非新兴技能,早在CPU算力时期便是办理IT技能从创新到工程落地的关键一环。
那么在大模型时期,虚拟化技能又将扮演什么角色?发挥什么浸染?要回答这些问题,我们首先要回顾一下虚拟化技能,以及虚拟化在CPU时期的精彩故事。

一.什么是虚拟化?CPU虚拟化是如何走向统一的?

提到虚拟化,首先自然想到的是CPU虚拟化。

20世纪70年代,微型打算机技能飞速发展,但在x86时期早期,市场并没有虚拟化需求。
随着半导体技能的发展,大量的廉价硬件被推向市场,随之带来了诸如利用率不敷、管理本钱攀升、随意马虎受到攻击等各种问题。
为理解决上述问题,人们开始研究CPU虚拟化。

CPU虚拟化可以用单个CPU仿照多CPU并行,显著提高打算机事情效率。
此外借助虚拟化技能可以扩大硬件容量、简化软件配置过程、提高系统可靠性。
自20世纪90年代到2010年代的20年间,各厂商纷纭投入巨大的资源和人力,相继推出了不同的CPU虚拟化产品。
在这个过程中,涌现了资源重复投入的“乱象”。
直到内核虚拟机(Kernel-based Virtual Machine, KVM)的涌现,CPU虚拟化从百家争鸣逐渐走向统一开放。

KVM最初是由Qumranet公司开拓, 于2007年被红帽收购。
作为Linux内核的一个集成模块,其源码包含在Linux内核源代码树中,并在Linux社区以GPL容许协议开源。
由于KVM直接融入Linux内核使其天然支持Linux, 且具有更大略、更轻量、更灵巧的优点,IBM、红帽、惠普、Intel等厂商联合起来成立了虚拟化同盟,大力推动KVM市场化,使得KVM统一了CPU时期虚拟化。

图1. KVM闭幕了CPU x86时期百家争鸣、重复投入的“乱象”

二.AI大模型时期,虚拟化的需求再次迸发

智能时期,大模型横空出世,以GPU为代表的XPU硬件构成了各种大模型运用的底层算力。
面对动辄上亿参数量的大模型演习和推理任务,传统的GPU独占的利用办法已无法知足如此大规模的算力需求,因此虚拟化的需求再次涌现,人们开始将目光转向GPU虚拟化。

一项来自艾瑞咨询的调查报告显示,中国AIGC家当的规模逐年攀升,2023年中国AIGC家当规模约为143亿元,随后将进入大模型生态造就期。
估量到2030年,中国AIGC家当规模有望打破万亿,达到11440亿元。

图2. 2022-2030年中国AIGC家当规模。
图片来源:艾瑞咨询《2023年中国AIGC家当全景报告》

大模型的参数量日益增长乃至达到万亿级别,对算力的需求也进步神速。
《2022-2023中国人工智能打算力发展评估报告》显示,2021年中国智能算力规模达155.2 EFLOPS(FP16), 估量到2026年中国智能算力规模将达1271.4 EFLOPS,年复合增长率估量高达52.3%。

图3. 我国智能算力发展状况。
图片来源:国家信息中央《智能打算中央创新发展指南》

然而面对大模型对底层算力弘大需求的现状,以GPU为代表的XPU硬件算力却严重不敷。

其紧张缘故原由有三。
一是GPU硬件昂贵,配备8张英伟达A100显卡的做事器价格高达上百万元;二是英伟达高算力GPU等硬件获取困难;三是现有的GPU资源利用率极低,在推理任务场景,大部分AI业务采取独占GPU的办法利用算力,导致GPU利用率只有10%~30%。

因此,在当前GPU硬件获取困难且昂贵的情形下,通过GPU虚拟化技能提高GPU资源利用率是办理算力需求的有效手段。

GPU虚拟化技能演进路线大致可以分为三个阶段,第一阶段是传统“一虚多”虚拟化,指将物理GPU按照固定比例切分,例如按照2的指数次方切分为多个虚拟vGPU。
第二阶段是内核挟制虚拟化,是指将物理GPU从算力和显存两个维度进行切分,比较传统虚拟化,内核挟制虚拟化可以按照1%的细粒度将物理GPU切分为多个vGPU。
第三个阶段是GPU资源池化,用户可以通过网络远程调用GPU资源,从而在软件层面实现vGPU动态切分。

图4. GPU虚拟化的技能演进路线及范例技能示意图

此外,昔时夜模型普遍具有万亿规模的参数量,演习一个大模型的韶光常日须要几十乃至上百天,如此永劫光演习对系统可靠性提出了极高的哀求。
独占GPU的利用办法无法抵御突发的硬件故障,一旦GPU发生故障就会导致全体演习任务中断。
但通过将物理GPU虚拟化成算力资源池,能够实现对底层硬件故障的隔离,可有效降落单个GPU故障导致模型演习及推理业务中断的风险,进而提高了大模型业务的稳定性和系统可靠性。

GPU虚拟化的另一个主要能力是支持无损热迁移。

在对GPU做事器设备做掩护时,传统直通式GPU上运行的AI业务进程必须中断;而且在对生动的AI业务跨设备迁移到高性能GPU做事器时,也会面临大量的数据搬运事情。
但通过GPU虚拟化供应的无损热迁移能力,在对物理GPU做事器下线掩护前,可以将虚拟vGPU的运行状态保存下来,并快速将vGPU迁移到正常运行的做事器,实现业务不中断运行。
管理员也可以根据实时AI负载,将正在生动运行的vGPU实时不中断地迁移到更高性能的做事器上做业务加速,从而优化不同生动度vGPU之间的资源分配。
其余,借助无损热迁移能力,还可以动态调度分配到不同节点的硬件资源份额,从而均衡利用各节点算力。

图5.无损热迁移 (a)保障设备掩护时业务不间断; (b)实现不同节点之间负载均衡

此外,通过GPU虚拟化技能可以显著加快AI大模型演习及业务支配上线速率。

通过GPU虚拟化技能,可以打破单节点GPU卡资源上限,整合碎片化算力资源,供应跨节点的多卡能力,进而大幅缩短模型演习周期。
GPU虚拟化平台也可以创建标准化的虚拟vGPU配置模板,包含预定义的打算、内存和存储等资源,用户可以基于预设的模板一键式支配,快速在虚拟vGPU上支配并上线业务。

在对资源扩缩容和异构算力兼容方面,比较传统直通式GPU,虚拟化GPU也有着明显上风。

虚拟化技能可以动态添加或删除虚拟vGPU来支持弹性扩缩容需求,当须要增加AI业务时,可以大略地添加更多vGPU来扩展资源能力,无需购买新的物理GPU;当需求减少时,也可以动态回收vGPU以节省本钱。
其次,虚拟化技能也可以屏蔽底层异构GPU硬件的差异,给用户更多的硬件选择,避免形成厂商依赖,进而更好地平衡性能和本钱。

三.闭幕GPU虚拟化乱象的利器

由于GPU虚拟化技能能有效办理大模型时期GPU资源利用率不敷、系统可靠性、业务快速上线、资源弹性动态拓展和异构算力兼容等方面的浩瀚问题,国内外干系厂商纷纭入局并投入大量的人力和资源,相继推出了自研的GPU虚拟化产品。

在传统的“一虚多”GPU虚拟化方面,上海交通大学教授戚正伟团队与Intel互助在开源GPU虚拟化上面做了一系列干系成果(如gScale和gMig);英伟达也提出了基于SR-IOV的Multi-Instance GPU(MIG) 闭源虚拟化方案。
在虚拟化资源复用方面,当前业界的实现办法大致可以分为两类,其一是基于韶光片调度的办法,范例的如阿里云的cGPU和腾讯云的qGPU方案;其二是基于空间复用的并行实行方案,如英伟达的MPS方案。

然而,目前各厂商在GPU虚拟化上“各自为阵”,也导致了不同厂商的虚拟化产品对不同硬件的兼容性差,产生“七国八治”的适配问题。

面对当前AI大模型时期GPU虚拟化“各自为阵、七国八治”的乱象,戚正伟团队在中国开源大会上提出的openCoDA统一框架是一个可行的办理方案。
该框架包含统一标准化接口、虚拟化统一框架(UVF)、以及开放自主的协议栈, 个中UVF是其核心组件。

图6. openCoDA整体框架

详细来讲,UVF供应算力切分、弹性紧缩、资源聚合等虚拟化核心能力,向上供应统一的用户态驱动接口,实现国产南北向生态解耦;在软件上屏蔽异构硬件的差异,硬件厂商无需做额外软件适配的事情。
各厂商可以根据开源框架,结合XPU硬件特点进行优化,挖掘各自硬件上风。

四.“工程派”崛起,大模型时期虚拟化技能再焕新生

大模型技能百花齐放的时期,以虚拟化为代表的、面向工程实践落地的“工程派”将又一次抖擞出勃勃活气。

当前中国硬件算力面临封锁的困难期间,产学研各界更该当联合起来,构建面向国产GPU虚拟化的开源生态,并通过核心组件开源,避免重复投入、避免厂商锁定,形成标准化统一接口,挖掘硬件性能形成差异化上风,真正办理大模型从技能创新到工程运用的末了一公里问题。

(《中国科学报》赵广立编辑整理)