国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而精确的事_集群_模子
作者 | ZeR0编辑 | 漠影
“AI主沙场,万卡是最低标配!
”
在2024天下人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。
为什么必须是万卡?大模型行业变革很快,客户希望两周内结束战斗,最迟也得在1个月内演习完。假设演习一个5000亿参数模型,有15TB数据,如果只有1000P算力,3年都训不完;如果将韶光锁到两周或1个月,10000P是最低保障。
在外洋,拥有1.8万亿参数的GPT-4大模型须要用25000张A100 GPU训100天,折算成H100则须要1000张;Meta今年推出2个24576张H100集群,用于演习Llama 3等新模型;本周马斯克自曝新版Grok 3演习用了10万张H100 GPU。
在海内,万卡集群培植高歌年夜进。去年7月,华为昇腾AI集群规模扩展至16000卡;10月,科大讯飞宣告启动万卡集群算力平台“飞星一号”;今年3月,天翼云上海临港国产万卡算力池启用;4月,中国移动宣告今年将商用3个自主可控万卡集群……一众云大厂更是囤卡攒算力专业户,将大模型演习集群规模卷向10万卡量级。
但基于国产GPU的万卡方案,还是刚新鲜出炉。
就在昨日,国产GPU公司摩尔线程宣告其人工智能(AI)旗舰产品夸娥(KUAE)智算集群办理方案实现重大升级——从千卡扩展至万卡规模。
这是其首个万卡万P万亿国产全功能GPU大模型预演习平台,树立了国产GPU技能的新标杆:
总算力超过10EFLOPS,目标是做到有效打算效率超过60%、稳定性达99%,能支撑万亿参数级大模型演习。
3个万卡集群项目(青海零碳家当园万卡集群、青海高原夸娥万卡集群、广西东盟万卡集群)在现场进行了计策签约。
两家清华系AI Infra互助伙伴(无问芯穹、清程极智)、两家大模型大厂互助伙伴(360、京东云)、一家具身智能互助伙伴(智平方科技)的代表先后登台,对夸娥智算集群助力其在大模型演习、推理及具身智能的创新赞誉有加。
加速统统大模型,只是第一步。
张建中说,夸娥万卡集群不仅是加速AI,而是想要为美好天下加速。
一、大模型演习呼唤万卡集群,国产GPU企业坐上牌桌
大模型竞赛轰轰烈烈,从研发到运用,从演习到推理,统统都在猖獗花费着算力。
智算中央是大模型演习的“超级加工厂”,数据量够多、参数量够大,演习出的大模型才有市场竞争力。对此,张建中总结出三大算力核心需求:
一是Scaling Law持续见效,假设按线性比例发展,参数规模从百亿到万亿有100倍增长,处理数据量从TB到10+TB有10倍提升,两者相乘,那么所需算力至少增长1000+倍,须要建立一个单节点超大规模算力集群来做演习。
二是算法持续迭代,Transformer架构不能实现大一统,从稠密到稀疏模型,再到多模态模型的领悟,多元架构持续演进并共存,面向特定领域设计的专用芯片难以适应未来算法,通用型算力才具备更强的抗风险能力。
三是AI、3D、高性能打算(HPC)跨技能与跨领域领悟加速,推动空间智能物理AI和AI for Science、天下模型等领域的边界拓展,使得大模型的演习和运用环境更加繁芜多元。
这些趋势对智算集群提出了多主要求:既要规模够大,又要通用性强,前者卖力支持顶尖大模型顶峰对决,后者顺应多元打算领悟发展的趋势,进而催生出对万卡GPU集群的急迫渴求。
大模型演习,唯快不破。
外洋头部AI大厂都步调激进,OpenAI单点集群有超5万张H100,谷歌打造了2.6万张H100组成的AI超算,Meta到今年年底将囤35万张H100。海内大厂固然也乐意豪掷巨资,但被美国一纸限令推入“有钱买不到新算力”的僵局。
而如果没有万卡集群做演习,好比国产大模型冒死蹬着朴素的三轮,想跟开跑车的外洋龙头同场飙车,逆袭的几率不能说没有,只能说极低。
甲之砒霜,乙之蜜糖。英伟达入华受阻,给了国产AI芯片备胎转正的机会。摆在前方的是一座名为智算需求的金矿,算力供应商们在捋臂将拳,期待英伟达腾出的大单能落到自己头上。
摩尔线程则以一家国产GPU企业的身份,率先坐上了培植万卡集群的牌桌。
“这是一件难而精确的事情。”张建中说,“我们不能只是一家GPU的公司,一定要成为一家系统平台公司。”
创办于2020年10月的摩尔线程,甫一成立就组建云打算团队,设定了建集群的大方向和策略,并构建了MUSA体系架构,花了大量韶光去研究集群培植中的各种问题,攻坚克难。在大模型潮起后,这一起线更加明确与武断。
从千卡到万卡,集群培植的繁芜度指数级增加,是一项超级系统工程。大集群≠大算力,多卡互联也绝非大略的“1+1=2”算术题,非常磨练算网存系统级优化的功力。
暴力堆卡虽然能带来理论算力总和的暴涨,但如果不能办理技能及工程寻衅,即便手握10000张卡,实际能发挥的算力可能还不及2000卡。而且卡连的越多,出故障的概率也会越大,从硬件设计到集群研究都要办理稳定性难题。
这就好比带兵打仗,单人武力值高不即是团队战斗力强,胜败关键看排兵布阵的策略和高效无缝的合营。每位士兵要骁勇善战,调兵遣将时需确保通信无阻,后备粮仓和医药资源也都得跟上。
对应到万卡GPU集群,则是算网存管每一环节都不能有短板,单卡算力要强,组网拓扑构造要设计得效率足够高,即能有效提升单位功耗的算力,还要有敏捷的故障排查和及时规复能力,才能确保训得多、算得快、用得方便,跑得够稳。
因此,这项系统工程必须翻越六座大山:超大规模组网互联、集群有效打算效率、演习高稳定性与可用性、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用打算。
万卡集群造价极高。据张建等分享,几万P的智算中央本钱高达几十亿,更大算力规模则需投资上百亿。如此大的投资,哀求集群不仅拥有强大算力,而且必须具备多年持续做事的能力。设计智算中央时至少要考虑到两三年后的扩容程度,否则一旦空间和能源受限,规模就很难扩展。
在接管采访期间,张建等分享到目前智算中央投资回报率是5年旁边,而海内芯片研发用度大致相称于美国公司的1/10,在海内可以得到更好的回报,他相信在海内的发展潜力非常巨大。
那么要打造“国产万卡万P万亿大模型演习平台”的摩尔线程,详细是怎么做的?
二、千人团队耗时四年,构筑夸娥万卡集群的三道护城河打算效率、高度稳定、生态兼容,构成了摩尔线程夸娥万卡智算集群的三道护城河。
摩尔线程之以是将智算中央全栈方案命名为“夸娥(KUAE)”,是希望它像传世典故《愚公移山》中的夸娥氏二子那般不畏困难,始终如一,将一块块GPU加速卡垒成一个强大的打算集群。
这是一套以全功能GPU为底座,软硬一体化、完全的系统级算力办理方案,包括以夸娥打算集群为核心的根本举动步伐、夸娥集群管理平台(KUAE Platform)以及夸娥大模型做事平台(KUAE ModelStudio),旨在以一体化交付的办法办理大规模GPU算力的培植和运营管理问题。
张建中将夸娥万卡集群称作“新超级工程”。摩尔线程有1000多人、耗时近4年完成了这项事情,希望能够搭建首个中国本土通用型的万卡集群。
首先有自研全功能GPU,基于GPU做出打算加速卡,再组建成做事器,放进超领悟一体机,然后将这样的4台机器整合到一个机柜里,形成一个小集群,小集群连成大集群,大集群的线性加速比高于91%。有了这样一个灵巧组合的集群,客户就能根据自身培植方案去扩容每个打算集群。
***加载中...
软件也是关键落子。把万卡集群管理、调试、利用好,做到高效的演习和推理,须要一个全栈AI软件。摩尔线程夸娥智算集群的软件栈供应了一系列的加速引擎和便捷的管理平台,并支持用户进行7×24小时的随时远程监控。
“我们建议客户不要太多DIY,而是采取整体办理方案,这样可以避免风险,集群买回去之后立时就可以用起来。”张建中在接管采访时谈道,自建集群很有寻衅性,如果专业性不敷,从培植到稳定运行都会受影响,而KUAE夸娥是一个“交钥匙”工程,用户拿到就能开箱即用。
KUAE夸娥万卡集群有五个核心上风:
1、超大算力,万卡万P:单集群超万卡,浮点运算能力达到10Exa-Flops,显存总容量、卡间互联总带宽、节点互联总带宽均达到PB级,实现算力、显存和带宽的系统性协同优化,从而支持万亿参数级大模型的演习。
2、超高稳定,月级长稳演习:均匀无端障运行韶光超过15天,最长稳定演习30天以上;目标周均演习有效率逾99%。
稳定无端障,意味着每一位用户在集群中的每一秒没有被摧残浪费蹂躏,有助于降落打算中央运营本钱,并知足大模型演习长期迭代的需求。实现软硬件故障自动检测,无需人工干预,则有助于实现大型智算中央的无人职守,降本增效。
这得益于摩尔线程自研的一系列可预测、可诊断的多级可靠机制:软硬件故障的自动定位与诊断预测功能可实现分钟级故障定位,Checkpoint多级存储机制可实现内存秒级存储和演习任务分钟级规复,高容错高效能的万卡集群管理平台能实现秒级纳管分配与作业调度。
3、极致优化,超高MFU:在系统软件、框架、算法等层面进行一系列优化,希望MFU(集群有效打算效率,评估大模型演习效率的通用指标)最高可以达到60%,让用户买到的算力能真正发挥效力,而不但是买了一堆硬件。
摩尔线程在系统软件层面采取打算和通讯效率优化等技能手段,大幅提升集群的实行效率和性能表现。其自研卡间互连技能MTLink已经到2.0版本,目前用行业里的交流机芯片来搭建集群,后期也会考虑与互助伙伴共同研发下一代大规模交流机,持续发展卡间通信。
在框架和算法层面,夸娥万卡集群支持多种自适应稠浊并行策略与高效显存优化,可根据运用负载选择并自动配置最优的并行策略,大幅提升演习效率和显存利用;针对超长序列大模型,通过CP并行、RingAttention等优化技能,能有效缩减打算韶光和显存占用,大幅提升演习效率。
4、打算通用:为通用场景设计,可加速LLM、MoE、多模态、Mamba平分歧架构、不同模态的大模型,能够紧跟技能演进。
5、生态兼容:过去大部分软件都是在CUDA平台上开拓,换到新平台,如何实现来了就能用?这意味着不仅要与国际主流生态兼容,还要扩展中国本土生态,两条腿一起走路。
因此夸娥智算集群供应了摩尔线程自研MUSA编程措辞,完全兼容CUDA,开源社区和官方网站均可***Torch MUSA源代码,并供应自动化迁移工具Musify,以便用户能在短期内迅速将模型和迁移到MUSA平台。
“对付目前海内的大模型用户来看,我们最大的上风便是生态兼容性很好,基本上当天或者是第二天就可以完成生态迁移并运用起来,对客户就非常方便,从投入成本来讲大大节约了用户的资源,同时也节约了我们的资源。”张建中说。
据摩尔线程CTO张钰勃分享,开拓者移植到夸娥集群上,险些不须要修正代码,迁移本钱靠近0,几小时之内就能完成迁移事情,调优性能可能花费数天。
除了自研全功能GPU外,摩尔线程也在与国产CPU、操作系统互助,并联合打造了一个基于中国自主创新技能的PES完美体验系统同盟。在张建中看来,这是国外GPU公司无法做到的产品兼容性。
“目前险些所有的CPU企业都和我们的GPU完成了适配,我们一个驱动可以支持险些所有的CPU,”他谈道,“我们希望完美体验系统让海内的CPU、操作系统和我们的GPU事情在一起的时候,可以为客户供应一个完全且很好的体验。”
三、AI Infra、大模型、具身智能代表站台,认证夸娥智算集群性能高、稳定好用从实战履历来看,摩尔线程也的确赚得了口碑。无问芯穹、清程极智、360、京东云、智平方等五家互助伙伴登台,分享摩尔线程夸娥智算集群如何助力其在大模型演习、大模型推理、具身智能平分歧场景和领域的创新。
今年5月,无问芯穹和摩尔线程完成基于国产全功能GPU千卡集群,互助演习出的MT-infini-3B是行业内基于国产GPU从0到1预演习并开源的第一个大模型,演习总用时13.2天,在同等参数规模模型中性能跻身前列。这也是双方互助的出发点。
在互助初始阶段,无问芯穹还主动设置了一些“难堪”摩尔线程的门槛,故意做了很多在算子或模型构造上的分外修正。结果,摩尔线程的底层生态兼容性能够非常快而好地支持这些修正,终极全程稳定演习不中断地完成了模型演习。
无问芯穹正在打造大规模异构混训系统,实现多元芯片异构稠浊演习。摩尔线程是第一家接入并已支持千卡混训的的国产GPU公司。
清程极智创始人、董事长兼CEO汤雄超提到万卡大模型演习集群面临三大系统级寻衅:1)算子性能优化,充分发挥单卡打算性能;2)大规模集群演习,高效折衷多机分布式打算;3)新兴模型架构,灵巧应对模型动态需求。
针对这些寻衅,清程极智智能编译器IntelliGen和高效并行演习系统FastMoE均已适配MUSA,取得大幅演习加速,并实现0代码改动。汤雄超夸奖摩尔线程的GPU硬件架构、指令集、编译器、MUSA软件栈等设计都非常精良,清程极智有信心与摩尔线程一起占领中国AI超大规模演习集群的难题,共同培植天下水平的演习集群。
360集团早在2021年就与摩尔线程产品进行技能互助验证,并启动360与GPU干系产品的适配。继去年与摩尔线程实现一体机互助、适配及技能验证后,360企业大模型产品在今年与摩尔线程扩大互助,希望共同打造一个基于国产算力加国产大模型的联合办理方案。
在摩尔线程夸娥千卡集群上,360分别支配70亿、700亿参数大措辞模型,全程软硬件即插即用,事情有效演习韶光占比100%;全程稳定无软硬件故障,集群有效演习韶光占比100%。
京东基于摩尔线程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理测试,性能超过一些国际主流打算卡。
在Chatglm2-6B推理测试中,S4000的单卡推理性能是RTX 4090D性能的1.26倍,其他两个模型中,基于S4000性能均能达到RTX 4090D性能的90%旁边。
智平方科技是一家机器做事公司,致力于将多模态模型的能力赋能给不同类型的智能终端与智能机器人。这家通用智能代表企业与摩尔线程共同探索了基于国产算力的多模态大模型高效演习,并互助研发了一些特定的算子和优化卡间通信、弹性调度的方案。
国产万卡集群的落地有望对AI行业产生许多积极影响,从缩短模型演习周期、加快商业落地到降落创业门槛,终极催化全体生态的繁荣。
在张建中看来,要寻衅英伟达,难点紧张在市场的推广、用户的生态适配和生态发展,须要全行业生态互助伙伴的共同努力,包括算力供应商、培植方、软件做事以及做增值做事的互助伙伴。但他相信,给客户极致性价比、前辈的技能、最优质的做事,一定会让客户满意。
结语:GPU成为加速新技能浪潮的创新引擎
在加快形成新质生产力、开展“人工智能+”行动等计策指引下,我国AI落地进程正在提速,推动更多行业迈向数字化、智能化转型升级,并带动以GPU为核心的智算中央的培植与发展。
张建中坦言,GPU在全体打算做事器中的占比依然很低,不到10%,但未来这一占比将会提升。今年很多统计报告都显示新增加的算力来自于GPU,足见GPU算力的需求量非常强劲。
“我们正处在天生式AI的黄金时期,技能交织催动智能呈现,GPU成为加速新技能浪潮来临的创新引擎。”在他看来,此刻正是历史性的创造进程,而摩尔线程矢志投身,为领悟AI和数字孪生的数智天下打造前辈的加速打算平台。
据他分享,摩尔线程是海内唯一一家用全功能GPU去实现各方面通用加速打算能力的公司,用4年韶光将GPU的3D/2D图形图像、***编解码、科学打算、物理仿真、数字孪生、AI演习及推理能力都做了提升,能为客户供应一个更好的、可选择的国产化工具,并使得智算中央能支持更广泛的运用处景,提高长期抗风险能力。
随着夸娥智算集群从千卡向万卡无缝扩展,摩尔线程的全栈AI计策正在填上一块主要拼图。
“一旦我们把Scaling的问题办理了,这个对行业来说就办理了最难做的事情。”张建中说,在建好万卡集群后,摩尔线程将培植更大规模的集群,希望通过全功能通用加速打算平台,给行业供应更多的选择,催生开拓者更多的想象力和创意。
本文系作者个人观点,不代表本站立场,转载请注明出处!