详解AI芯片参数英伟达凭啥不能被替代?_英伟_芯片
文 | 家当象限,作者 | 山茶,编辑 | 钱江
2月22日,英伟达发布2024财年四季报,营收221亿美元,同比增长265%,净利润123亿美元,同比激增769%,双双大超市场预期。
然后,英伟达就杀疯了。
一夜之间,英伟达市值暴涨2770亿美元,创下华尔街单日最大涨幅的历史记录。如今,英伟达的市值已经逼近2万亿美元。以海内生产总值打算,英伟达市值超过了大多数其他国家经济体的规模。
图源:福布斯
从企业层面看,这一市值也超越Meta,成为仅次于微软、苹果和沙特阿美的环球第四大市值的巨无霸。
但故意思的征象是,虽然已经跻身第一梯队,但无论是营收还是利润,英伟达都与微软、苹果、乃至被它超过的Meta差距较远。
可以比拟来看:
《巴伦周刊》利用基于FactSet预测的2023年至2026年预期均匀盈利增长,以及基于2024年预测的市盈率,对美股7大巨子企业的PEG比率(市盈率除以盈利增长率)也做了预测,英伟达是个中最低的。
图源:FactSet
毫无疑问,如今英伟达的市值存在巨大泡沫,但从海内到国外,投资者却都乐意为这样的泡沫买单。
全体市场对英伟达充满信心,由于在某种程度上,市场已经将英伟达与AI时期的未来划上了等号。
投资英伟达,便是投资属于未来的AI时期,在这样的逻辑下,英伟达彷佛值得任何市值。
那么,英伟达真的不可替代吗?谁又会成为英伟达的对手,谁又能将它赶下神坛?
英伟达,凭什么遥遥领先?
和其它半导体企业比较,英伟达是“遥遥领先”的,最少在市值上如此。
如今,在环球前十的半导体企业中,不算台积电和阿斯麦这样的纯代工厂和光刻机厂商,英伟达的市值约即是剩下七家市值的总和,乃至还有富余。
图源:芯东西
撑起英伟达市值的,是其环球领先的AI打算芯片,包括A100、H100和即将上市的H200。根据富国银行的统计,英伟达目前在环球数据中央AI加速市场拥有98%的份额,处于绝对的统治地位。
很多时候,这些芯片费钱也都很难买到。早在2023年8月的时候,就有媒体宣布,英伟达的订单排到了2024年。其芯片的交付周期,也曾一度高达8~11个月(如今已经缩短为3~4个月)。马斯克曾为此吐槽,“英伟达的芯片比毒品还难搞到”。
产能不敷,供不应求,这些需求该当自然溢出到其他厂商。从供应链安全的角度考虑,面对如此集中的市场,企业彷佛也不应该只选择英伟达这一家的产品。
但环球的企业排着队将订单送到英伟达手中,难道,除了英伟达的芯片之外,AMD、英特尔这些企业的芯片都办法演习大模型吗?
答案当然不是,但利用英伟达的芯片,目前仍旧是演习和运行大模型的最优选择。这种上风表示在四个方面,包括硬件性能、软件生态、适用范围和整体性价比。
首先是硬件性能。
以英伟达在2020年5月发布的NVIDIA A100 GPU为例,这款芯片采取7nm制程和NVIDIA Ampere架构,拥有540亿个晶体管和6912个CUDA核心,最高可以供应80GB的GPU显存,以及2TB/s的环球超快显存带宽。在大模型演习和推理常用的FP16(半精度浮点运算)Tensor Core峰值性能可以达到312TF,利用稀疏打算的情形下,可以达到624TF。
图源:CSDN,NVIDIA GPU A100 Ampere(安培)架构深度解析
很多人对这些指标没什么观点,我们来大略阐明一下。
芯片的制程决定着同样大小的芯片能够放下的晶体管的数量,而晶体管的数量越多,芯片的打算能力越强,这也是5纳米的芯片一定比7纳米的芯片前辈的缘故原由。
至于CUDA核心,即CUDA线程,是英伟达CUDA平台编程模型中的基本实行单元。我们都知道,GPU最强的能力是并行打算,而CUDA核心越多,意味着芯片能同时并行打算的数量也就越多,芯片的性能更强,完成同样任务的速率更快。
须要把稳的是,芯片的打算能力强和打算效率高是两个观点。制程和晶体管的数量代表着打算能力,而CUDA核心的数量,代表着打算效率。
至于显存和带宽,则决定了GPU在运行时的效率。个中显存决定GPU同时能够存储的最大数据,而显存带宽,则决定显存和显卡之间的数据传输速率。
举一个大略直白的例子,在一个流水线上,原材料须要从库房运送到车间进行装备,然后将成品再运回库房。显存决定了库房能够放多少原材料,而显存带宽,则决定每次从库房送原材料的速率。如果库房不足大,或者材料传输速率不足快,那车间的生产能力再强,也无法生产出成品。以是显存和带宽,实在决定芯片能够参与演习多大参数规模的大模型,以及演习大模型的速率。
明白了这些基本观点,我们再用最有代表性的两家企业,进行比拟。
首先是AMD,目前主打的芯片是MI250X,发布于2021年年底,采取7nm工艺,拥有582亿个晶体管,显存128G,显存带宽3.2768 TB/s,FP16峰值性能为369 TF,只有60个打算单元。
图源:AMD官网,MI250X
其次是英特尔,目前主打芯片Ponte Vecchio,同样发布于2021年,采取7nm工艺,流传宣传晶体管数量达到1020亿,是全天下晶体管数量最多的芯片。这款芯片显存128GB,显存带宽3.2TB/s,FP16峰值性能184TF,打算单元102个。
图源:英特尔 Hot Chips 演示的幻灯片,展示了 PVC 上的小芯片
我们会创造,纵然从纯挚的数据上看,英特尔和AMD也没有完备被英伟达甩开,乃至在某些领域,这两家的芯片还领先英伟达的A100。
但是这里有两个误区,第一个误区是,英特尔和AMD这两款芯片的发布韶光比A100都要晚一年,他们真正对标的对手,实在该当是英伟达在2022年初发布的H100,而现在英伟达的芯片已经更新到H200了。
图源:Semianalysis
第二个误区在于,硬件指标并不完备即是芯片的整体能力,软件生态是决定芯片性能和利用的第二个关键指标。
这就像手机和操作系统一样,手机的硬件配置再好,没有一个好的操作系统,对付消费者来说仍旧不是一款好的手机。而这里须要提到的,就包括英伟达的CUDA平台、NVLink和Tensor Core等软件生态。
比如CUDA平台,我们前面提到的CUDA核心便是这个平台的产物,它可以提高芯片的并行打算能力;它可以通过编程,提高GPU的能效比,让同样的事情耗费更少的能源。
此外,CUDA平台还支持广泛的运用程序,包括科学打算、深度学习、机器学习、图像处理、***处理等等,它还许可技能职员通过C++等常用的编程措辞来编写GPU代码。打一个不恰当的比方,这相称于中国人不用学习英文,直策应用中文指挥外国人干工作,帮助技能职员节省了巨大本钱。
但目前市情上大多数程序员已经深度依赖CUDA平台和开拓工具,就像我们利用微信许多年了,你的朋友、谈天记录、朋友圈都在这个微信上,纵然现在涌现一个更好用的社交软件,你也很难迁移。
CUDA带来的生态壁垒也类似这个道理,其他平台虽然也有自己的软件生态,比如AMD有自己的GCN 架构,英特尔有Xe架构,乃至为开拓者供应类似“一键换机”迁移功能,但都很难与英伟达竞争。
当然,这里面也有一些曲线救国的做法,比如以AMD为首,越来越多的芯片企业采取了“打不过就加入”的策略,选择将自己的芯片兼容到CUDA平台,早在2012年的时候,AMD就与Nvidia 达成了一项协议,许可AMD在其GCN架构GPU中利用 CUDA 技能,以是现在我们在AMD的芯片中,也会看到CUDA核心。
当然,对付英伟达来说,CUDA也只是护城河的一部分,其他的技能如NVLink也至关主要。
作为大模型演习的GPU,没有哪家企业会单独利用一张GPU,每次都会利用至少几百张卡,乃至上万张卡一起建立打算集群。NVLink是一种链接技能,可以实现GPU之间的高速、低延迟的互联。如果没有这种技能,全体芯片算力的集群就无法实现1+1>3的效果,而且会增加GPU之间的通信延迟,实行任务的效率会降落,芯片的功耗会增加,终极增加全体系统的运行本钱。
大模型演习实际上是一个非常花费能源的事情,国盛证券做过一个打算,假设每天约有1300万独立访客利用ChatGPT,那每天的电费就须要5万美元。而如果没有NVLink,这笔本钱还会指数级上升。
芯片某种程度上就像购车一样,购车只是第一次本钱,之后的油费、保养、保险才是本钱的大头。以是黄仁勋才说,“AI系统最主要的不是硬件组成的本钱,而是演习和利用AI的用度。”
以是,虽然AMD、英特尔在某些芯片上把价格定得比英伟达更低,但是从长期成本来考虑,具有更优软件生态和协同、配套工具的英伟达芯片仍旧是性价比最高的选择。
当然,这里面还要考虑到利用场景的问题。
比如英伟达的大客户,紧张因此Meta、微软、亚马逊、Google为代表的云打算平台。有媒体宣布,头部云打算厂商在英伟达H100 GPU整体市场份额中的占比达到50%。
图源:Omida Research
而云厂商采购芯片的逻辑,紧张是构建算力集群,然后通过云做事平台将这些算力再卖出去。但这里就会存在一个问题,便是云厂商并不知道客户会拿这些算力来做些什么,比如有的企业会用来做机器学习,有企业须要大模型演习,也有企业须要做大模型推理。
不同的需求,背后对应的算力配置也不尽相同,它须要底层的芯片能够支持多种编程模型,支持多种数据类型,有较好的可拓展性和良好的性能和功耗等等。而这些,正好是英伟达硬件能力加软件生态带来的上风。
综合来看,无论是从硬件性能,还是软件生态;无论是从开拓工具和支配工具,到长期利用的本钱和可开拓运用处景。比拟同类竞争对手,英伟达都属于最有性价比,且遥遥领先的存在。
这便是为什么明明须要排着长队、忍受永劫光等待,大家却仍旧执着于英伟达芯片的缘故原由。
谁想替代英伟达?
难道英伟达真的不能被超越吗?当然也不是,在巨大的市场利益面前,从传统半导体巨子到初创企业,围剿英伟达的呼声从来就没有停滞过。
特殊是最近几年,随着云打算和云端AI芯片的火爆,已经有无数的半导体公司说过,自家芯片已经在部分性能上超过了英伟达A100,就像本日也有无数大模型企业会说自己已经在某些方面超过OpenAI GPT-3.5一样。
在最新表露年报中,英伟达是这样描述自己的竞争风险的。
公司的竞争来源紧张有两个,一个是 GPU、CPU、DPU、嵌入式SoC和其他加速AI打算处理器产品的公司,比如英特尔、AMD、高通、华为;另一个是供应基于InfiniBand(无线带宽技能)、以太网、光纤通道和专有技能的半导体高性能互连产品供应商,比如华为、思科、惠普这样的通信公司,以及亚马逊、微软、阿里、谷歌、华为这样的云做事公司等等。
特殊是第一次被英伟达列为对手且被反复提到的华为。从芯片硬件到软件,从云做事到通信办理方案,英伟达险些将华为当做所有领域的竞争对手。
奇怪的是,虽然在2023年8月,科大讯飞创始人刘庆峰就提到华为的GPU已经可以对标A100了,但实在从客不雅观的性能、利用本钱,软硬件生态工具,华为与英伟达之间仍旧有着代际的差距。
华为被如此重视,关键在于两点:
一是市场环境的问题,由于众所周知的缘故原由,英伟达的高端芯片在海内的销路并欠亨顺,在全面国产替代的背景下,其针对中国的特供版芯片在中国的竞争力也在降落。在这样的背景下,华为拥有更多的成长空间,不必直接对标英伟达最前辈的H200。
另一个关键是华为的生态能力非常完好,作为通信起身的企业,华为不仅拥有自己的芯片,做事器,还拥有自己的云打算平台和大模型。基本上,华为覆盖了AI这条家当链从头到尾的所有环节,比拟英伟达拥有更大的潜力和可能。
如今,华为的昇腾910B正在猖獗席卷中国市场,除了科大讯飞之外,海内多地的智算中央也都已经用上了华为的芯片。《财经》之前宣布,华为昇腾系列产品目前处在供不应求状态,价格约只有英伟达A100的60%乃至可以更低。
为了应对海内市场的变革,英伟达也在积极推出新的产品。2月初,有媒体宣布,英伟达的新款海内专供芯片H20已经开始在接管经销商的预定。
图源:NVIDIA 由H2O.ai和NVIDIA供应支持的领悟AI生态系统
而有趣的是,作为新产品,英伟达H20每张的定价换算成公民币仅在8.6万~11万旁边,刚好略低于华为昇腾910B 12万元旁边的价格。在英伟达承受中国市场压力的背景下,这被看做是一种防守策略。
除了在海内有被黄仁勋亲自认证的竞争对手华为之外,外洋市场英伟达实在也是群狼环伺。
最虎视眈眈的自然是AMD。
2023年6月,AMD发布了Instinct MI300,目标是对标英伟达H100,其晶体管数量达到1530亿,内存192GB、内存带宽5.3TB/s,分别是英伟达H100的大约2倍、2.4倍和1.6倍。
软件上,AMD仍旧延续兼容CUDA的策略,一方面通过迁移工具,翻译CUDA运用的策略吸引英伟达的开拓者,另一方面开源自家的ROCm软件,提高企业和开拓者的自主权。
对付芯片算力这么根本的部分,没有企业希望英伟达成为自己的唯一供应商,以是在MI300推出之后,包括OpenAI、微软、Meta都纷纭表态将采购MI300。
除了AMD,纵然是已经在AI上掉队的英特尔,也不甘心错过这场泼天富贵。
英特尔最新的AI芯片Gaudi3将在2024年上市,这款芯片采取5nm工艺,最高配备128GB的内存。按英特尔的宣扬,这款芯片的带宽是Gaudi 2(7nm工艺)的1.5倍,BF16功率是其4倍,网络算力是其2倍,并表示Gaudi3的性能将优于英伟达的H100。同时,美国政府也在对英特尔进行扶持,估量将向英特尔供应超过100亿美元的补贴。
从计策上,与英伟达的上风在云端不同,英特尔的上风在与其广阔个人终端市场。以是英特尔实在将更大的赌注压在了个人终真个AI化上。英特尔CEO基辛格多次提到,要重构PC体验,并表达对未来AI PC市场的看好。英特尔希望依赖其CPU在个人PC上的上风,率先抢占这一市场,然后再通过消费市场反向促进云端市场的繁荣,打一波屯子包围城市的战役。
事实上,芯片的行业特点与软件、或者互联网的商业可以通过建立用户规模,或者生态就建立壁垒实现赢者通吃不同。作为高度技能密集型家当,芯片技能的代际变革非常大,只要存在技能迭代的机会,后来者就永久有弯道超车的可能。
芯片不同于软件,或者互联网等其他业务模式,建立起一定的用户规模之后可以一贯赢者通吃。只要存在技能迭代的机会,后来者就永久有弯道超车的可能。
而无论是AMD还是英特尔,亦或者华为,他们都有深厚的技能研发能力和充裕的资金,这些企业可能会在这个阶段暂时掉队,但也谁无法笃定,这些企业不会涌现一次技能呈现,或者捉住某个技能迭代的关键期间后来居上。
从最新财报看,AMD 2023年Q4数据中央的发卖额22.8亿美元,同比增长38%,表明市场已经在逐步收受接管其AI芯片的利用。
而除了AMD和英特尔这样的老牌玩家之外,这个市场上还有很多创业者在前赴后继。
最近比较出名的如Groq,其针对大措辞模型量身定制的LPU芯片每秒可以天生500个token,远超英伟达芯片的效率。当然,这个成绩仍旧是在实验场景下的结果,终极工程化交付还有很长的间隔,且这款芯片也还有许多技能问题有待办理。
但这实质上代表,面对新的场景,如今的芯片的技能仍有创新空间。
以是我们会看到,作为环球最具代表的AI企业,OpenAI也宣告了自己的造芯操持。其创始人CEO Altman前段韶光不仅传出7万亿美元的募资芯片,在这之前更是已经投资了包括Cerebras、Rain Neuromorphics和Atomic Semi在内的至少三家芯片公司。
远在日本的孙正义,在互联网时期已经功成名就的他也打算放过这次机会,刚刚从巨额的投资亏损中解套的他,立马就提出了召募1000亿美元以创立一家人工智能半导体芯片企业的操持。
有媒体宣布,在这次操持中,软银将出资300亿美元资金,另有700亿美元的资金可能来自中东地区的机构。而在2023年,软银集团曾以640亿美元的估值收购ARM公司25%股份,这也是孙正义投入芯片的底气之一。当然,对付英伟达来说,更大或者更直接的危险还是来自其最大的客户——云厂商。
面对巨大的算力需求,海内如百度、华为、阿里都相继推出了自己的AI芯片,在国外,包括微软、亚马逊、Google也同样在开拓自己芯片。
当然,这些芯片紧张针对的是特定场景的打算需求,与英伟达面向通用场景的GPT仍旧有不同。但这也代表,云打算厂商正在逐步减少对英伟达的依赖。而正如前面所提到的,这部分企业才是真正支撑英伟达古迹的紧张客户。
面对这些既定的,或者潜在的市场变革,英伟达自然也没闲着。据路透社宣布,英伟达近期已与微软等紧张云厂商联系,商榷为云厂商定制AI芯片的问题。
同时,英伟达也在持续推出新的芯片,以期望不断拉开与后来者的间隔。目前,英伟达已经公布了其下一代AI芯片B100的,设计性能要比H100快3倍。
以是,虽然超越英伟达的机会仍旧存在,这个天下也从不短缺寻衅“霸权”的勇士,但这个任务显然还很漫长。
本文系作者个人观点,不代表本站立场,转载请注明出处!