马斯克宣布启动全球最大年夜AI集群集成10万个英伟达H100 GPU_集群_特斯拉

2024-08-27 16:15:17 智能问答

马斯克在X平台的宣告截图华尔街见闻

马斯克宣布启动全球最大年夜AI集群集成10万个英伟达H100 GPU_集群_特斯拉智能问答

据马斯克先容，这个集群由100,000个液冷H100 GPU组成，这些芯片是英伟达去年开始供应的。

马斯克还表示，该集群在单个RDMA构造（即远程直接数据存取构造）上运行。
据思科先容，这种构造可以在打算节点之间供应更高效、更低延迟的数据传输，而不会给中心处理器（CPU）带来包袱。

马斯克今年5月曾透露这一操持，将英伟达H100串联到一台巨型的超级打算机中，并称其为“算力超级工厂”。

当时，马斯克匆匆忙忙地开始了Supercluster的事情，须要购买英伟达“Hopper”H100 GPU。
这彷佛表明，当时这位科技大亨没有耐心等待 H200 芯片推出，更不用说即将推出的基于 Blackwell 的 B100 和 B200 GPU。
只管估量较新的 Nvidia Blackwell 数据中央 GPU 将在 2024 年底之前发货。

马斯克新浪科技

xAI的目标是到2024年12月演习出“按每项指标衡量都是环球最强大的AI”。
马斯克表示，孟菲斯超级集群将为实现这一目标供应“显著上风”。

不过，据外媒表示，不要对这一韶光节点报太大期望，由于马斯克以公开提出并错过许多项目（如全自动驾驶汽车、无人驾驶出租车产品Robotaxi和将人类送往火星）的末了期限而有名。

马斯克周一还表示，特斯拉将在明年小规模生产用于内部利用的Optimus机器人，并希望到2026年能大规模生产供其他公司利用。
这比他之前承诺的韶光表晚了。
之前马斯克流传宣传到2024年底将在特斯拉工厂利用Optimus机器人，并在2025年交付给其他公司。

其余，Microsoft正在与OpenAI首席实行官Sam Altman（阿尔特曼）互助开拓一个代价1000亿美元的AI演习超级打算机，代号为Stargate。
如果这一项目取获胜利，xAI的孟菲斯超级集群可能不会长期保持环球最强大的AI演习集群地位。

心智不雅观察所研究员潘攻愚认为，马斯克一贯标榜特斯拉是一家人工智能和机器人公司。
特斯拉大型工厂三班倒一刻一直地进行数据搜集用于AI演习，马斯克须要近10万块H100用于特斯拉FSD自动驾驶做事，为下半年推出Robotaxi做准备。
不过如此大量的采购有两个寻衅，一个是能耗。
目前H100整年总能耗已经超过了格鲁吉亚等小国整年所有的电量；一个是从演习到推理的跳跃，毕竟H100用于推理的性价比并不高，会造成很多算力的“通货膨胀”。

目前，英伟达的股价正在走出另一波调度，马斯克的最新辞吐为其注入一针强心剂。
截至当地韶光22日美股收盘，英伟达上涨4.76%，特斯拉则上涨5.15%。

心智不雅观察所研究员吕栋指出，AI既是“暴力美学”，也是工程比拼，须要算力、算法、数据的深度领悟与履历积累。

一方面，随着打算量不断攀升，单卡算力角色弱化，大模型演习亟需一个超级工厂，即“大且通用”的加速打算平台，以缩短演习韶光，实现模型能力的快速迭代。
随着大模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡乃至超万卡集群已成为竞赛入场券。

另一方面，培植万卡或超万卡集群并非一万张GPU卡的大略堆叠，而是一项高度繁芜的系统工程。
算力集群不是一个打算GPU，怎么把它组织成算力网络，相互之间通讯效率怎么提高，怎么实现MFU（算力利用率）达到60%的最优目标，这些都要靠网络通讯、打算、存储一起来办理。
只有软硬件结合，把全体集群算力发挥到最高，才能实现1+1>2的效果。

其余值得把稳的是，在比拼算力和算法之外，如何将人工智能根本举动步伐化，赋能全行业，中国正在做人工智能赋能实体经济的道路探索。

中国工程院院士、中国科学院打算技能研究所所长孙凝晖认为，算力根本举动步伐的中国方案须要具备“两低一高”，即在供给侧，大幅度降落算力器件、算力设备、网络连接、数据获取、算法模型调用、电力花费、运营掩护、开拓支配的总本钱，让广大中小企业都消费得起高品质的算力做事，有积极性开拓算力网运用；在消费侧，大幅度降落广大用户的算力利用门槛，面向大众的公共做事必须做到易获取、易利用，像水电一样即开即用，像编写网页一样轻松定制算力做事，开拓算力网运用。
在做事效率侧，中国的算力做事要实现低熵高通量，个中高通量是指在实现高并发度做事的同时，端到端做事的相应韶光可知足率高；低熵是指在高并发负载中涌现资源无序竞争的情形下，保障系统通量不急剧低落。
保障“算得多”对中国尤其主要。

当前，中国也正在掀起培植万卡集群的热潮，像华为、中国移动、摩尔线程等厂商都在布局万卡集群。