IBM 的 AI 根本举动办法推动第二代人工智能模型开拓_模子_举措
AI根本举动步伐在AI模型的开拓和支配中起着关键浸染。当前对强大AI根本举动步伐的需求源于天生AI和根本模型的涌现,这些模型的演习须要成千上万的GPU协同事情。为了实现高效的AI演习,IBM采取了稠浊云根本举动步伐,包括Vela和Blue Vela,分别用于云端和本地的大规模AI模型演习。
Vela是IBM云中的AI优化超级打算根本举动步伐,供应可扩展、动态、多租户和地理分布的根本举动步伐,用于大规模模型演习和其他AI事情流程。Blue Vela则是支持IBM最大和最年夜志勃勃的AI模型演习任务的大规模、专用确当地托管环境。Vela和Blue Vela的结合,使IBM能够在AI模型和商业产品的开拓中快速创新。
研究的意义在于随着AI技能的快速发展,理解和节制前辈的AI根本举动步伐设计和实现方法,对付推动AI模型的开拓和支配至关主要。通过剖析IBM的天生AI模型开拓根本举动步伐,该技能成果为AI研究职员和工程师供应了宝贵的履历和见地,帮助他们在自己的事情中实现更高效和高性能的AI演习。
IBM的天生AI模型开拓根本举动步伐研究团队由来自IBM Research、IBM Infrastructure和Red Hat的专家组成,涵盖了从AI模型开拓到根本举动步伐管理的各个方面。他们共同致力于推动IBM的天生AI模型开拓,确保高效和高性能的AI演习根本举动步伐。
IBM天生AI模型开拓的根本举动步伐概述
根本举动步伐的选择和设计对AI模型的开拓和支配至关主要,AI根本举动步伐不仅影响模型演习的速率和本钱,还直接关系到模型的性能和可扩展性。随着AI技能的不断进步,尤其是天生AI和根本模型的涌现,对强大AI根本举动步伐的需求日益增加。这些模型的演习须要大量的打算资源和高效的数据处理能力,以在合理的韶光内完成演习任务。
AI根本举动步伐的主要性表示在以下几个方面:
打算能力:AI模型的演习常日须要大量的打算资源,尤其是GPU。强大的打算能力可以显著缩短模型演习韶光,提高开拓效率。
存储和数据处理:AI模型的演习须要处理大量的数据,存储和数据处理能力至关主要。高效的存储办理方案可以加快数据读取和写入速率,减少演习过程中的瓶颈。
网络性能:在分布式演习中,多个GPU须要高效地通信。高性能的网络根本举动步伐可以确保GPU之间的数据传输速率,避免通信瓶颈。
可扩展性和灵巧性:AI根本举动步伐须要具备良好的可扩展性和灵巧性,以适应不同规模和类型的AI事情负载。灵巧的根本举动步伐可以根据需求动态调度资源配置,提高资源利用率。
随着天生AI和根本模型的涌现,对AI根本举动步伐的需求不断增加。这些模型的演习须要成千上万的GPU协同事情,以在合理的韶光内完成演习任务。当前AI根本举动步伐的需求紧张表示在以下几个方面:
大规模打算集群:为了支持大规模模型的演习,须要大规模的打算集群。这些集群常日由数百乃至数千个GPU节点组成,能够供应强大的打算能力。
高性能存储办理方案:AI模型的演习须要处理大量的数据,高性能的存储办理方案可以加快数据读取和写入速率,减少演习过程中的瓶颈。
高效的网络根本举动步伐:在分布式演习中,多个GPU须要高效地通信。高性能的网络根本举动步伐可以确保GPU之间的数据传输速率,避免通信瓶颈。
灵巧的资源管理:AI根本举动步伐须要具备良好的可扩展性和灵巧性,以适应不同规模和类型的AI事情负载。灵巧的资源管理可以根据需求动态调度资源配置,提高资源利用率。
可靠性和容错性:AI模型的演习常日须要永劫光运行,根本举动步伐的可靠性和容错性至关主要。高可靠性的根本举动步伐可以减少故障对演习过程的影响,提高演习效率。
为了知足天生AI和根本模型的演习需求,IBM采取了稠浊云根本举动步伐,包括Vela和Blue Vela,分别用于云端和本地的大规模AI模型演习。
Vela是IBM云中的AI优化超级打算根本举动步伐,供应可扩展、动态、多租户和地理分布的根本举动步伐,用于大规模模型演习和其他AI事情流程。Vela的架构设计灵巧且可扩展,能够适应未来的需求变革。其紧张特点包括:
水平可扩展的数据中央系统:Vela采取两层脊叶CLOS架构,每个节点配备八个80GB A100 GPU,通过NVLink和NVSwitch连接。高性能网络根本举动步伐:Vela采取远程直接内存访问(RDMA)和GPU直接RDMA(GDR)技能,以确保GPU之间的高性能通信。高效的存储办理方案:Vela利用IBM Spectrum Scale作为高性能文件系统,充当工具存储和GPU之间的缓存机制。灵巧的软件堆栈:Vela由IBM Cloud作为IaaS运营,利用Red Hat OpenShift集群管理AI生命周期的各个阶段。Blue Vela是支持IBM最大和最年夜志勃勃的AI模型演习任务的大规模、专用确当地托管环境。Blue Vela的架构设计基于NVIDIA H100 SuperPod参考架构,专为处理最苛刻的模型演习任务而定制。其紧张特点包括:
四个专用网络:打算InfiniBand网络、存储InfiniBand网络、带内以太网主机网络和带外管理网络。强大的打算根本举动步伐:打算节点配置基于NVIDIA参考HGX平台指南,利用Dell PowerEdge XE9680,配备双48核第4代Intel Xeon可扩展处理器、2TB RAM、8个NVIDIA H100 GPU(80GB HBM)。高性能存储办理方案:Blue Vela利用IBM Spectrum Scale生态系统和IBM Storage Scale System 6000,读取吞吐量高达310 GB/s,写入吞吐量为155 GB/s。灵巧的软件堆栈:Blue Vela的软件堆栈保持精简,选择了一组有限的工具来简化利用、管理、支持和故障打消。通过Vela和Blue Vela的结合,IBM能够在AI模型和商业产品的开拓中快速创新,确保高效和高性能的AI演习根本举动步伐。这些根本举动步伐不仅知足了当前的需求,还为未来的AI根本举动步伐发展供应了坚实的根本。
Vela——IBM云中的AI优化超级打算根本举动步伐
1. Vela的架构设计
图1:Vela 系统架构
Vela是一个水平可扩展的数据中央系统,旨在知足大规模AI模型演习的需求。其设计目标是供应高性能、灵巧且可扩展的打算资源,以支持天生AI和根本模型的开拓。Vela的架构采取了两层脊叶CLOS构造,确保系统的高效性和可扩展性。
Vela采取了两层脊叶CLOS架构,这是一种常用于大规模数据中央的网络拓扑构造。该架构通过将网络设备分为脊(spine)和叶(leaf)两层,供应高带宽、低延迟的网络连接。脊层设备卖力连接叶层设备,而叶层设备则连接打算节点。这样的设计确保了网络的高可用性和可扩展性,能够支持大量GPU节点的高效通信。
Vela的每个GPU节点配备了八个80GB的NVIDIA A100 GPU,这些GPU通过NVLink和NVSwitch连接,以实现高速数据传输。最初,Vela的GPU节点利用的是第二代Intel Xeon可扩展处理器(Cascade Lake),后来升级为第三代Intel Xeon可扩展处理器(Ice Lake)。每个节点还配备了1.5TB的DRAM和四个3.2TB的NVMe驱动器,以知足大规模数据处理和存储的需求。
2. Vela的网络根本举动步伐
为了支持大规模模型演习,Vela采取了远程直接内存访问(RDMA)技能。RDMA许可一个处理器直接访问另一个处理器的内存,而无需操作系统的干预,从而实现更快的通信速率。通过RDMA,Vela能够在多个GPU之间实现高效的数据传输,减少通信延迟,提高演习效率。
除了RDMA,Vela还采取了GPU直接RDMA(GDR)技能。GDR许可一个别系的GPU直接访问另一个别系的GPU内存,通过网络卡进行通信。这种技能进一步提高了GPU之间的数据传输速率,减少了通信瓶颈,使得大规模模型演习更加高效。
为了确保高可用性,Vela系统内置了网络冗余机制。每个网络接口卡(NIC)连接到不同的机架顶部(TOR)交流机,每个TOR交流机通过两个100G链接连接到四个脊交流机,供应1.6TBps的跨机架带宽。这样的设计确保了纵然某个NIC、TOR或脊交流机发生故障,系统仍能连续运行。
此外,Vela还支配了拥塞管理机制,通过隔离RoCE流量、监控网络拥塞并关照发送方减少流量来缓解拥塞。这种机制确保了在高负载情形下,网络仍能保持高效运行。
图 2:与 TCP 和 GPU Direct RDMA 通信的通信路径
3. Vela的存储办理方案
Vela利用IBM Spectrum Scale作为其高性能文件系统。IBM Spectrum Scale是一种并行文件系统,具有高性能和高可用性,能够知足大规模AI模型演习的数据存储需求。通过利用IBM Spectrum Scale,Vela能够实现高效的数据读取和写入,减少演习过程中的存储瓶颈。
Vela的高性能文件系统采取了分离存储模型,供应高达数百TB的文件系统容量,并且可以扩展至PB级别。这样的设计确保了Vela能够处理大规模的数据集,知足天生AI和根本模型演习的需求。
为了进一步提高存储性能,Vela利用了Active File Management (AFM) 技能。AFM技能通过在工具存储和GPU之间插入高性能文件系统,充当缓存机制,加快数据加载和模型权重检讨点的速率。通过AFM技能,Vela能够在演习任务开始或重新启动时更快地加载数据,并以更快的速率将模型权重检讨点保存到文件系统中。
4. Vela的软件堆栈
Vela由IBM Cloud作为IaaS运营,利用Red Hat OpenShift集群管理AI生命周期的各个阶段。OpenShift平台供应了丰富的功能,支持高性能根本举动步伐的暴露和系统管理工具,如监控、日志记录和警报。通过OpenShift平台,AI研究职员可以自带容器,简化系统级监控和调试,并通过自动化作业调度器在失落败时重新启动作业。
为了知足Vela上运行的事情负载的特定需求,IBM开拓了一些关键功能,并利用IBM Cloud的能力显著增强监控和诊断功能。例如,Autopilot是一种云原生可不雅观测性工具,运行在GPU节点上,实行系统状态的康健检讨。Multi-NIC CNI是一种容器原生接口,管理主机上的所有接口,确保事情负载在pods内运行时实现线速网络性能。CNSA是一种容器原生模式运行的Scale客户端集群,利用Kubernetes operators支配和管理Scale。
研究表明,OpenShift平台对性能敏感事情负载的资源开销在偏差范围内(低于5%)。与虚拟机比较,OpenShift的迭代韶光在所有批次大小下均在4%以内。只管OpenShift运行的进程更多,但其CPU和内存利用率分别在2%和4%以内,影响可以忽略不计。
图3:NCCL All Reduce 集体与 TCP、ROCE 和 GDR 协议的性能
图4:NCCL All Reduce 凑集在不同数量的 GPU 上的性能
Vela作为IBM云中的AI优化超级打算根本举动步伐,通过其灵巧且可扩展的架构设计、高性能的网络和存储办理方案以及强大的软件堆栈,知足了大规模AI模型演习的需求。通过采取远程直接内存访问(RDMA)和GPU直接RDMA(GDR)技能,Vela实现了高效的GPU间通信。利用IBM Spectrum Scale和Active File Management (AFM) 技能,Vela供应了高性能的存储办理方案。Red Hat OpenShift平台和OpenShift Operators进一步增强了Vela的监控和诊断功能,确保了事情负载的高效运行。Vela的成功履行为IBM的天生AI模型开拓供应了强大的根本举动步伐支持。
Blue Vela——支持大规模AI模型演习确当地超级打算根本举动步伐
1. Blue Vela的架构设计
Blue Vela集群是IBM与Dell和NVIDIA互助设计的,旨在知足最苛刻的AI模型演习任务需求。通过与这些领先的技能公司互助,IBM能够利用最前辈的硬件和技能,打造出高性能的打算平台。Blue Vela基于NVIDIA H100 SuperPod参考架构,进行了定制化设计,以供应最佳的GPU打算资源,支持目标事情负载。
Blue Vela的设计基于NVIDIA H100 SuperPod参考架构,这是一种高性能打算平台,专为大规模AI模型演习而设计。通过采取这一参考架构,Blue Vela能够利用NVIDIA的工具、库和编译器,实现加速打算。该架构的设计目标是供应高带宽、低延迟的通信,以支持大规模GPU集群的高效运行。
Blue Vela的网络设计环绕四个专用网络展开,以确保通信延迟最小化:
打算InfiniBand网络:用于GPU之间的通信,确保高带宽、低延迟的数据传输。存储InfiniBand网络:供应对存储子系统的访问,支持高性能的数据读写操作。带内以太网主机网络:用于打算网络之外的节点间通信,紧张用于监控和事情负载调度流量。带外管理网络:用于做事器和交流机的管理接口访问,确保集群管理的安全性和可靠性。2. Blue Vela的打算根本举动步伐
Blue Vela的打算节点配置基于NVIDIA参考HGX平台指南,利用Dell PowerEdge XE9680做事器。每个打算节点的配置如下:
双48核第4代Intel Xeon可扩展处理器2TB RAM8个NVIDIA H100 GPU(80GB HBM)10个NVIDIA ConnectX-7 NDR 400Gb/s InfiniBand主机通道适配器(HCA)8个用于打算网络2个用于存储网络8个3.4TB企业级NVMe U.2 Gen4双25G以太网主机链接1G管理以太网端口图5:通过优化提高性能
图6:NMT-12 双节点演习作业的虚拟化开销
管理节点用于运行关键做事,如认证和授权、事情负载调度、可不雅观测性和安全性。为了简化支持和管理,并为未来的做事扩展供应保障,管理节点采取了标准的超大硬件配置,利用Dell PowerEdge R760XS做事器。每个管理节点的配置如下:
双32核第4代Intel Xeon可扩展处理器1TB RAM2个NVIDIA ConnectX-7 NDR 400Gb/s InfiniBand HCA(用于存储网络)2个1TB企业级NVMe U.2 Gen44个100G以太网主机链接1G管理以太网端口3. Blue Vela的存储办理方案
Blue Vela的存储办理方案基于IBM Spectrum Scale生态系统,这是一种高性能并行文件系统,能够知足大规模AI模型演习的数据存储需求。IBM Spectrum Scale具有高性能和高可用性,能够供应快速的数据读写速率,减少演习过程中的存储瓶颈。
Blue Vela利用了IBM Storage Scale System 6000(SSS 6000),这是一种利用InfiniBand和PCIe Gen 5技能的高性能存储系统。每个SSS设备能够供应高达310 GB/s的读取吞吐量和155 GB/s的写入吞吐量。初始支配包括两个SSS6000机箱,配备48个30TB U.2G4 NVMe,总存储容量靠近3PB。每个SSS设备还可以容纳多达七个额外的外部JBOD机箱,以扩展存储容量。
图 7:利用 NFS 和 Scale 文件系统的 AI 事情负载的迭代韶光。利用 Scale 文件系统可将迭代韶光缩短 10% 以上。
4. 数据中央选择和设计
在选择数据中央时,IBM进行了可行性和本钱效益剖析,考虑了站点培植和运行本钱、做事器托管的可行性和履行韶光表。通过创建数字孪生模型,IBM的数据中央设计团队能够仿照性能、财务和环境权衡,办理站点的初始不敷。数字孪生模型使得IBM能够高效地探索各种成分的组合,快速办理站点的初始问题。
为了适应现有气流和散热能力,IBM设计了自定义气流掌握外壳和旗子暗记电缆槽道系统。通过CAD建模,IBM设计了一种办理方案,使得机架位置能够利用现有的气流和散热能力,容纳比数据中央最初配置更重的负载。这样的设计确保了Blue Vela能够在现有举动步伐中高效运行。
由于数据中央的电力和冷却能力有限,IBM重新配置了举动步伐的电力水平,绕过UPS和紧张电力冗余功能,增加了约70%的电力供应。此外,IBM还修正了供电给机架的远程电源面板(RPP),以知足Blue Vela的需求。IBM制订了一个九个月的操持,逐步增加举动步伐的电力供应,以完备知足Blue Vela的需求。
5. Blue Vela的软件堆栈
为了高效配置打算节点,Blue Vela选择了eXtreme Cloud Automation Tool (xCAT)。xCAT许可利用无状态、内存中的操作系统高效配置打算节点,使得任何有问题的打算节点能够在几分钟内重新启动并规复到干净的配置。管理节点利用传统的有状态操作系统,以平衡关键做事和非关键组件的快速重启。
图 8:利用虚拟机和 OpenShift 的迭代韶光(越低越好)。性能差异小于 4%。
图 9:在九个月内将 OpenShift 集群从数十个 GPU 扩展到数千个 GPU。
Blue Vela利用IBM Spectrum LSF作为调度软件,供应资源管理框架。LSF评估用户的作业需求,探求最佳资源实行作业,并跟踪其进度。LSF供应高等事情负载管理,具有策略驱动的调度功能,优化HPC和AI事情负载的打算环境利用。LSF还与NVIDIA GPU深度集成,调度器能够识别GPU硬件问题并在调度决策中考虑这些问题。
Blue Vela的可不雅观测性软件与Vela集群不同,Blue Vela托管在本地数据中央,IBM Research卖力所有办理方案组件。Blue Vela利用标准的ELK堆栈(Elastic、Logstash和Kibana)以及Kafka进行日志聚合,Prometheus、Thanos和Grafana堆栈用于遥测。ELK堆栈与LSF紧密集成,许可快速创建和查看报告和仪表板。Prometheus供应遥测平台的根本,Grafana供应集群遥测的单一上岸页面。Thanos用于网络和存储历史数据,供应跨多个Prometheus实例的全局查询视图。
Blue Vela作为支持大规模AI模型演习确当地超级打算根本举动步伐,通过其与Dell和NVIDIA的互助、基于NVIDIA H100 SuperPod参考架构的设计、四个专用网络、高性能的打算和存储办理方案以及强大的软件堆栈,知足了最苛刻的AI模型演习任务需求。通过数字孪生模型、自定义气流掌握外壳和旗子暗记电缆槽道系统以及重新配置的电力和冷却办理方案,Blue Vela能够在现有举动步伐中高效运行。Blue Vela的成功履行为IBM的天生AI模型开拓供应了强大的根本举动步伐支持。
操作模型和性能评估
1. 操作模型
在大规模AI模型演习中,操作模型的设计至关主要。为了确保演习任务的高效进行,IBM在Blue Vela集群中履行了一系列操作模型,包括端到端监控和预测剖析、自动化系统规复以及变更管理流程。
为了支持大规模AI模型演习事情负载,如Granite模型干系的演习任务,并最大限度地减少作业停机韶光,Blue Vela的仪表板配置了1180个指标,涵盖了从GPU性能到系统康健状况的各个方面。通过这些指标,系统能够实现全面的可不雅观测性,支持持续优化、诊断和系统特色化。
详细来说,GPU指标每5秒报告一次,系统级指标每60秒记录一次。这些数据点支持近实时的集群监控,帮助识别和解决潜在问题。例如,GPU张量核心利用率是评估作业性能的关键指标,可以指示作业是否运行良好并得到优化。系统康健监控则关注物理康健状况,如GPU康健和内存康健,确保系统平稳运行。
表格1:根本举动步伐故障类型、根本缘故原由和缓解方法。
在大规模AI模型演习中,系统故障是不可避免的。为了减少故障对演习任务的影响,Blue Vela履行了自动化系统规复机制。通过自动化运行手册驱动的系统规复,系统能够在须要时快速重新启动演习任务,减少停机韶光。
此外,自动化在确保持续合规性和同等性方面也发挥着重要浸染。通过自动化流程,系统能够在不同环境中保持同等的配置,减少人为缺点的可能性。
为了避免引入灾害性变更,Blue Vela履行了强大的变更管理流程。任何对环境的变更都须要经由严格的审核和测试,以确保不会对系统的稳定性和性能产生负面影响。通过这种变更管理流程,系统能够在保持高性能的同时,灵巧应对不断变革的需求。
2. 性能评估
Blue Vela在上线第一个月内(2024年4月1日起)就对模型演习产生了显著影响,演习并开源了第一批模型。这是Granite模型家族的一个主要里程碑。根本举动步伐展示了良好的吞吐量潜力,初始作业的性能比同配置的其他环境赶过5%。
详细来说,Blue Vela集群当前的吞吐量为每天90-321B,取决于演习设置和模型的不同。随着所有打算单元的集成完成,估量通过进一步优化和集成,吞吐量将提高25-30%。
图 10:硬件故障和其他节点掩护事宜的警报。警报由 IBM Cloud Activity tracker 和 LogDNA 根据来自主机的日志和 OpenShift 监控规则天生的自定义天生。
为了进一步提高性能和效率,Blue Vela将连续专注于系统和软件优化、作业调度和重启的自动化,以及利用AIOps进行集群操作数据的非常检测。详细来说,未来的发展方向包括:
系统和软件优化:通过优化网络拓扑、调度网络卡配置以及利用不同的软件框架(如Pytorch原生演习与稠浊分片),进一步提高打算与通信的重叠,提升整体性能。
作业调度和重启的自动化:通过自动化调度和重启机制,确保演习任务在涌现故障时能够快速规复,减少停机韶光。
AIOps进行非常检测:利用AIOps技能,对集群操作数据进行非常检测,及时创造和解决潜在问题,确保系统的稳定性和高效运行。
通过履行端到端监控和预测剖析、自动化系统规复以及强大的变更管理流程,Blue Vela能够高效支持大规模AI模型演习任务。初始事情负载性能评估显示,Blue Vela在吞吐量和性能方面表现出色,未来通过进一步优化和自动化,估量性能将进一步提升。Blue Vela的成功履行为IBM的天生AI模型开拓供应了强大的根本举动步伐支持,并为未来的AI根本举动步伐发展供应了宝贵的履历和参考。(END)
参考资料:https://arxiv.org/html/2407.05467v1
颠簸天下(PoppleWorld)是噬元兽数字容器的一款AI运用,是由AI技能驱动的帮助用户进行感情管理的工具和通报感情代价的社交产品,基于意识科学和感情代价的理论根本。颠簸天下将人的意识和感情作为研究和运用的工具,探索人的意识机制和特色,培养人的意识技能和习气,知足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人得到真正的自由快乐和内在的力量。颠簸天下将建立一个辅导我们的感情和反应的代价体系。这是一款针对普通人的基于人类认知和行为模式的情绪管理Dapp运用程序。
本文系作者个人观点,不代表本站立场,转载请注明出处!