当“人工智能步入落地之年” AI 不再是观点,而是全面进入到企业的计策方案之中。
算力作为人工智能运用的平台和根本,它的发展推动了全体人工智能系统的发展和快速演进,成为人工智能的最核心要素。

HP AI开拓平台测评:多用户协同开拓模型和算力本钱治理有力对象_镜像_图表 文字写作

随着科技的不断发展,获取算力的办法和路子越来越丰富,就目前而言,公有云和数据中央(私有云)已经成为两大主流的算力获取办法。
不过,在实际的支配和运用中,它们对付中小型AI开拓团队来说都存在着很多问题。
比如,中小型 AI 开拓团队的 AI 模型演习每每是阶段性的,而阶段性访问公有云须要按次收取算力用度,如此累积算下来将是一笔不菲的投入,比较之下,一次性购买一台 GPU 事情站会更加划算。
而建立私有的数据中央,不仅须要批量购置 GPU 做事器,还须要搭建标准机房、高带宽网络支配,与此同时更须要增加专业IT掩护职员的事情负荷,这对付中小型AI开拓团队来说相称奢侈。

从中小型AI开拓团队的利用场景和利用需求中不难创造,降本增效是他们衡量一款办理方案是否得当的主要成分之一。
这意味着算力设备须要在保障团队算力需求,可以共享利用的同时,还要做到大略支配易操作,省时省力省空间。
也因此,数据科学事情站的涌现,可以很好地知足这些切实需求。

数据科学事情站是 PC 形态的桌面超级打算机,相较于 PC ,它支持双路 Intel® 至强®铂金/金牌等系列的处理器和主板芯片海量内存、大容量 SATA 硬盘以及多块 NVIDIA ®高端 RTX™ 专业级显卡等,可以知足算法演习等 AI 事情流程中所须要的强大算力需求以及图形运用中的海量浮点运算和 3D 渲染事情等对硬件的苛刻哀求。

数据科学事情站与公有云或数据中央比较,不仅性价比高,更随意马虎支配,而且噪音低,可以让中小型AI开拓团队直接在办公区内进行协同开拓。

惠普最近升级的 HP Z8 G4 数据科学事情站以其强大的性能表现,稳定可靠的安全性,以及全方位的系统和软件支持,在专业领域事情环境下,为利用者供应了绝佳的高性能打算办理方案。

同时,惠普最新还推出了一款基于 Docker+Kubernetes 的人工智能容器云平台HP AI开拓平台。
该平台能够实现异构资源的高效管理、调度和监控,供应了从模型开拓、演习到支配的完全流程和工具,广泛适用于教诲、科研、金融、医疗、能源各个行业,能极大降落人工智能进入门槛,提高人工智能创新和研发的效率。

为了让中小型AI开拓团队更切实更全面地认识 HP Z8 G4 数据科学事情站以及 HP AI 开拓平台在团队协作开拓中的代价,智东西公开课AI教研团队联合两位 Kaggle Grandmaster 仿照现实开拓,对 HP AI 开拓平台的功能运用,及其在 HP Z8 G4 数据科学事情站上的利用体验两个方面进行了深入评测和项目实验。

智东西公开课AI教研团队紧张承担在 HP Z8 G4 数据科学事情站中安装 HP AI 开拓平台,并且作为管理员进行资源管理。
两位 Kaggle Grandmaster 将基于我们分配的资源,协同完成基于数据集 CASIA-SURF 的人脸活体检测,以及基于数据集 STS-B 的自然措辞文本分类这两项实验。

两位 Kaggle GrandMaster 分别是关注自然措辞处理领域的算法工程师吴远皓和从事医疗AI算法研发事情的算法工程师沈涛。
吴远皓已参加超过20场Kaggle竞赛,得到8枚金牌,并于2019年景为 Kaggle Competitions Grandmaster ,环球最高排名第36位。
沈涛在机器学习竞赛平台 Kaggle 上共得到11块金牌,得到了 Kaggle Grandmaster 称号,环球最高排名第8位。

在进入正文先容 HP AI 开拓平台的功能及实验之前,我们先来理解一下本次利用的 HP Z8 G4 数据科学事情站的核心参数,如下:

图表0.0.1

再给大家看看3块 NVIDIA A5000 显卡安装好之后的实际展示。
下图中的“三条金色模块”即为 NVIDIA A5000 显卡。

图表0.0.2

下图是 HP Z8 G4 数据科学事情站实际事情的展示:

图表0.0.3

1、HP AI 开拓平台功能全解

本章节将为大家展示 HP AI 开拓平台的安装过程和架构组成,并重点先容其为开拓者所供应的模型演习、数据存储、任务镜像,以及向管理者所供应的用户权限、监控中央、系统设置等特色功能。

下面进入 HP AI 开拓平台的安装。
HP AI 开拓平台的安装包是适用于 Unix 系统和类 Unix 系统的.run 格式文件,全体安装过程分三步,十分大略:

第一步,在 Ubuntu 系统的终端中,输入:“sudo bash AI_HP -Evaluation-4.5.1-HP-63045-offline.run”即可进行安装。

第二步,成功安装完成后,会显示:“Please visit htp://192.168.88.80:5678 to continue installation.”。
此时浏览器输入网址后会看到平台的环境正在初始化。

第三步,平台环境初始化完成后,会自动跳转到 HP AI 开拓平台的登录界面,此时输入账号密码即可完成登录。
下图为 HP AI 开拓平台的首页展示。

图表 1.0.1

1、平台架构

图表 1.1.1

1.1、根本举动步伐层

根本举动步伐层以X86的做事器、专业事情站为载体,可通过 GPU、CPU 等供应高性能加速打算,支持 TCP/IP,InfiniBand 高速网络互联,以及 NFS 和 GlusterFS 两种类型的存储格式。

1.2、资源调度层

采取容器化技能管理底层资源,并利用 Kubernetes(K8s)技能进行容器编排调度。

1.3、运用做事层

运用做事层支持主流的 TensorFlow、Caffe、PyTorch 和 MxNet 等主流的机器学习框架,以及完全的机器学习所需的处理流程,实现资源操作自动化。

1.4、业务领域层

通过支持自然措辞处理、图像识别和语音识别等任务,可以知足金融、教诲、医疗、制造等行业场景的 AI 开拓需求。

2、特色功能

2.1、模型演习

2.1.1、任务列表

任务管理界面,有“任务演习”、“交互式开拓”、“可视化”、“模型支配”等四个功能页。
管理员用户可以查看和管理所有用户的演习任务,包括任务演习任务、交互式开拓任务、可视化任务、模型支配任务。

图表 1.2.1

查看任务

可以看到所有用户的所有任务的简要配置信息,如任务名称、所属用户、任务的实行器、所属分区、资源配额、创建韶光等。
点击“任务演习”、“交互式开拓”、“可视化”、“模型支配”来展示不同类型的任务。

比如在交互式任务 “interactive14871” 中,可以分别看到任务节点、用户名、实行器、分区名称、资源配置、任务优先级、运行状态、创建韶光、空闲韶光等。

图表 1.2.2

点击“详情”可以进一步查看任务的基本信息、资源配置、运用信息和状态等。

图表 1.2.3

删除任务

点击“删除”按钮即可删除正在运行中的任务。

须要把稳的是在“任务演习”中的任务,点击“删除”按钮,只会删除正在运行中的演习任务,记录无法被删除,记录不会占用 CPU、GPU、内存等资源,其他类型任务删除后不保留记录。

查询用户任务

在界面右侧输入框中输入要查找的用户名,回车进行查找。

2.1.2、任务统计

管理员可对 HP AI 开拓平台中各分区任务进行统计。
查看分区中已操持、已完成、运行中、停息中的任务数量以及任务的资源占用信息。
“任务统计”可以帮助管理员理解各分区中用户在一段韶光内利用任务演习的利用情形。

图表1.2.4

根据日期统计任务

管理员可选择指定日期,统计指定日期韶光到当前韶光的任务数量及任务资源占用情形。

图表 1.2.5

2.1.3、任务行列步队

点击左侧菜单“任务行列步队”,进入任务行列步队界面,分别显示优先级为“高”、“普通”、“低”三种优先级任务。

图表1.2.6

2.2、数据存储

HP AI 开拓平台支持基于 NFS 的分布式存储办法,知足用户对数据的安全和性能哀求。
丰富的数据管理、分享功能极大方便了用户的利用。

2.2.1、数据卷

管理员可以创建 NFS 卷,对卷进行管理操作,查看卷的利用情形。

图表1.2.7

查看“NFS”卷列表

可以看到 NFS 数据卷列表及每个数据卷的做事器地址、共享目录、挂载权限、状态及描述状态。

图表 1.2.8

创建 NFS 卷

点击“创建 NFS 卷”按钮,进入NFS卷创建界面。

图表 1.2.9

NFS 名词参数阐明

图表 1.2.10

查看卷利用情形

管理员用户在数据卷列表页面点击卷名称后,该数据卷的总利用情形和各用户利用情形均会显示在此页面。

图表 1.2.11

2.2.2、公共数据

公共数据即拥有 HP AI 开拓平台用户都可以访问的数据,管理员可以上传公共数据,并对公共数据进行管理,普通用户只有复制到用户私有数据和***权限。

图表 1.2.12

创建目录

用户可以在“公共数据”页面点击“创建目录”来创建自己的目录。
名称不能包含以下字符”, ‘|’, ‘’, ‘?’, ‘,’,’/’,’ ‘, 长度在1~50个字符,创建成功会有相应提示。
否则创建失落败。

图表 1.2.13

上传数据

将本地文件上传到“公共数据”中。
适宜小文件的上传。

图表 1.2.14

刷新

若对文件进行了增删修正操作,点击“刷新”按钮更新文件状态及属性。

文件列表:文件及文件夹管理

针对文件列表里面的每一个文件及文件夹,都有相应的管理功能,如重命名、***、复制、查看文件大小、删除等,针对文件还有在线查看功能,方便管理员进行管理操作。

图表 1.2.15

2.3、任务镜像

2.3.1、公共镜像

由管理员上传的镜像为公共镜像,用户都可以看到并且可以在创建任务时利用。
管理员在“***镜像”中***的镜像和上传的镜像均在此界面管理。
此界面中管理员可对公共镜像进行设置删除、二次更新制作镜像及查看镜像详细信息等操作。

图表 1.2.16

上传镜像

管理员用户在镜像仓库页面,也可以上传公共镜像。

2.3.2、镜像仓库

管理员在镜像仓库页面,可以查看各用户的私有镜像,或上传公共镜像

查看镜像仓库

上传镜像

管理员用户在镜像仓库页面,也可以上传公共镜像。

查看镜像仓库

在镜像仓库列表中,点击任意用户名,即可进入用户的镜像仓库中查看用户的私有镜像。

图表 1.2.19

2.3.3、***镜像

点击“***镜像”,进入以下界面,该界面有 “ Docker Hub ”、“ HP 机器学习镜像”和 “NVIDIA镜像” 三个功能页面。
用户可根据自己须要的镜像环境去 Docker 官方镜像仓库Docker Hub、HP 机器学习镜像仓库和 NVIDIA 镜像仓库***指定镜像。

图表 1.2.20

HP 机器学习镜像

此功能页预留了官方制作好的镜像,包括 Caffe、Cuda、OpenVINO、PyTorch、TensorFlow-gpu 等11个镜像系统。
每个镜像版本完全,并和官方机器学习框架 Release 保持同等,用户可直策应用。

图表 1.2.21

NVIDIA 镜像

许可用户查看 NGC 镜像列表,***利用 NGC 上 NVIDIA 供应的镜像。

图表 1.2.22

2.4、用户权限

2.4.1、用户

点击左侧菜单“用户权限-用户”,进入用户管理界面。
管理员用户可以对用户创建、删除、编辑以及配置分区、存储卷和资源配额等,对用户的 CPU 、 GPU 、 Mem 和存储配额进行设定,限定用户能利用的资源数量。
用户的数据存储空间相互隔离,每个用户只能访问各自空间中的数据,无法越界访问未授权的数据。

图表 1.2.23

查看用户

在用户管理界面,可以查看每个用户的手机号码、邮箱地址、创建韶光、创建人、修正韶光、修君子、绑定的分区以及用户组名。

图表1.2.24

点击“操作”按钮 -> 查看数据卷与配额,可以查看用户的资源配额限定情形。

图表 1.2.25

点击“查看关联角色”。

图表 1.2.26

点击“修正用户信息”,可对已有用户的手机号、邮箱、用户组、分区和配额进行修

图表 1.2.27

点击“重置密码”,可重置用户密码。
管理员可以通过两种办法重置用户密码。
一种是系统自动天生密码。
如利用这种办法重置密码,管理员只需点击“重置密码”按钮即可在界面上看到新密码;另一种重置密码办法为管理员手动修正密码,只需输入两遍新密码,并点击“提交”按钮,即可修正此用户的密码。

表 1.2.28

点击“删除”,可删除用户。

2.4.2、用户组

修正默认配额

管理员用户可以点击用户列表页面上的“修正默认配额”按钮,来修正创建用户时默认的可利用资源配额。
如 CPU 、 GPU 、内存、存储和任务数量的默认配额。

图表 1.2.30

创建用户

点击“创建用户”按钮,进入“创建用户”界面后,须要填写用户的基本信息和配置用户组、数据卷、分区等参数。
CPU 、GPU 、内存、存储等参数默认利用默认配额中的配置。

图表 1.2.38

2.4.2、用户组

管理员用户在用户组页面,可以查看、创建和删除用户组。

图表 1.2.32

查看用户组

点击“查看关联角色”,显示该用户组的所有角色。

图表 1.2.33

点击“查看该组用户”,显示该用户组的所有用户。

图表 1.2.34

创建用户组

管理员在用户组列表页面,点击“创建用户组”按钮进入创建用户组界面,输入用户组名(用户组名长度1-20个字符,不能包含字符”, ‘|’, ‘’, ‘?’, ‘,’,’/’。
),选择不同模块的权限,末了点击“提交”按钮创建新的用户组。
点击“取消”按钮取消创建用户组,回到用户组列表页面。

图表 1.2.35

各个功能模块不同角色的权限参照下表:

图表 1.2.36

2.5、监控中央

2.5.1、仪表盘

仪表盘供应了多维度和多层次的监控信息,使系统利用透明、可追踪。
管理员用户在左侧菜单栏中选择仪表盘,即可查看节点和分区的资源利用情形。

节点查看

点击节点页面的“查看”,可以针对某个节点监控信息进行查看。

图表 1.2.38

分区查看

点击分区页面的“查看”,可以针对某个分区监控信息进行查看。

1、资源创建与分配

2.5.2、监控报表

在当前界面可以选择 HP AI 开拓平台的节点、分区等选项来监控资源利用情形呈现可视化图表。

图表 1.2.40

2.5.3、实时信息

在当前界面可以选择 HP AI 开拓平台 GPU 用场分布、GPU 利用概况、GPU 利用分布等可视化图表。

图表 1.2.41

管理员可以查看 GPU 的用场分布统计(任务演习、交互式利用、可视化、空闲利用)。

管理员可以查看 GPU 的分区利用统计(统共利用,每个分区利用)。

管理员可以查看 GPU 的用户利用统计(统共利用,每个用户利用)。

管理员可以查看节点 GPU 利用概况(总数、空闲、已占用),以及每一块 GPU 卡的利用率和显存利用率。

2.5.4、历史统计

在当前界面可以查看 HP AI 开拓平台用户资源利用统计图表。

图表 1.2.42

2.6、系统设置

GPU 配置

在当前界面可以选择 HP AI 开拓平台 GPU 类型、切片数量。

图表 1.2.43

输入切片数量,点击“确认”后,即可为 GPU 切片。

图表 1.2.44

2、实验:人脸活体检测和自然措辞文本分类

在本章节,智东西公开课AI教研团队将作为管理员,分配不同的账户资源给到两位 Kaggle Grandmaster 进行模型开拓实验,并在平台后端监测相应的资源利用情形和反馈。

1、资源创建与分配

1.1、创建分区 kaggle

图表 2.1.1

图表 2.1.2

1.2、创建用户组 viewers

图表 2.1.3

图表 2.1.4

1.3、创建用户 master1、master2

图表 2.1.5

图表 2.1.6

2、实验一:基于数据集 CASIA-SURF 的人脸活体检测

2.1、实验解释

该部分实验由 Kaggle Grandmaster 沈涛完成。

人脸活体检测是人脸识别过程中的一个主要环节。
它对人脸识别过程存在照片、***、面具、头套、头模等欺骗手段进行检测,对付身份验证的安全性尤为主要。
从技能发展上,人脸活体检测可以大略地分为两大类:传统的人工特色模式识别方法和近年来兴起的深度学习方法。
目前,深度学习方法在识别准确性上已有较大上风。

很多人脸识别系统利用可见光人脸图像进行活体检测,识别性能易受到光照条件的影响。

同时,基于可见光光谱的识别办法也很难应对常见的假造攻击。
利用多模态数据进行活体检测建模,能有效缓解这些问题。
领悟多种成像设备的图像信息,比如可见光,近红外和深度图像等,既能提升模型的识别性能,也能减少光照条件对性能的滋扰。

本次实验,我们利用 HP AI 开拓平台,搭建并演习深度学习模型,用于人脸活体检测。
数据集采取了 CASIA-SURF 凑集。
该数据集含有人脸可见光图,近红外和深度图三种模态信息,包含了1000个个体样本的21000段***。
采集设备是英特尔的 RealSense 立体相机。

模型构造方面,我们会实验多种不同架构,包括 CNN 类型的架构 FaceBagNet 模型, MLP 类的架构,(如 VisionPermutator,MLPMixer 等),还有近期非常热门的Vision Transformer(ViT)模型。
并且比对这些模型在该任务上的性能。

图表 2.2.1

2.2、实验流程

2.2.1、环境配置

(1)进入实验平台,新建交互任务 Terminal,选择得当的镜像,须要包含实验所需的软件库( PyTorch ,OpenCV 等)。
实验平台首页,展示了目前的资源状态:正在实行的任务数量,可分配的资源等。

图表2.2.2

(2)左侧栏选择“模型开拓”-“交互式开拓”,并且点击赤色框指定的新建按钮。

图表2.2.3

(3)进一步选择 Terminal,设置密码(用于后续 ssh 上岸),选择内存大小,CPU,GPU数量。
根据实验须要设置。
我们选取内存 32G ,16核 CPU,和一颗 A5000 型号的 GPU 用于本次实验。

图表2.2.4

(4)最下方可以选择本地实验利用的镜像环境,该平台供应了公用的根本镜像,我们也可以配置自己的私有镜像环境。

图表2.2.5

(5)创建成功后,会显斧正在运行的运用。
此时可以用过命令“ssh -p 25875 root@192.168.88.80”远程连接进行创建好的环境。

图表2.2.6

2.2.2、实验运行

如图所示,模型已经开始演习,单卡 A5000下,演习效率很高,一个 epoch 只须要不到一分钟的韶光。
同时 GPU 的占用率一贯业保持在80-90%。
模型的 log 文件和终极的模型文件都会存储在对应的 Models 路径下。
在演习开始时,终端开始打印 log ,演习过程中 GPU 的占用率在80-90%。

2.3、实验结果

为了有效比拟多个模型的性能,我们利用该平台演习了多个不同构造,不同参数的模型。
我们在验证凑集上测试了模型性能,利用了 ACER(Average ClassificationError Rate )指标。
指标越低,解释模型性能越好。

下表展示了单一模态下,各个模型的性能比较。
整体上看,利用深度图数据的模型,会显著优于其他两种单一模态模型。
FaceBagNet ,ConvMixer 和 MLPMixer 都有比较好的性能。

同时我们测试了三种 patch size 下,两种多模态建模模型的性能, FaceBagNetFusion 的效果在各个参数下都显著优于ViT模型。
比较于表表2.2.7中的数据,多模态建模的结果均优于单一模态的建模结果。

图表2.2.8

2.4、实验感想熏染

Q1:你在本次实验中演习了多个不同构造和不同参数的模型,管理员分配给你的2/3分区资源是否知足了演习哀求?

沈涛:我的实验紧张是依赖 GPU 算力,对 CPU 和内存的需求相对较少。
NVIDIA A5000 GPU 的单卡演习效率已经足够高,如果利用稠浊精度演习等技能,效率会进一步提升。

Q2:你在本次实验中进行了私有镜像的上传,是否顺畅?镜像利用中有没有碰着兼容性或不稳定等问题?

沈涛:我以公共镜像为根本制作了私有镜像。
详细来说,我先申请了基于根本镜像的命令行的交互任务,并在任务中安装了我所需的事情环境,并将环境保存为新的私有镜像,后续可以直策应用。
全体利用过程比较顺畅,没有涌现问题。

Q3:HP AI 开拓平台供应的是 Web 端 GUI 交互界面,基于你的利用感想熏染,你认为是否能够降落普通开拓者的利用门槛和难度?

沈涛:上述Q2中的私有镜像保存操作便是在 GUI 交互界面完成的,这一点就比较方便,对付普通开拓者,省去了 Docker 命令行操作,降落了利用门槛。
同时,全体打算资源利用率的实时展示,任务的申请,都可以通过比较大略地交互可以完成,整体上便捷一些。

Q4:比拟公有云、数据中央和本地 PC ,你以为通过事情站进行模型演习的上风有哪些?

沈涛:比较于公有云,数据中央,利用事情站进行模型演习会在利用上更加便捷,数据模型都在事情站本地,减少了来回传输的过程,利用上也会更加稳定。
比较于本地 PC ,事情站的打算性能会更强,散热会更好,能支持永劫光的高负荷事情。

Q5:对付中小型 AI 开拓团队来说,事情站+ HP AI 开拓平台的算力供应和管理办法是否是一个不错的选择?

沈涛:对付非大规模 AI 模型(须要大规模分布式演习)的开拓,该办法已经能够知足正常开拓需求。

3、实验二:基于基于数据集 STS-B 的自然措辞文本分类

3.1、实验解释

该部分实验由 Kaggle Grandmaster 吴远皓完成。

本次实验通过经典的自然措辞文本分类数据集 STS-B 来体验 HP AI 开拓平台。

STS-B 数据集包含8628个英语句子对,个中演习集5749条,验证集1500条,测试集1379条,数据集文本来源于报纸、论坛和图片题注。
该数据集也是 The General Language Understanding Evaluation (GLUE)benchmark 的一个子任务。

图表 2.3.1

实验目的是模型须要给出两个句子的相似性度量,任务的评价指标是 Pearson 干系系数。

3.2 、实验流程

3.2.1、环境配置

登录 HP AI 开拓平台,在“模型演习”-“交互式开拓”中,创建 Terminal 类型的开拓环境,同时可以直接在“公共镜像”中选择我们须要的环境。
其实际利用体验相称于一台远程做事器或本地 Docker。

图表 2.3.2

创建成功后,会显斧正在运行的运用。
此时可以用过命令“ ssh -p 25457 root@192.168.88.80 ”远程连接进行创建好的环境。

图表 2.3.3

此时可以用过命令“ ssh -p 25457 root@192.168.88.80 ”远程连接进行创建好的环境。

图表 2.3.4

3.2.2、实验运行

3.3 、实验结果

本次实验选用常用预演习模型工具包 Transformers ,选择的模型为谷歌开拓的小型 BERT 模型 google/bert_uncased_L-2_H-128_A-2 。
该模型隐层维度128,把稳力头数量为2,Transformer 层数也为2,模型大小只有不到17Mb ,是个精简的小模型。
单从实验结果可以看出,模型在 STS-B 数据集上也取得了不错的结果(目前榜单第一名是体历年夜好几倍的 ERNIE ,其结果为0.93)。

图表 2.3.5

3.4 、实验感想熏染

Q1:基于本次实验中的分区资源,你在很短的韶光内就完成了基于数据集STS-B的自然措辞文本分类模型的演习,对此你怎么看?

吴远皓:HP AI 开拓平台的各环境间互不影响,任务展示清晰透明,在多人共享资源的场景下能够既担保开拓效率,又显著提高资源的利用效率。

Q2:HP AI开拓平台供应的是 Web 端 GUI 交互界面,请谈谈你的利用感想熏染。

吴远皓:GUI 界面非常人性化,能够有效完成资源的组织、管理与隔离。

Q3:在完成这次实验后,你如何评价 HP AI 开拓平台?

吴远皓:通过体验我们创造,HP AI 开拓平台对利用者非常友好,是打算资源管理的有力工具。

Q4:比拟公有云、数据中央和本地 PC,您以为通过事情站进行模型演习的上风有哪些?

吴远皓:这几个不太能比较。
对付中小团队来说公有云有传输数据的本钱,数据中央的搭建和运营本钱太高,而本次 PC 的性能可能达不到哀求,所以为团队配备一个共用的事情站是一种既灵巧又高效的方案。

Q5:对付中小型 AI 开拓团队来说,事情站+ HP AI 开拓平台的算力供应和管理办法是否是一个不错的选择?

吴远皓:是的,可以发挥硬件的最大效能,提高利用率。

4、管理员后台展示

前端用户在通过 HP AI 开拓平台进行模型演习过程中,管理员可以在后台直不雅观的看到资源的利用反馈。
比如在前面两个实验过程中,管理员可以在后台看到以下内容。

4.1、任务列表

在 “任务列表” 里面,我们可以看到 master1 和 master2 创建的任务。

图表 2.4.1

4.2、任务镜像

在“任务镜像”里面,管理员可以看到 master1 和 master2 所利用的镜像系统。

图表 2.4.2

图表 2.4.3

4.3、监控中央

仪表盘

管理员可以看到在实验期间,节点和分区的 CPU、GPU、内存、网络等参数的整体利用情形:

节点利用情形:

图表 2.4.5

分区利用情形:

图表 2.4.6

监控报表

资源利用情形:

在这里默认会选择一周内的资源监控数据进行展示,同时也可以选择动态展示数据变革

节点利用情形:

分区利用情形:

实时信息

图表 2.4.7

历史统计

图表 2.4.8

5、多用户利用

在 “ GPU设置” 里面,GPU 可以切片的数量选项为1、2、4、8。
也便是说每块 NVIDIA RTX A5000 的 GPU 算力可以均匀分为1、2、4、8份,HP Z8 G4 数据科学事情站共有3块 GPU,最多可将算力均匀分为24份,可同时给24个开拓者供应算力支持。

3、总结

通过本次专业性测试,我们可以看到,配备了3块 NVIDIA A5000 GPU 的 HP Z8 G4 数据科学事情站在 HP AI 开拓平台的合营下,不仅便于管理员对事情站的 GPU 资源进行管理,更能知足两位 Kaggle Grandmaster 的算力需求,保障模型协同演习的顺畅进行。

HP AI 开拓平台是一款封装了人工智能所需系统和底层操作的容器云平台,在数据中央或公有云中同样可以进行单独的支配。
不过,事情站产品特有的静音,易支配和高性价比,让 HP Z8 G4 数据科学事情站+ HP AI 开拓平台的整体办理方案在中小企业办公场景中的运用上风非常显著。

对付有同等需求的中小型 AI 开拓团队来说,搭载2-4块 GPU 的 HP Z8 G4 数据科学事情站,合营 HP AI 开拓平台的资源管理,就可以很轻松的构建出一个性价比极高的高性能打算办理和管理方案。
因此,事情站+HP AI 开拓平台办理方案可以在帮助中小企业团队节省本钱的同时,可以发挥出硬件的最大效能,提高资源利用率,成为多用户协同开拓和资源管理的有利工具。

总体来说,HP AI 开拓平台在资源管理和镜像订制两方面都有着独到的上风。

个中,在资源管理方面有三大核心上风:

(1)按需分配、自动开释:在任务提交后,HP AI 开拓平台可以按照实际需求动态分配资源,限定任务无法逾额利用资源,担保资源分配的公正性;与此同时,它还可以支持任务排队机制,在任务运行完毕后自动开释资源,让行列步队中任务自动运行;

(2)优先抢占:针对不同的优先级需求,系统可以按照从高到低顺序进行任务调度,同时支持对行列步队中任务的优先级调度和插队,知足紧急任务的利用需求;

(3)GPU 细粒度切分:系统可以根据 GPU 卡的算力,支持对 GPU 卡进行细粒度的切分;同时支持多个任务共享同一张 GPU 卡,充分提高 GPU 卡利用效率,提高任务密度和吞吐量。

其余,在镜像订制方面 HP AI 开拓平台有四大关键点:

(1)机器学习镜像库:可供应丰富的 TensorFlow 、PyTorch 、MxNet 和 Caffe 镜像,且版本完全,并和官方机器学习框架 release 保持同等,用户可以***并导入利用;

(2)NGC 镜像:许可用户查看 NGC 镜像列表,***利用 NGC 上 NVIDIA ®供应的镜像;

(3)自由订制:针对用户对镜像的内容需求丰富且分歧一,订制化哀求高档情形,系统可许可用户通过 Docker Exec 连接并配置镜像环境;该办法适用于所有镜像,无需镜像中配置 ssh 做事

(4)镜像分享:许可管理员提升私有镜像为公有镜像、支持用户私有镜像的分享,提高镜像获取的效率、减少存储空间哀求。