然而,传统的高性能打算机评测方法和体系与当古人工智能需求的性能并不完备同等。
例如,LINPACK是一个目前被广泛采取的高性能打算机双精度浮点运算性能基准评测程序,国际超算Top 500榜单依据LINPACK值来进行排名,而范例的人工智能 运用并不须要双精度浮点数运算。
大部分人工智能演习任务以单精度浮点数或半精度浮点数为主,推理以Int8为主。

大年夜规模人工智能算力基准测试轨范AIPerf简介_人工智能_基准 AI简讯

对大规模人工智能算力来说,制订一个大略有效的指标和测试方法并不是一件随意马虎的事情。
首先,大部分单个人工智能演习任务(例如演习一个推举系统或者图像分类的神经网络模型)达不到全机上百张加速器卡规模的打算需求。
很多人工智能运用,纵然利用全机规模,其演习韶光和准确率也可能没有改进。
其次,如果要测试规模变革的人工智能集群打算机,测试程序必须能够规模可变。
首先必须明确,什么样的主流人工智能运用是规模可以任意调度的。
末了,准确率的剖断和打算是大规模人工智能算力评测与传统高性能打算基准评测之间的一个显著差异。
是否须要使残差小于给定标准,是否要将准确度计入分数统计,同样是须要明确的问题。

目前,各大企业、高校和干系组织在人工智能性能基准测试领域已经有了很多探索,相继开拓了各种基准评测程序,比如谷歌等公司主导的MLPerf,小米公司的MobileAI bench,百度公司的DeepBench,中国人工智能家当发展同盟的AIIA DNN Benchmark,以及在双精度的LINPACK根本上改成稠浊精度的HPL-AI等。
但是这些基准测试方案都不能很好地办理上述问题。
根据MLPerf公开拓表的数据,MLPerf程序在百张TPU加速卡以上规模测试下扩展性就会涌现下滑,在千张TPU加速卡级别到达评测体系的扩展性瓶颈,该评测程序很难评价不同系统在该规模下人工智能算力的差异。

MLPerf 扩展性瓶颈

AIPerf设计目标与思路

AIPerf是清华大学设计研制的人工智能算力基准测试程序,设计目标有:

1. 统一分数

基准测试程序应该报告一个分数作为被评测打算集群系统的评价指标。
利用一个而不是多个分数能方便地对不同机器进行横向比较,以及方便对"大众的宣扬。
除此之外,该分数应该随着人工智能打算集群的规模扩大而线性增长,从而能够准确评测不同系统规模下算力的差异。

2. 可变的问题规模

人工智能打算集群每每有着不同的系统规模,差异性表示在节点数量、加速器数量、加速器类型、内存大小等指标上。
因此,为了适应各种规模的高性能打算集群,预期的人工智能基准测试程序应该能够通过变革问题的规模来适应集群规模的变革,从而充分利用人工智能打算集群的打算资源来表示其算力。

3. 具有实际的人工智能意义

具有人工智能意义的打算,例如神经网络运算,是人工智能基准测试程序与传统高性能打算机基准测试程序的主要差异,也是其能够检测集群人工智能算力的核心所在。
人工智能基准测试程序应该基于当前盛行的人工智能运用而构建。

4. 评测程序包含必要的多机通信

网络通信是人工智能打算集群设计的紧张指标之一,也是其弘大打算能力的主要组成部分。
面向高性能打算集群的人工智能基准测试程序应该包括必要的多机通信,从而将网络通信性能作为终极性能的影响成分之一。
同时,基准测试程序中的多机通信模式该当具有范例的代表性。