AI性能基准测试从此有了「中国标准」，英伟达、谷歌可以试试这套算力卷

转载时间：2021.04.14（原文发布时间：2020.11.10）

422

转载作者：36氪企服点评小编

阅读次数：422次

编者按：本文来自微信公众号“量子位”（ID:QbitAI），作者：金磊，36氪经授权发布。

在秀算力这件事上，近几年一个叫MLPerf的AI性能基准测试，经常跃入人们的视线。

为了拿这个标准证明实力，英伟达、谷歌等「算力」大厂的表现，可谓是赚足了眼球。

早在2018年12月，也就是MLPerf首次出炉之际，英伟达便基于自家Tesla V100，在包括图像分类、物体分割、推荐系统等六项测试中均取得优秀成绩，拿下全场最佳。

而此后，英伟达更是频频刷榜，就在刚刚过去不久的最新性能测试中，英伟达又凭借A100 GPU打破了八项AI性能纪录。

AI性能基准测试从此有了「中国标准」，英伟达、谷歌可以试试这套算力卷

谷歌方面也是毫不示弱，凭借4096块TPU V3将BERT的训练时间缩短到了23秒。

对此，谷歌AI掌门人Jeff Dean还在社交平台发文表示：

很高兴看到MLPerf 0.7的结果，谷歌TPU在八项基准测试中，创造了六项纪录。

我们需要（换）更大的标准了，因为我们现在在30秒内，就可以训练ResNet-50、BERT、Transformer、SSD 等模型。

AI性能基准测试从此有了「中国标准」，英伟达、谷歌可以试试这套算力卷

那么问题来了，令这些「算力」大厂们竞相追逐的MLPerf这套「考题」，真的是「AI性能基准测试的唯一标准」吗？

不见得。

要达到理想的AI或者高性能计算（HPC）基准测试，具有三方面的挑战：

反观MLPerf，正如Jeff Dean所言，它具有固定的工作负载大小，这本身或许就是个错误。

因为增加的算力，应当被用来解决更大规模的问题，而不是用更少的时间去解决相同的问题。

而像LINPACK这样的基准测试，在没有代表性工作负载的情况下，又无法反映AI的跨栈性能。

针对上述问题，清华大学、鹏城实验室、中科院计算所联合推出了一套「中国AI试卷」——AIPerf。

简单来说，AIPerf的特点如下：

那么，中国的这套「AI试卷」具体难度几何？科学与否？

还请各位看官继续品读。

中国的这套「AI试卷」长什么样？

摊开这套「AI试卷」，全貌如下：

AI性能基准测试从此有了「中国标准」，英伟达、谷歌可以试试这套算力卷

△ AIPerf基准测试工作流程图

刚才也提到，AIPerf是基于AutoML算法来实现，在框架方面，研究人员选择的是一款较为用户友好的AutoML框架——NNI（Neural Network Intelligence）。

但在此基础上，研究人员针对「AI加速器闲置」、「模型生成耗时」等问题，对NNI框架进行了修改。

AIPerf的工作流程如下：

通过SSH访问主节点，收集从属节点的信息，并创建SLURM配置脚本。
主节点通过SLURM，将工作负载并行和异步地分配给对应请求和可用资源的从属节点。
从属节点接收到工作负载后，并行地进行架构搜索和模型训练。
从属节点上的CPU，据当前历史模型列表搜索新的架构（该列表中包含了测试数据集上详细的模型信息和精度），然后将架构存储在缓冲区（如网络文件系统）中，以便后期训练。
从属节点上的AI加速器加载「候选架构」和「数据」，利用数据并行性与HPO一起训练后，将结果存储在历史模型列表中。
一旦满足条件（如达到用户定义的时间），运行就会终止。根据记录的指标计算出最终结果，然后上报。

做完这套「AI试卷」，得到的分数又该如何来衡量和排名呢？

我们知道，FLOPS是当前最常用来反映高性能计算整体计算能力的性能指标。

在这套「试卷」中，研究人员还是用FLOPS作为主要的指标，直接描述AI加速器的计算能力。

在AIPerf中，浮点数运算速率被当作一个数学问题来求解。通过对深度神经网络的分解，对每个部分的运算量进行解析的分析，得到浮点数运算量。

结合任务运行时间，即可得到浮点数运算速率并作为benchmark分数。

理论到位了，实验就要跟上。

硬件规格方面如下：

AI性能基准测试从此有了「中国标准」，英伟达、谷歌可以试试这套算力卷