编者按:本文来自界面新闻,记者:彭新,36氪经授权发布。
美国东部时间6月30日,国际权威AI基准测试MLPerf公布最新一期榜单。在集群封闭任务赛道中,谷歌与英伟达各自获得4项第一;在单机封闭任务赛道中,浪潮获全部8项训练任务的4项冠军,英伟达、宁畅各获得2项任务冠军。
MLPerf由图灵奖得主David Patterson联合谷歌、斯坦福、哈佛大学等企业、学术机构发起成立,是影响力最广的国际AI性能基准评测,算是AI计算的“大练兵”。负责MLPerf测试的行业组织MLCommons主席David Kanter称,MLPerf测试是“整个行业的晴雨表”。
该基准测试流行的Ai工作负载和场景,例如计算机视觉、自然语言处理、推荐系统、强化学习等。有AI计算行业人士告诉界面新闻,MLPerf的结果有一定指导意义,它可以帮助客户根据测试结果做出采购决定。
此次性能评测基于最新MLPerf Training V1.0基准,分为固定任务(Closed)和开放任务(Open)。其中,固定任务要求使用相同模型和优化器,衡量同一深度学习模型在不同软硬件上的性能;开放任务则放开对深度学习模型及精度的约束,侧重深度学习模型及算法优化的能力,旨在推进ML模型和优化的创新。
MLPerf V1.0基准测试涵盖了8类极具代表性的机器学习任务,分别为图像识别(ResNet)、医学影像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化机器学习(MiniGo)。其中,ResNet50和BERT作为计算机视觉和自然语言理解中最具代表性的AI模型,竞争最为激烈。
对此,浪潮AI&HPC人工智能与高性能应用软件部总经理吴韶华解读称,从训练和推理两个不通测试的参赛团队来看,都有芯片公司,比如谷歌、英伟达、英特尔和赛灵思,也有和浪潮一样的主流服务器厂商。在AI计算领域有技术企图心的企业,都会争取在MLPerf上崭露头角。
训练和推理两个基准测试既有相同的模型,也有不同的模型。“例如推理任务不需要考虑CPU上面的负载,CPU参与的任务不太多,主要负载在加速器;而训练任务,CPU也要参与工作,有些任务的CPU负载还很重,所以对设备本身的要求并不一样。” 吴韶华说。
此次测试浪潮AI服务器成绩相对较好, 浪潮NF5688M6 AI服务器问鼎图像分类(Resnet50)、目标检测(SSD)、智能推荐(DLRM)三个赛道的冠军,浪潮NF5488A5 AI服务器取得语义理解(Bert)赛道冠军。
浪潮AI产品线总经理刘军将赛事过程形容为竞速,即工程师需要使用各种方法,让服务器性能达到最高水平。就AI计算系统而言,除了在数据传输环节需要改善传输性能、达到最佳数据前处理效率外,在计算过程中,还需要关注系统的散热效率。“GPU(图形处理器)在充分发挥性能的同时,也带来了更大的发热量,一旦系统散热不良,极易导致温度累积而导致GPU降频,影响最终性能。”刘军表示。
AI计算大致分为两个层面,首先是对模型进行训练(training),整个过程可能耗时数天;之后是训练出的模型响应实际请求,做出推理(inference)。目前,英伟达旗下的GPU(图形处理器)占据训练市场,多数推理任务则仍由传统的英特尔CPU承担。AI的兴起带来了庞大的计算需求,GPU原本为视频、游戏设计,但在深度学习上的效率远高过传统的CPU,主流云服务器厂商纷纷采购英伟达设计的GPU,来加速AI应用。
英伟达称,此次测试也显示GPU+CPU架构在AI计算的适用性,该公司强调仅有英伟达及其合作伙伴运行了所有八类工作负载,占所有提交的四分之三以上。本次参与测试的服务器厂商均使用了英伟达安培(Ampere)架构GPU A100。
在AI计算市场上,英伟达凭借GPU最先把握住了机会,成为AI企业几乎不可或缺的芯片供应商。此后,芯片大客户们更进一步,纷纷推出自研AI专用芯片。2016年,谷歌专门为深度学习打造了TPU(张量处理器),百度和阿里等中国科技巨头也都在过去一年多时间里发布了自研AI芯片。
包括谷歌、英伟达、英特尔、浪潮、戴尔、联想等在内的13家公司及科研机构,参与了此次MLPerf封闭任务赛道测试。除了主流的GPU+CPU架构外,谷歌也有其即将推出的TPU 4.0,英特尔参加测试的有其第三代至强CPU和Habana Labs Gaudi计算芯片。AI芯片初创公司Graphcore本次也提交了其IPU芯片的测试结果,Graphcore中国区总经理卢涛介绍,针对本次MLPerf测试的参与,是Graphcore投入了十几个人,耗时近半年才做出来的。