数据、算力和算法,这是人工智能发展的三大要素。
近一年来,人工智能迎来了史上第三次热潮。移动互联网时代沉淀下来的大量数据和GPU近几年的快速发展,让学界和业界相信,这人工智能时代真的要来了。现在,公有云厂商要在上面加一点火。
由于人工智能模型训练对算力的要求,原有的通用型CPU架构无法满足,不少企业或科研机构在训练模型的时候会通过采用和主处理器(CPU)不同架构的加速器件(也就是所谓“异构”),如GPU、FPGA、ASIC等器件,提供高密度并行计算的运算能力,非常适合当下的人工智能应用体系。
算力推动了人工智能发展,产业发展也催生了对计算能力的需求,业界专家预测,到2020年,与人工智能相关的计算力需求将会增长12倍。瞄准了这个巨大的需求,公有云厂商开始提供相关产品。
今天(9月12日),阿里云宣布推出全新一代异构加速平台,这是阿里云首次发布一整套异构计算家族,涵盖GPU、FPGA在内等7款异构实例;还有基于阿里云异构平台的全新高性能计算实例E-HPC,可一键部署大型超算集群环境。
之前,企业如果需要类似的架构来训练深度学习模型,从服务器和GPU的采购、架构的搭建,到软件的授权付费,都要自己完成。据阿里云方面表示,利用阿里云的服务可将深度学习成本缩减一半,降低人工智能计算门槛。
阿里云这次推出的人工智能解决方案,囊括了云服务的各层级(详见下图)。
先说IaaS层提供的服务器层面,跟此前阿里云发布企业级云服务器产品线的总思路类似,便是为不同的计算需求和人工智能业务场景推出不同的实例。
新一代GPU实例GN5i可以将类似场景需求进一步细致化。据阿里云高级技术专家龙欣接受36氪专访时介绍,深度学习模型一般有两个阶段,训练阶段和在线推理阶段,两个阶段对计算力的要求不同,训练阶段处理大量数据,需要服务器有高吞吐量,推理阶段则更需要快速响应用户要求。这就有点像送货,追求大容量可以用卡车,量小但是要求快可以用跑车。
因此,在原有的GPU实例GN5的基础上,阿里云推出了适用于深度学习在线推理阶段的新一代GPU实例GN5i。龙欣介绍,后者采用了专有推理型GPU,英伟达 Pascal架构P4图形处理器,时延最低可达微秒级;另外,GN5i可一键部署TensorFlow、Caffe等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务,降低人工智能在线服务成本50%以上。
除了GPU这类主流的加速器之外,FPGA成了异构计算近些年的新宠。阿里云异构计算负责人张献涛解释,GPU、FPGA和AISC是不同类型的加速器,适用于不同场景,拥有不同的开发难度和市场。
其中,GPU是目前比较主流的通用并行加速器;FPGA是一种可编程的加速器,让开发者自定义加速算法,提供高效灵活场景化并行计算能力,阿里云高级技术专家游亮介绍,FPGA在低位宽场景有明显优势。相比基于GPU的异构计算产品,FPGA更适合金融分析、基因匹配、深度学习和物联网等对业务有快速迭代计算需求的领域。
阿里云2017年初推出了基于英特尔Arria 10芯片的FPGA计算实例,此次发布的F2实例基于赛灵思Xilinx KU115器件。
有趣的是,阿里云针对FPGA特性,推出了一个FPGA镜像市场,这有点像一个FPGA版的应用市场。
由于FPGA的灵活性,开发者在编好一套加速算法之后,其实可以将这套算法输出。传统的售卖方式是,为了避免自己的算法泄漏,开发者需要从上游购买芯片,然后将芯片电路板烧好,最后卖给终端用户。
阿里云的PFGA镜像市场推出后,开发者可以将自己的加速方案算法(IP)放到这个市场上,终端用户如果需要用可以直接从市场购买算法使用权,然后从阿里云购买FPGA芯片。
除了提供一个FPGA版的淘宝之外,阿里云还提供一个弹性的FPGA开发平台。FPGA加速算法的门槛高,技术因素之外,还与其相关开发套件和测试环境的专利授权费高昂有关,后者费用一年可能达到数十万美金,但实际上闲置的时候可能很多,如果阿里云从国外厂商购买版权之后,推出少量使用免费,超量按需求付费模式,降低FPGA IP的开发门槛。
此前,阿里云就推出了类似的镜像市场,当时推出的是Docker镜像市场。总体而言,这套思路很阿里:开个平台,搭好基础设施让你在上面交易,同时平台提供一堆解决方案。听起来是不是很像一套开发者版的淘宝,况且还依靠公有云本身庞大的客户数和生态,似乎是巨头的生意。
不过,据阿里云的几位专家介绍,国内FPGA的生态尚未完善,虽然懂开发的人不少,但目前跟他们合作到PFGA平台上准备上线产品的企业也不到三位数。这个市场还属于一个抢占未来的产品。尽管GPU还是主流,但是包括AWS、微软和谷歌等公有云厂商,都非常看好FPGA的前景。
针对传统对高性能计算有强烈需求的高校科研机构和企业用户,阿里云异构计算家族还包含了弹性高性能计算实例E-HPC。
高性能计算又称为又称为并行计算和超级计算,常应用于解决大规模的科学、工程和商业问题,比如气象预报、工程计算、基因分析、油藏探测、量子化学等领域,可以利用该技术模拟核爆炸、分子运动、汽车撞击等场景。据游亮介绍,异构计算其实最开始是用在高性能计算场景中。
从前,如果企业或者科研机构有使用高性能计算的需求,需要到国家超算中心申请、排队。如今随着高性能计算的需求爆发,制药和汽车企业对此需求增长,但并非所有企业都有能力建设一座超算中心。因此,在云上“建立超算中心”的实践在国外已经相对普遍。
E-HPC属于PaaS层的服务,基于异构计算云平台在高性能虚拟化、并行计算和低延迟网络等方面的特性,提供的是高性能计算集群计算能力、调度能力和软件能力,客户可以按需组建自己的“云上超算中心”,并可实现一键部署和弹性伸缩。阿里云称其为中国首个公共云上的HPC as a Service产品,同时提供混合云解决方案。
目前,阿里巴巴集团内部很多业务使用异构计算,比如拍立淘、以图搜图、商品分类等,使用阿里云异构计算的企业客户有数千家,其中包含微博、陌陌、华大基因、中国工程院等。
从阿里云这次发布全套异构计算家族的动作来看,显然他们想传递给开发者的并不是我有不同的ECS这么简单。说到底,异构计算云服务器实例总归是花钱就能买到的东西,趋于同质,公有云厂商能做的是尽量推出最新最高性能的产品,面向不同的场景提供垂直化的方案也是差异化竞争的需要。
除此之外,阿里云还有相应的PaaS层服务,提供相应加速器场景下一键部署、快速研发和弹性伸缩等能力,同时针对人工智能、高性能计算和大数据等业务场景推出了专门的调度平台,以降低企业的使用门槛和运维压力。
同时,阿里云也推出相应的IP交易市场,对接开发者和终端用户。从底层的IaaS到SaaS层的具体解决方案,阿里尝试显然提供一个生态。36氪此前报道就指出,云服务市场将是垂直之争与生态建设,企业对云的需求也更加的垂直化和场景化;同时,未来公有云厂商技术上与其他厂商的差距会逐渐缩小,提供的产品随着市场的成熟也会趋同,因此,要留着客户,也许更重要的是要提供更好的生态和打造自身品牌。
随着产业往人工智能时代越走越深,开发者对相关解决方案的需求也会越来越大,谁在时代初期就抢占“未来”的市场,谁将是赢家。
------------------------------------
本文作者卢晓明,交流可加微信lohiuming,烦请注明姓名、单位及职务。