随着机器学习、深度学习等AI技术日益广泛的应用,图片、视频、语音等非结构化数据的挖掘、识别、处理等,都对高效率、低延迟的实时计算提出了更高的要求。“异构计算”的作用日益凸显。
根据阿里云官方消息,1月21日,阿里云发布异构计算解决方案,包括弹性GPU实力和FPGA解决方案,适合人工智能领域的应用。
其中,弹性GPU方案,适合视频、渲染和人工智能应用等场景,自2016年底开放邀测,可以提供2048到8192个并行处理核心,搭配32GB的DDR5显存,最高提供15.08TFOPS单精度和1TFLOPS双精度浮点性能,并支持多种开放的渲染与计算加速协议和软件框架。同时配备了实例存储功能,可以获得与SSD云盘相比十数倍性能提升的前提下,读写延迟可稳定在200us左右。官方同时表示,该产品支持包月、包年的预付费支付模式,同时也支持按小时付费的使用模型。根据阿里云提供的资料,2016年下半年,Zerolight基于云计算技术开发了实时汽车三维展示软件,软件性能提升15~20%。
FPGA解决方案方面,阿里云采用了多家FPGA方案。官方表示,以 Arria 10 FPGA为例,可以做到单位能耗计算能力达 45 GFLOPS/W,深度学习每瓦性能是 Intel E5-2699 v3 CPU 的 4 倍。在语音识别的业务应用方面,单块 FPGA 的方案可以做到 64 个 2.5Ghz broadwell CPU 物理核的性能,但延迟只有 CPU 的一半。智能安防厂商瑞为技术就是其客户之一,官方称单台FPGA服务器一秒就能实现3000万次人脸比对,将IPC的接入能力提升5倍以上,且服务端建设费用大幅下降。
自智能移动终端兴起以来,包括嵌入式电子产品在内,都面临高性能与低功耗之间的矛盾。除了在二者之间找平衡,也使得异构计算成为新的趋势,让每一个任务匹配更合适的功能单元,降低晶体管的浪费,提升整体效率。而到了人工智能时代,不管是模型训练还是模型应用的过程中,都对算力有了更高的要求,GPU的作用凸显,FPGA也开始日益受到重视。阿里云这次发布的异构计算解决方案,也是选了这两个方向。
两个方案之中,FPGA的解决方案或许更值得关注。2016 年, Ignite 大会上,微软 CEO Satya Nadella 就与Catapult 项目的老大 Doug Burger 一起做了 FPGA 加速机器翻译的演示,当时的演示效果是每秒 1 Exa-op (10^18) 的机器翻译运算能力。而在此前,微软已经开始使用FPGA加速Bing 搜索、 Azure云计算了。
而在实际的应用端,已经抢下公有云云计算市场半壁江山的AWS也于2016年发布了相关的产品,名为F1,采用的是FPGA + PCIe Fabric + SSD结合的高计算方案。当时,F1提供了不同价位的加速卡,最多的套件包含8个FPGA芯片(16nm Xilinx UltraScale Plus FPGA),其中每个FPGA有250万个逻辑单元和6800个DSP引擎,套件包括有ECC保护的64GiB DDR4内存和PCIe X16接口,同时为了方便使用,还会免费提供FPGA开发环境AMI及硬件开发包HDK,开发者可以按小时付费,无限次烧写。
云+AI正成为趋势,这套FPGA方案的推出,对于对算力要求高的AI行业来说,可以节省不少开发的时间与费用。对于那些本来数据就在云端的AI应用开发者来说,更是如此。
本文图片来自:Yestone 邑石网正版图库