本文由 【AI前线】原创,原文链接: http://dwz.cn/77k9DJ
2017 年,当 Intel 在洛杉矶举行的 Automobility LA 贸易展上发布了最新的 AI 硬件,但它并不是什么里程碑式的产品,而只是若干科技巨头接连发布的一系列最新技术之中的其中一个——所有这些产品都是为了在 AI 硬件领域的地位奠定基础。因为拿下人工智能领域的一方,将会成为制造业、汽车、物联网、医疗,甚至娱乐业在内的众多行业中的主导力量之一。
在硬件方面,人工智能领域正在进行一场“权力的游戏”,不同公司都在不遗余力地争夺霸主地位,并希望自己的产品可以成为人工智能技术(特别是深度学习和神经网络)芯片架构的标准。
Research and Markets 和 TechNavio 的分析师预测,全球 AI 芯片市场在 2017 年至 2021 年,将以年均 54%的速度增长。
Technavio 嵌入式系统研究首席分析师 Raghu Raj Singh 表示,市场对于能够满足深度学习需求的高功率硬件的需求,是推动这一发展的关键因素。“硬件市场的高增长率,反映出市场对高计算能力的硬件平台的需求不断增长,这有助于深度学习算法的进步。创业公司和老牌公司之间日益激烈的竞争正在引领新的 AI 产品发展的潮流,无论是硬件还是软件平台,都开始采用深度学习计划和算法。“
火药味越来越浓烈,AI 芯片制造商之间的战争一触即发。人工智能将成为计算机硬件的下一个前沿领域,并且可能是自移动计算和互联网出现以来,人工智能可能是计算机硬件最重要的战场。
那么,我们是如何到达这里的,谁是大玩家呢?
CPU
当那些不需要人力操作的五级自动驾驶汽车上路后,我们会发现它们将是有史以来最聪明、最复杂的机器之一。当然,自动驾驶车辆已经成为人工智能的主要目标之一,而芯片制造商 Intel 想要在这一领域牢牢巩固自己的地位。
然而,Intel 并没有把全部的精力放在内部研发上,而是通过收购来构建自身的 AI 能力。2016 年 8 月,Intel 收购了神经网络处理器制造商 Nervana Systems。
神经网络能够非常有效地执行各种各样的任务,但为了完成这些任务,首先必须训练网络如何执行任务。一个神经网络执行任务前需要进行训练,例如在执行一个识别狗的图像的任务之前,需要先训练神经网络认全所有物种的狗。这可能意味着网络需要处理成千上万,甚至数百万张的狗的图像,如果没有足够强大的处理能力,这个任务会非常耗时。
2016 年 11 月,在收购 Nervana 几个月后,Intel 宣布推出一系列处理器——Nervana,一个直接针对人工智能相关应用,如训练神经网络的平台。Intel 数据中心事业部执行副总裁兼总经理 Diane Bryant 说道:“我们期望 Intel 的 Nervana 平台再性能上能够有所突破,并大大缩短训练复杂神经网络所需的时间。预计十年之内,Intel 的性能将提高 100 倍,加速新兴的深度学习领域创新的步伐。“
2017 年 3 月,Intel 又高调地收购深度学习 ADAS 开发商 Mobileye,收购总额约为 150 亿美元。Intel 的并购战略几乎立即产生重大意义。这家芯片制造商希望在自动驾驶车辆领域占有一席之地,而且这一战略也让其一跃成为机器学习硬件的关键供应商。
去年 11 月在洛杉矶举行的 Automobility LA 贸易展览会上,Intel CEO Brian Krzanich 称,自动驾驶已成为如今最大的 game changer,并宣称 Intel 在收购 Mobileye 公司后推出的新产品 SoC 和 EyeQ5,比其最大的竞争对手——Nvidia's Xavier 的深度学习平台性能提高两倍。
每秒万亿次运算(TOPS)是高性能 SoC 的通用性能指标,TOPS 效能功耗比(TOPS per watt)可用以扩展该指标来描述性能效率。TOPS 效能功耗比越高,芯片的质量和效率越高。深度学习 TOPS(DL)是指进行深度学习相关操作的效率。根据 Intel 的模拟测试,EyeQ5 的 TOPS 效能功耗比为 2.4 DL,比 Nvidia Xavier 的效率提高了一倍以上,Xavier 的 TOPS 效能功耗比为 1 DL。
Intel 自动驾驶集团(ADG)高级副总裁兼总经理 Doug Davis 表示,Intel 选择专注于 DL TOPS,因为 Intel 希望把重点放在处理器的效率,而不是其他指标上。 “DL TOPS 是衡量电源消耗的一个很好的指标,但这也是一个重量、成本和散热的问题,所以我们认为效率是关注的重点。”Davis 说道。 “
Davis 补充道:“我们已经就绝对性能进行过大量的讨论,但是当我们考虑这个问题时,希望可以从更实际的角度出发,考虑到不同类型的工作量。深度学习能够尽可能快速有效地识别对象,并做出决策。“
然而,Nvidia 公司对 Intel 的数据提出了异议,认为 EyeQ5 的测试结果是基于模拟实验,尤其是 SoC 在未来两年之内都不会实际应用。Nvidia 公司汽车高级总监 Danny Shapiro 在一份声明中表示:“我们无法评判一种不存在的产品,尤其是这种直到 2020 年才会面世的产品。但现在,我们了解的是我们去年推出,并将于 2018 年面世的 Xavier,它的性能达到 30 TOPS,比 EyeQ5 经过模拟测试得出的 24 TOPS 性能更高。“
GPU 是否为 AI 而设计?
偶然地,GPU 制造商发现他们掌握着可能处于 AI 革命最前沿的技术。当 GPUs 被当做 CPU 的补充时(许多 CPU 将 GPU 集成到 GPU 中进行图形处理),GPU 已经扩展到以图形和视频为中心的领域之外,进入深度学习领域,GPU 制造商纷纷表示他们的产品性能远优于 CPU。
Nvidia 表示,其 Titan V GPU 是有史以来最强大的 PC 深度学习 GPU。 图片来源:Nvidia
虽然市场上有不少 GPU 公司,但没有哪家公司比 Nvidia 作为这个技术的代名词更贴切。根据 Jon Peddie 研究公司的报告,Nvidia 在 2017 年第三季度的 GPU 出货量增长了 29.53%,主要竞争对手 AMD 和 Intel 在这方面均败下阵来。AMD 的出货量增加了 7.63%,而 Intel 的出货量增加了 5.01%。当然,这主要是由于视频游戏市场的推动,但 Jon Peddie Research 的分析师认为,与加密货币挖掘有关的应用程序对高端性能的需求,也对出货量增长做出贡献。
对于高性能任务处理器(如加密货币挖掘和 AI 应用程序)的需求,将 GPU 推向了 AI 硬件的最前沿。GPU 包含数百个可同时执行数千个软件线程的内核,而且比 CPU 更节能。CPU 比较泛化,且更具有跳跃性,可以执行很多任务,并擅长对大批量数据进行重复操作。GPU 之所以被称为 GPU,就是因为这一关键区别,它更擅长处理图形——因为图形处理涉及一次性处理数以千计的小计算。同时,这样的性能也使得 GPU 成为理解上述神经网络训练等任务时的理想选择。
就在今年 12 月,Nvidia 宣布推出了一款专为深度学习而设计的 PC GPU——Titan V。这款 GPU 基于 Nvidia 的 Volta 架构,使用了 Nvidia 称之为 Tensor Cores 的新型核心技术。在数学术语中,张量(tensor)的定义为“与矢量相似,但更泛化的数学对象,用一组空间坐标函数表示。”Nvidia 所做的,是针对处理深度学习和神经网络计算的需求,开发具有复杂架构的内核。
Titan V 包含 210 亿个晶体管,具有 110 浮点运算的深度学习能力,专为从事 AI 和深入学习的开发人员设计。公司创始人兼 CEO Jensen Huang 在新闻发布会上表示,Titan V 是有史以来为个人电脑开发的最强大的 GPU。 “我们对 Volta 的愿景是其能打破高性能计算和人工智能的外部极限,用新的处理器架构、指令、数字格式、内存架构和处理器链接打开了新的局面。通过 Titan V,我们把 Volta 交给了世界各地的研究人员和科学家手中。“
一个张量的世界
也许没有哪家公司比 Google 对张量概念的研究更加深入。2016 年,这家搜索巨头发布了非常流行的深度学习开源框架 TensorFlow。如 Google 所说,“TensorFlow 是一个使用数据流图进行数值计算的开源软件库。图中的节点表示数学运算,而图像边缘表示在它们之间通信的多维数组(张量)。它灵活的体系结构让用户可以使用单个 API 将计算部署到桌面、服务器或移动设备中的一个或多个 CPU 或 GPU。“
Google 的张量处理单元(TPU)运营公司所有基于云的深度学习应用程序,是 AlphaGo AI 的核心。(图片来源:Google)
TensorFlow 的机器学习应用程序库包括面部识别、计算机视觉,当然还有已经被证明非常流行的搜索和其他应用程序,以至于 2016 年 Intel 致力于优化其处理器来运行 TensorFlow。2017 年,谷歌还发布了针对移动和 Android 开发者的精简版 TensorFlow。
但 Google 关于 AI 的目标不会止于软件。2016 年,该公司发布了第一代被称为张量处理单元(TPU)的新处理器。Google 的 TPU 是专为机器学习和 TensorFlow 而量身定制的 ASIC。2017 年 5 月,Google 发布第二代 TPU,并称其性能高达 180 teraflops。
2017 年 6 月,在加拿大多伦多举行的第 44 届计算机体系结构国际研讨会(ISCA)上,Google 发布了一项研究报告,将其部署在数据中心的 TPU 与 Intel Haswell CPU,以及部署在同一数据中心的 Nvidia K80 GPU 进行了比较,结果发现,TPU 比 GPU 和 CPU 运行速度平均快 15 到 30 倍。TPU 的 TOPS per watt 也比后两者高约 30 到 80 倍。Google 表示,现在,TPU 已经用于该公司所有在线服务,如搜索、街景、Google 相册和 Google 翻译服务中。
在一份详细介绍谷歌 TPU 的论文中,Google 的工程师们说,早在六年前,当 Google 发现其将深度学习融入越来越多的产品时,市场对于 TPU 的需求就出现了。 “如果人们每天只使用三分钟 Google 语音搜索,使用我们现在用来处理语音识别系统的深度神经网络处理器,那么我们必须将 Google 的数据中心扩大两倍!“Google 工程师写道。
Google 的工程师在设计 TPU 时表示,他们采用了所谓的“收缩性设计”。“这种设计之所以被称为“收缩性”,是因为数据通过芯片时的波浪形流动,让人想起心脏泵血的方式。MXU [matrix multiplier unit] 中特殊的收缩阵列对执行矩阵乘法时的功率和面积效率进行了优化,但并不适用于一般计算。它做了一个工程上的折衷:以寄存器、控制和操作的灵活性,换取更高的效率和操作密度。“
在一些非常高端的 AI 应用中,TPU 也已经证明了其价值。TPU 是谷歌著名的 AlphaGo AI 背后的“大脑”,AlphaGo AI 去年击败了围棋世界冠军,而最近,AlphaGo 通过证明其能够在相对较短的时间内,通过自学成为围棋大师,从而实现了人工智能领域的巨大的飞跃。经过短短几个月的训练,AlphaGo 的最新版本 AlphaGo Zero 的能力就远远超过人类专家。而战胜国际象棋(一个复杂的游戏,但是比 Go 计算量小得多)专家,也就是几个小时的事情。
FPGA——AI 竞赛中的一匹黑马
如此看来,TPU 就是 AI 的未来,是这样吗?事实上可能没那么快。虽然 Nvidia、Google 以及 Intel 在某种程度上都专注于为 AI 服务,但其芯片提供的服务处理过程均发生在设备上,而不是云端。微软声称,其 FPGAs 云端人工智能服务的性能与 Nvidia、Google 以及 Intel 相当,甚至更优。微软认为,这款代号为 Project Brainwave,基于 FPGA 的云端解决方案,在可扩展性和灵活性方面将优于 CPU、GPU 和 TPU。
微软的 Project Brainwave 在使用 Intel Stratix 10 FPGA 运行时,运行速度达 39.5 teraflops,延迟不足 1 毫秒。 (图片来源:微软 / 英特尔)
一般来说,基于处理器的解决方案在某种程度上会受到设计上的限制,仅能完成特定的任务。但是,由于 FPGA 具有灵活性和可重编程性,让升级更容易,处理器的性能更高。根据微软的说法,在 Intel Stratix 10 FPGA 上运行时,微软的 Project Brainwave 的运行速度达到 39.5 teraflops,延时不足 1 毫秒。
FPGA 是否能为人工智能提供最佳解决方案,与其他议题一样是值得商榷的事情。微软认为,创造 AI 专用 ASIC 的生产成本太高,而另一些人则认为,FPGA 永远无法完全实现专为 AI 设计的芯片性能。
3 月份举行的 International Symposium on Field Programmable Gate Arrays (ISFPGA) 上,一些 Intel 加速器架构实验室的研究人员发表了一篇论文,称其对处理深度神经网络算法的两代 Intel FPGA(Arria10 和 Stratix 10)和 Nvidia Titan X Pascal (Titan V 处理器)进行了比较。据 Intel 研究人员称:“研究结果显示,在 pruned、Int6 和二值化 DNNs 矩阵乘法运算方面,Stratix 10 FPGA 的性能(TOP / 秒)比 Titan X Pascal 图形处理器的性能分别高 10%、50% 、5.4 倍。在 Ternary-ResNet 方面上,Stratix 10 FPGA 比 Titan X Pascal GPU 的性能高 60%,而且性能功耗比高 2.3 倍。这表明,FPGA 可能成为加速下一代 DNN 的首选平台。“
谁戴上皇冠?
在这个特定的时间点,就整体性能而言,很难不争论 GPU 在 AI 芯片上的表现。但是,这并不意味着像 Nvidia 和 AMD 这样的公司应该放下桂冠,相信他们拥有最好的解决方案。像微软这样的竞争对手有维持自身现状的既得利益(微软的数据中心都是基于 FPGA 的),并将 AI 消费者转向他们的观点。
更重要的是,出现在最顶级的公司可能不是那些硬件最好的硬件,而是最好的硬件。虽然自动驾驶汽车正在成为将 AI 分解为更广泛的公众意识的杀手级应用程序,但现在确定还为时过早。这可能是机器人,制造业,甚至娱乐领域的进步,真正推动 AI 的发展。而这并不是为了贬低甚至还没有被报道或开发的新兴应用。
当烟雾清除时,它可能不是一家公司,甚至是一家主宰 AI 景观的处理器。我们可以看到一个未来从 AI 硬件的一刀切式的方法转向,并且看到硬件因应用程序而异的更加分裂的市场。时间会告诉我们,但是一旦我们到达那里,我们所有的设备将会变得更加聪明。
关注我们的微信号"AI前线",后台回复“AI”可获得《AI前线》系列PDF电子书