2018年，AI芯片之战将打响

转载时间：2022.01.14（原文发布时间：2017.12.22）

194

转载作者：36氪企服点评小编

阅读次数：194次

本文由【AI前线】原创，原文链接： http://dwz.cn/77k9DJ

2017 年，当 Intel 在洛杉矶举行的 Automobility LA 贸易展上发布了最新的 AI 硬件，但它并不是什么里程碑式的产品，而只是若干科技巨头接连发布的一系列最新技术之中的其中一个——所有这些产品都是为了在 AI 硬件领域的地位奠定基础。因为拿下人工智能领域的一方，将会成为制造业、汽车、物联网、医疗，甚至娱乐业在内的众多行业中的主导力量之一。

在硬件方面，人工智能领域正在进行一场“权力的游戏”，不同公司都在不遗余力地争夺霸主地位，并希望自己的产品可以成为人工智能技术（特别是深度学习和神经网络）芯片架构的标准。

Research and Markets 和 TechNavio 的分析师预测，全球 AI 芯片市场在 2017 年至 2021 年，将以年均 54％的速度增长。

Technavio 嵌入式系统研究首席分析师 Raghu Raj Singh 表示，市场对于能够满足深度学习需求的高功率硬件的需求，是推动这一发展的关键因素。“硬件市场的高增长率，反映出市场对高计算能力的硬件平台的需求不断增长，这有助于深度学习算法的进步。创业公司和老牌公司之间日益激烈的竞争正在引领新的 AI 产品发展的潮流，无论是硬件还是软件平台，都开始采用深度学习计划和算法。“

火药味越来越浓烈，AI 芯片制造商之间的战争一触即发。人工智能将成为计算机硬件的下一个前沿领域，并且可能是自移动计算和互联网出现以来，人工智能可能是计算机硬件最重要的战场。

那么，我们是如何到达这里的，谁是大玩家呢？

CPU

当那些不需要人力操作的五级自动驾驶汽车上路后，我们会发现它们将是有史以来最聪明、最复杂的机器之一。当然，自动驾驶车辆已经成为人工智能的主要目标之一，而芯片制造商 Intel 想要在这一领域牢牢巩固自己的地位。

然而，Intel 并没有把全部的精力放在内部研发上，而是通过收购来构建自身的 AI 能力。2016 年 8 月，Intel 收购了神经网络处理器制造商 Nervana Systems。

神经网络能够非常有效地执行各种各样的任务，但为了完成这些任务，首先必须训练网络如何执行任务。一个神经网络执行任务前需要进行训练，例如在执行一个识别狗的图像的任务之前，需要先训练神经网络认全所有物种的狗。这可能意味着网络需要处理成千上万，甚至数百万张的狗的图像，如果没有足够强大的处理能力，这个任务会非常耗时。

2016 年 11 月，在收购 Nervana 几个月后，Intel 宣布推出一系列处理器——Nervana，一个直接针对人工智能相关应用，如训练神经网络的平台。Intel 数据中心事业部执行副总裁兼总经理 Diane Bryant 说道：“我们期望 Intel 的 Nervana 平台再性能上能够有所突破，并大大缩短训练复杂神经网络所需的时间。预计十年之内，Intel 的性能将提高 100 倍，加速新兴的深度学习领域创新的步伐。“

2017 年 3 月，Intel 又高调地收购深度学习 ADAS 开发商 Mobileye，收购总额约为 150 亿美元。Intel 的并购战略几乎立即产生重大意义。这家芯片制造商希望在自动驾驶车辆领域占有一席之地，而且这一战略也让其一跃成为机器学习硬件的关键供应商。

去年 11 月在洛杉矶举行的 Automobility LA 贸易展览会上，Intel CEO Brian Krzanich 称，自动驾驶已成为如今最大的 game changer，并宣称 Intel 在收购 Mobileye 公司后推出的新产品 SoC 和 EyeQ5，比其最大的竞争对手——Nvidia's Xavier 的深度学习平台性能提高两倍。

每秒万亿次运算（TOPS）是高性能 SoC 的通用性能指标，TOPS 效能功耗比（TOPS per watt）可用以扩展该指标来描述性能效率。TOPS 效能功耗比越高，芯片的质量和效率越高。深度学习 TOPS（DL）是指进行深度学习相关操作的效率。根据 Intel 的模拟测试，EyeQ5 的 TOPS 效能功耗比为 2.4 DL，比 Nvidia Xavier 的效率提高了一倍以上，Xavier 的 TOPS 效能功耗比为 1 DL。

Intel 自动驾驶集团（ADG）高级副总裁兼总经理 Doug Davis 表示，Intel 选择专注于 DL TOPS，因为 Intel 希望把重点放在处理器的效率，而不是其他指标上。 “DL TOPS 是衡量电源消耗的一个很好的指标，但这也是一个重量、成本和散热的问题，所以我们认为效率是关注的重点。”Davis 说道。 “

Davis 补充道：“我们已经就绝对性能进行过大量的讨论，但是当我们考虑这个问题时，希望可以从更实际的角度出发，考虑到不同类型的工作量。深度学习能够尽可能快速有效地识别对象，并做出决策。“

然而，Nvidia 公司对 Intel 的数据提出了异议，认为 EyeQ5 的测试结果是基于模拟实验，尤其是 SoC 在未来两年之内都不会实际应用。Nvidia 公司汽车高级总监 Danny Shapiro 在一份声明中表示：“我们无法评判一种不存在的产品，尤其是这种直到 2020 年才会面世的产品。但现在，我们了解的是我们去年推出，并将于 2018 年面世的 Xavier，它的性能达到 30 TOPS，比 EyeQ5 经过模拟测试得出的 24 TOPS 性能更高。“

GPU 是否为 AI 而设计？

偶然地，GPU 制造商发现他们掌握着可能处于 AI 革命最前沿的技术。当 GPUs 被当做 CPU 的补充时（许多 CPU 将 GPU 集成到 GPU 中进行图形处理），GPU 已经扩展到以图形和视频为中心的领域之外，进入深度学习领域，GPU 制造商纷纷表示他们的产品性能远优于 CPU。

2018年，AI芯片之战将打响

Nvidia 表示，其 Titan V GPU 是有史以来最强大的 PC 深度学习 GPU。图片来源：Nvidia

虽然市场上有不少 GPU 公司，但没有哪家公司比 Nvidia 作为这个技术的代名词更贴切。根据 Jon Peddie 研究公司的报告，Nvidia 在 2017 年第三季度的 GPU 出货量增长了 29.53％，主要竞争对手 AMD 和 Intel 在这方面均败下阵来。AMD 的出货量增加了 7.63％，而 Intel 的出货量增加了 5.01％。当然，这主要是由于视频游戏市场的推动，但 Jon Peddie Research 的分析师认为，与加密货币挖掘有关的应用程序对高端性能的需求，也对出货量增长做出贡献。

对于高性能任务处理器（如加密货币挖掘和 AI 应用程序）的需求，将 GPU 推向了 AI 硬件的最前沿。GPU 包含数百个可同时执行数千个软件线程的内核，而且比 CPU 更节能。CPU 比较泛化，且更具有跳跃性，可以执行很多任务，并擅长对大批量数据进行重复操作。GPU 之所以被称为 GPU，就是因为这一关键区别，它更擅长处理图形——因为图形处理涉及一次性处理数以千计的小计算。同时，这样的性能也使得 GPU 成为理解上述神经网络训练等任务时的理想选择。

就在今年 12 月，Nvidia 宣布推出了一款专为深度学习而设计的 PC GPU——Titan V。这款 GPU 基于 Nvidia 的 Volta 架构，使用了 Nvidia 称之为 Tensor Cores 的新型核心技术。在数学术语中，张量（tensor）的定义为“与矢量相似，但更泛化的数学对象，用一组空间坐标函数表示。”Nvidia 所做的，是针对处理深度学习和神经网络计算的需求，开发具有复杂架构的内核。

Titan V 包含 210 亿个晶体管，具有 110 浮点运算的深度学习能力，专为从事 AI 和深入学习的开发人员设计。公司创始人兼 CEO Jensen Huang 在新闻发布会上表示，Titan V 是有史以来为个人电脑开发的最强大的 GPU。 “我们对 Volta 的愿景是其能打破高性能计算和人工智能的外部极限，用新的处理器架构、指令、数字格式、内存架构和处理器链接打开了新的局面。通过 Titan V，我们把 Volta 交给了世界各地的研究人员和科学家手中。“

一个张量的世界

也许没有哪家公司比 Google 对张量概念的研究更加深入。2016 年，这家搜索巨头发布了非常流行的深度学习开源框架 TensorFlow。如 Google 所说，“TensorFlow 是一个使用数据流图进行数值计算的开源软件库。图中的节点表示数学运算，而图像边缘表示在它们之间通信的多维数组（张量）。它灵活的体系结构让用户可以使用单个 API 将计算部署到桌面、服务器或移动设备中的一个或多个 CPU 或 GPU。“

2018年，AI芯片之战将打响

Google 的张量处理单元（TPU）运营公司所有基于云的深度学习应用程序，是 AlphaGo AI 的核心。（图片来源：Google）

TensorFlow 的机器学习应用程序库包括面部识别、计算机视觉，当然还有已经被证明非常流行的搜索和其他应用程序，以至于 2016 年 Intel 致力于优化其处理器来运行 TensorFlow。2017 年，谷歌还发布了针对移动和 Android 开发者的精简版 TensorFlow。

但 Google 关于 AI 的目标不会止于软件。2016 年，该公司发布了第一代被称为张量处理单元（TPU）的新处理器。Google 的 TPU 是专为机器学习和 TensorFlow 而量身定制的 ASIC。2017 年 5 月，Google 发布第二代 TPU，并称其性能高达 180 teraflops。

2017 年 6 月，在加拿大多伦多举行的第 44 届计算机体系结构国际研讨会（ISCA）上，Google 发布了一项研究报告，将其部署在数据中心的 TPU 与 Intel Haswell CPU，以及部署在同一数据中心的 Nvidia K80 GPU 进行了比较，结果发现，TPU 比 GPU 和 CPU 运行速度平均快 15 到 30 倍。TPU 的 TOPS per watt 也比后两者高约 30 到 80 倍。Google 表示，现在，TPU 已经用于该公司所有在线服务，如搜索、街景、Google 相册和 Google 翻译服务中。

在一份详细介绍谷歌 TPU 的论文中，Google 的工程师们说，早在六年前，当 Google 发现其将深度学习融入越来越多的产品时，市场对于 TPU 的需求就出现了。 “如果人们每天只使用三分钟 Google 语音搜索，使用我们现在用来处理语音识别系统的深度神经网络处理器，那么我们必须将 Google 的数据中心扩大两倍！“Google 工程师写道。

Google 的工程师在设计 TPU 时表示，他们采用了所谓的“收缩性设计”。“这种设计之所以被称为“收缩性”，是因为数据通过芯片时的波浪形流动，让人想起心脏泵血的方式。MXU [matrix multiplier unit] 中特殊的收缩阵列对执行矩阵乘法时的功率和面积效率进行了优化，但并不适用于一般计算。它做了一个工程上的折衷：以寄存器、控制和操作的灵活性，换取更高的效率和操作密度。“

在一些非常高端的 AI 应用中，TPU 也已经证明了其价值。TPU 是谷歌著名的 AlphaGo AI 背后的“大脑”，AlphaGo AI 去年击败了围棋世界冠军，而最近，AlphaGo 通过证明其能够在相对较短的时间内，通过自学成为围棋大师，从而实现了人工智能领域的巨大的飞跃。经过短短几个月的训练，AlphaGo 的最新版本 AlphaGo Zero 的能力就远远超过人类专家。而战胜国际象棋（一个复杂的游戏，但是比 Go 计算量小得多）专家，也就是几个小时的事情。

FPGA——AI 竞赛中的一匹黑马

如此看来，TPU 就是 AI 的未来，是这样吗？事实上可能没那么快。虽然 Nvidia、Google 以及 Intel 在某种程度上都专注于为 AI 服务，但其芯片提供的服务处理过程均发生在设备上，而不是云端。微软声称，其 FPGAs 云端人工智能服务的性能与 Nvidia、Google 以及 Intel 相当，甚至更优。微软认为，这款代号为 Project Brainwave，基于 FPGA 的云端解决方案，在可扩展性和灵活性方面将优于 CPU、GPU 和 TPU。

2018年，AI芯片之战将打响

微软的 Project Brainwave 在使用 Intel Stratix 10 FPGA 运行时，运行速度达 39.5 teraflops，延迟不足 1 毫秒。（图片来源：微软 / 英特尔）

一般来说，基于处理器的解决方案在某种程度上会受到设计上的限制，仅能完成特定的任务。但是，由于 FPGA 具有灵活性和可重编程性，让升级更容易，处理器的性能更高。根据微软的说法，在 Intel Stratix 10 FPGA 上运行时，微软的 Project Brainwave 的运行速度达到 39.5 teraflops，延时不足 1 毫秒。

FPGA 是否能为人工智能提供最佳解决方案，与其他议题一样是值得商榷的事情。微软认为，创造 AI 专用 ASIC 的生产成本太高，而另一些人则认为，FPGA 永远无法完全实现专为 AI 设计的芯片性能。

3 月份举行的 International Symposium on Field Programmable Gate Arrays (ISFPGA) 上，一些 Intel 加速器架构实验室的研究人员发表了一篇论文，称其对处理深度神经网络算法的两代 Intel FPGA（Arria10 和 Stratix 10）和 Nvidia Titan X Pascal （Titan V 处理器）进行了比较。据 Intel 研究人员称：“研究结果显示，在 pruned、Int6 和二值化 DNNs 矩阵乘法运算方面，Stratix 10 FPGA 的性能（TOP / 秒）比 Titan X Pascal 图形处理器的性能分别高 10％、50％、5.4 倍。在 Ternary-ResNet 方面上，Stratix 10 FPGA 比 Titan X Pascal GPU 的性能高 60％，而且性能功耗比高 2.3 倍。这表明，FPGA 可能成为加速下一代 DNN 的首选平台。“

谁戴上皇冠？

在这个特定的时间点，就整体性能而言，很难不争论 GPU 在 AI 芯片上的表现。但是，这并不意味着像 Nvidia 和 AMD 这样的公司应该放下桂冠，相信他们拥有最好的解决方案。像微软这样的竞争对手有维持自身现状的既得利益（微软的数据中心都是基于 FPGA 的），并将 AI 消费者转向他们的观点。

更重要的是，出现在最顶级的公司可能不是那些硬件最好的硬件，而是最好的硬件。虽然自动驾驶汽车正在成为将 AI 分解为更广泛的公众意识的杀手级应用程序，但现在确定还为时过早。这可能是机器人，制造业，甚至娱乐领域的进步，真正推动 AI 的发展。而这并不是为了贬低甚至还没有被报道或开发的新兴应用。

当烟雾清除时，它可能不是一家公司，甚至是一家主宰 AI 景观的处理器。我们可以看到一个未来从 AI 硬件的一刀切式的方法转向，并且看到硬件因应用程序而异的更加分裂的市场。时间会告诉我们，但是一旦我们到达那里，我们所有的设备将会变得更加聪明。

关注我们的微信号"AI前线"，后台回复“AI”可获得《AI前线》系列PDF电子书

该文观点仅代表作者本人，36氪系信息发布平台，36氪仅提供信息存储空间服务。

[免责声明]

资讯标题： 2018年，AI芯片之战将打响

资讯来源： 36氪官网