大数据文摘作品
作者:钱天培、小鱼
就在刚才,Google宣布TPU测试版对外开放!
9个月前,Google在I/O大会上揭开TPU的神秘面纱。(点击查看大数据文摘相关报道)
当时,仅有极少部分开发者有幸能够一探其究竟。而从今天起,所有开发者都可以在Google Cloud Platform试用云端TPU!
据Google称,每个云端TPU都由四个定制的ASIC构成,每个板卡可以提供高达180 teraflops的浮点性能和64 GB的高带宽内存。作为对比,目前市面上广泛试用的英伟达Tesla P100 GPU性能则为每秒21 teraflops,即便是最新发布的V100也只是刚刚突破100 teraflops的大关。
TPU全称为Tensor Processing Unit。一如其名字所示,这款芯片是专门为加速Google的机器学习开源软件Tensorflow所设计。
不出意料,今天发布的这款TPU实现了与Tensorflow的无缝融合。
几乎无需改动,Tensorflow的代码就可以被TPU加速运行。此外,Google也开源发布了几款图像分类、物体识别和机器翻译的高效模型,包括ResNet-50、Transformer和RetinaNet。只需提供数据,这些模型可以使用TPU在Tensorflow上即刻运行。
Google TPU的对外开放进一步表明,包括Google、Microsoft和Amazon在内的互联网巨头早已摇身一变,成为了硬件大佬。如今Amazon有AWS,Microsoft手握Azure,谷歌此番让TPU和Tensorflow软硬联合,或将突破重围,占据独家地势。
谷歌官方博客的博文内容如下:
Google Photo已经可以通过机器学习把照片根据人物,地点,时间进行分类。一个很方便的新增功能是你可以让谷歌自动把你想要分享的照片发送给你指定的人。比如你可以设置把每一张你所拍摄的你家宝宝的照片自动发送到你老婆的Google Photo照片库里。
今天起,谷歌TPUs beta版在谷歌云平台开源,以帮助机器学习专家更好地训练和运行机器学习模型。
云端TPU是Google设计的硬件加速器系列,为加速、扩展特定的TensorFlow机器学习工作负载而优化。 每个云端TPU都由四个定制的ASIC构成,每个板卡可以提供高达180万次的浮点性能和64GB的高带宽内存。
这些主板可以单独使用,也可以通过超快专用网络连接在一起,形成所谓的“TPU pod”的机器学习超级计算机。今年晚些时候,谷歌将在GCP上供应这种大型超级计算机。
谷歌设计云端TPU的目标,是为TensorFlow工作负载提供更高质优惠的差异性能,并使机器学习工程师和研究人员能够更快地迭代学习。
例如:
无需使用共享计算机群集完成任务,使用者可以通过控制并支持自定义的Google Compute Engine虚拟机,访问连接网络的云端TPU。
与其等上几天或几周来训练业务关键的ML模型,使用者可以在晚上通过Cloud TPU上训练同一模型的一系列变体,并在第二天部署生成的、最精确的训练模型。
使用单个云端TPU并按照本教程,使用者可以在不到一天的时间内将ResNet-50训练到ImageNet水平的预期准确度,而且费用不到200美元!
机器学习模型训练,轻松搞定
Google Photo已经可以通过机器学习把照片根据人物,地点,时间进行分类。一个很方便的新增功能是你可以让谷歌自动把你想要分享的照片发送给你指定的人。比如你可以设置把每一张你所拍摄的你家宝宝的照片自动发送到你老婆的Google Photo照片库里。
过去,为定制ASIC和超级计算机编写程序需要深入的专业知识。 相比之下,使用高级版TensorFlow API可以编程云端TPU,并且,谷歌也开源了一套参考高性能云端TPU模型实现,可以立刻上手:
运行ResNet-50和其他流行的图像分类模型
实现机器翻译和语言建模的变换
利用RetinaNet进行对象检测
为了提高性能,谷歌不断测试这些模型实现的性能和收敛性,以达到标准数据集的预期精度。
随着时间的推移,我们将开放源代码模型实现。 Adventurous ML专家可以使用谷歌提供的文档和工具,自行优化其他云端TPU中的TensorFlow模型。
如果现在开始使用云端TPU,当谷歌在今年晚些时候推出TPU pods时,使用者可以从时间以及精确度的改善中受益。 正如在NIPS 2017上宣布的那样,如果ResNet-50和Transformer训练的好的话,可能要花费一天时间,而现在使用TPU pods训练时间到不到30分钟,而且无需更改代码。
领先的投资管理公司Two Sigma对Cloud TPU的性能和易用性印象深刻。
“我们决定将我们的深度学习研究集中在云端的原因有很多,但主要是为了获得最新的机器学习基础设施,Google 云端TPU技术不仅新颖而且发展迅速,而且支持运行深度学习算法,我们发现将TensorFlow工作负载移至TPU,可大大降低编程新模型的复杂性以及训练它们所需的时间,从而提高了我们的工作效率。使用云端TPU让我们能够专注于构建模型,而不会被管理集群通信模式的复杂性分散注意力 。”——Two Sigma首席技术官Alfred Spector
可扩展的机器学习平台
Google Photo已经可以通过机器学习把照片根据人物,地点,时间进行分类。一个很方便的新增功能是你可以让谷歌自动把你想要分享的照片发送给你指定的人。比如你可以设置把每一张你所拍摄的你家宝宝的照片自动发送到你老婆的Google Photo照片库里。
云端TPU还对规划和管理ML计算资源进行了简化:
使用者可以为自己的团队提供最先进的ML加速,并根据需求动态调整容量。
无需担心设计所需要投入的资本、时间和技术,也无须担心安装和维护在线ML计算集群的专门电源、散热性能、网络链接、存储要求和所需的资金,使用者可以从谷歌多年来大量优化的、大规模紧和密集成的ML基础设施中受益。
再无需让司机费力更新大量的工作站和服务器集群。 云端TPU已经进行了预先配置 - 也无需安装驱动程序!
使用者受到和Google Cloud服务的同样复杂的安全保护机制。
“自从使用Google 云端TPU以来,我们对它们的速度和印象都非常深刻——通常需要几天的时间才能做完的事情,现在可能需要只需要几个小时。 深度学习正迅速成为自动驾驶车辆软件运行的中坚力量。 随着训练数据的不断增加,软件运行结果会变得更好,并且每周都有重大的突破。现在,云端TPU通过整合来自我们车队的最新导航相关数据和研究界最新的算法,帮助自动驾驶行业的迅速发展。”—— Lyft L5 自动驾驶软件主管Anantha Kancherla
在Google Cloud上,我们希望为客户提供每个ML工作负载最适合的云端TPU,并提供各种高性能CPU(包括英特尔Skylake)和GPU(包括NVIDIA Tesla V100)。
Google Photo已经可以通过机器学习把照片根据人物,地点,时间进行分类。一个很方便的新增功能是你可
云端TPU使用指南
现在因为云端TPU的数量有限,谷歌以秒计费,费用为6.50美元/TPU /小时。
原文链接:
https://cloudplatform.googleblog.com/2018/02/Cloud-TPU-machine-learning-accelerators-now-available-in-beta.html