编者按:本文来自微信公众号“新智元”(ID:AI_era),作者 克雷格、金磊、小芹。36氪经授权转载。
GTC十年,英伟达开了一场“三无”发布会。
无新架构,无新GPU,无新战略。
不过,这并不意味着英伟达CEO黄仁勋没有对未来的思考。发布会上,英伟达将所有加速计算库绑定到一个单一的品牌:CUDA-X AI库;推出用于数据科学的“数据科学家工作站”;还发布了99美元的人工智能计算机Jetson Nano。
尽管发布会没有出现外界期待的新架构,黄仁勋也没有发布7纳米GPU,但是整场发布会透露的关键词正成为目前英伟达最重要、最急需的事情:新生态。
黄仁勋认为生态系统是GPU计算成功的关键,这种新生态系统需要几个关键词:
Programmable(可编程)
Acceleration(加速)
Domains(域)
Architecture(架构)
以下是黄仁勋的演讲。
黄仁勋的整场演讲分三个章节:计算机图形、AI和HPC、机器人。
在第一章之前,黄仁勋首先推出CUDA-X AI,这是加速数据科学的唯一端到端平台。
CUDA-X AI能够将机器学习和数据科学工作负载加速多达50倍,由十几个专用加速库组成。
这些库包括用于加速深度学习的cuDNN、用于加速数据科学工作流和机器学习算法的cuML、用于优化经过训练的推理模型的TensorR、用于访问数据科学API的cuDF、用于在graph上执行高性能分析的cuGraph,以及其他13个库。
此外,软件加速库集成到所有深度学习框架中,包括TensorFlow,PyTorch和MXNet。
接下来正式进入第一章计算机图形主题,黄仁勋不出所料的对英伟达的显卡特效又大秀了一番。
现在实时播放Unity上运行的部分视频,实时并不能提供足够的空间分辨率。Unity的实验包将于4月4日推出。
Unity增加了对Nvidia光线跟踪技术的预览支持,以推动游戏的真实性。
下图的车灯照片,左右两张几乎一模一样,你觉得哪张是假的呢?
答案是:右边的车灯是假的。
黄仁勋说,这种逼真效果得益于英伟达图灵RTX架构,画面是实时渲染的。
Epic Games已经宣布了Unreal Engine 4.22对英伟达RTX光线追踪的支持,Unity也只是时间问题,但现在这项技术正式进入了Unity的高清渲染管道(HDRP)预览版。
这项技术的重点在于游戏如何更逼真地呈现照明,显示光线如何与大气及其撞击物体的相互作用。这种技术已经在其他地方使用过,但所有这些都可能是资源密集型的,这使得过去几年的进步将其作为一个实时系统如此引人瞩目。
在演讲了一个小时之后,黄仁勋终于开讲第二章:AI和HPC。这部分主要由DGX和HGX组成。
数据科学是当今计算机科学领域不断增长的领域,所有关于从数据中学习并从中做出预测的方法形成了AI。英伟达对待AI有了新的态度和行为:重新梳理数据科学领域和所有机器学习工具,从Hadoop到Spart再到TensorFlow。
英伟达拥有实现AI所有步骤和工具的库,即黄仁勋之前强调的CUDA-X AI库,而黄仁勋也在思考,如何把当前的这么庞大的生态系统以及硬件和软件结合在一起。做法有二:
Tensor Cores Mixed Precision.已经添加到TensorFlow、PyTorch和MXNet中;
NVIDIA RAPIDS与Databricks的分析平台集成。
目前,谷歌云和微软云也添到RAPIDS中,TensorRT也已集成到Microsoft Onyx中。
除了集成和结合之外,英伟达还推出一款新的AI工具包,称之为Clara,其核心是一系列预先训练过的模型。
Clara是一个开放、可扩展的计算平台,包含13个最先进的分类和分割AI的工具包,以及为放射科医生构建的软件工具,能够让开发人员将医疗成像应用程序构建和部署到混合(嵌入式、内部部署或云)计算环境中,以创建智能仪器和自动化医疗保健工作流程。
有了这些工具,英伟达在数据科学领域不断突破。黄仁勋说,仅去年一年,英伟达的深度学习研究所通过各种形式培训了10万名数据科学家,基于此,英伟达决定为数据科学家提供一个定制的工作站。
这个工作站核心是GPU和CUDA-X AI库,主打高性能计算和高速I/O。
黄仁勋认为,数据科学是新的HPC,超算和超大规模集群的区别在于,超算实际上做了很少的任务,而超大规模集群都是关于容量的,但是做了很多小工作。两者需要不同的系统/集群架构。
而数据科学处于两者中间位置,数据科学的任务比超大规模集群的任务更重,但比更少;比超级计算机更广泛,这就是英伟达的DGX-2设备现在适用的地方。
在发布会现场,不久前被英伟达以69亿美元收购的Mellanox公司CEO也上台,阐述为什么Mellanox愿意卖身英伟达,以及他们如何看待网络成为数据中心计算基础设施的一部分。
英伟达的计算平台和Mellanox的互联网连接了全球250多台TOP500超级计算机,并为每个主要的云服务提供商和计算机制造商提供服务。而随着摩尔定律的结束,CPU性能的提升正在放缓,这导致大家会采用英伟达GPU和Mellanox智能网络解决方案加速计算。
满足这种需求将需要整体架构,通过智能网络结构连接大量快速计算节点,形成一个巨大的数据中心规模的计算引擎。
两个小巨人联手,英特尔在HPC领域的日子会难过吗?
黄仁勋演讲的第三章:机器人。为什么要为机器人提供边缘算力?黄仁勋说,复杂的人工智能通常不适合自制设备,因为微型计算机很少能处理除了基本功能之外的东西。
因此,英伟达推出了入门级人工智能计算机Jetson Nano。
英伟达声称,Nano的128核基于maxwell的GPU和四核ARM A57处理器可以为神经网络、高分辨率传感器和其他机器人功能提供472GFLOPS的处理能力,同时只消耗很少的5W。
Jetson Nano关键特性:
GPU: 128-core NVIDIA Maxwell™ architecture-based GPU
CPU: Quad-core ARM® A57
视频: 4K @ 30 fps (H.264/H.265) / 4K @ 60 fps (H.264/H.265) 编码&解码
摄像头: MIPI CSI-2 DPHY lanes, 12x (Module) and 1x (Developer Kit)
内存: 4 GB 64-bit LPDDR4; 25.6 gigabytes/second
Connectivity: Gigabit Ethernet
OS 支持: Linux for Tegra®
Module Size: 70mm x 45mm
Developer Kit Size: 100mm x 80mm
该套件可以直接运行Linux,并支持大量的AI框架(当然包括NVIDIA自己的框架)。 它配备了4GB的RAM,千兆以太网以及相机和其他附件所需的I/O。
虽然Nano的功能远不如高端的Jetson强大,但目前个人版售价仅为99美元,面向企业的“production-ready”版售价为129美元。
黄仁勋在GTC大会上推出了NVIDIA DRIVE Constellation仿真平台。
DRIVE Constellation是一个数据中心解决方案,包括两个并排服务器:
第一台服务器——DRIVE Constellation Simulator,从虚拟汽车生成传感器输出;
第二台服务器——DRIVE Constellation Vehicle,包含DRIVE AGX Pegasus AI车载电脑。
DRIVE AGX Pegasus接收传感器数据、做出决定,然后将车辆控制命令发送回模拟器。这种闭环过程可实现位精确,定时精确的硬件在环测试。
这个验证过程是实时运行的,可以按比例执行,多个单元并行运行各种测试。
有了这样的效率水平,DRIVE Constellation可以实现大量的驾驶体验——3000个单元每年可以行驶超过10亿英里。更重要的是,DRIVE Constellation中的每一英里都包含有趣的事件——包括罕见或危险的场景。
黄仁勋演示了DRIVE Constellation平台如何执行驾驶测试并在无缝工作流程中提供结果。
DRIVE Constellation用户可以通过云远程访问任何平台。 开发人员可以提交一个特定的模拟场景——例如,在潮湿的道路上雾蒙蒙的夜晚,一辆自动驾驶汽车对另一辆汽车在交通繁忙时切入车道作出反应。
为了确定AV的性能,开发人员可以设置特定的评估程序,例如碰撞时间、跟随距离和乘客舒适度,在运行时查看测试,并可视化结果。
具有特定变化的相同测试可突出极端和危险条件 - 如密集交通,恶劣天气和低能见度 - 可以并行运行。 这种大规模的验证功能就像运行大量的测试车辆虚拟车队,在很短的时间内完成数月或数年的测试。
DRIVE Constellation是一个开放的平台,这意味着它提供了一个编程接口,允许DRIVE Sim生态系统的合作伙伴集成他们的环境模型、车辆模型、传感器模型和交通场景。通过合并各种合作伙伴,平台可以生成全面、多样和复杂的测试环境。
由以色列仿真公司Cognata开发的详细流量和场景模型由DRIVE Constellation平台提供支持。 该公司使用世界各地的交通摄像头捕获的真实数据来创建准确的大规模交通模型。
利用Cognata的流量模型,开发人员可以根据实际流量数据定义其他车辆和道路使用者的数量及其行为。
汽车仿真公司IPG Automotive也与DRIVE Constellation合作,提供高保真车型。 它使开发人员能够准确地模拟车辆对各种DRIVE Sim命令的反应,例如转向、制动和油门以及各种道路状况。
为了准确模拟从摄像头,雷达或激光雷达传感器收集的数据如何送入车辆,DRIVE Constellation还可以支持传感器模型,如摄像头,激光雷达和雷达。 安森美半导体是半导体和传感器供应商,正与DRIVE Constellation合作,提供高精度的相机型号。
同时,开放平台也是第三方和监管自主车辆标准的关键组成部分。
自从去年10月英伟达股价腰斩之后,就从AI芯片王座之上跌落,外界对于英伟达依赖游戏、挖矿等业务不看好,而英伟达在本月收购Mellanox,似乎也给外界回应:转型路线图浮出水面。
黄仁勋在收购Mellanox的新闻稿中说,“数据中心比以往任何时候都重要”。借助Mellanox,英伟达将优化整个计算、网络和存储堆栈中的数据中心规模工作负载,二者联合形成一个巨大的数据中心规模的计算引擎,为各类计算源源不断提供低成本算力。
另一方面,Jetson Nano为机器人和其他人工智能设备提供大脑,在边缘计算中,英伟达也占有一席之地,从而建立起以GPU算力为核心,诸多设备为护城河的生态系统。
至于有没有7纳米GPU、有没有新架构,这不是英伟达最紧急的事情。