无人驾驶为什么不用激光雷达？特斯拉工程师是这样解释的

转载时间：2022.06.05（原文发布时间：2021.07.12）

173

转载作者：36氪企服点评小编

阅读次数：173次

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：利用庞大、分布良好的数据库来让神经网络达到通用深度学习的程度，从而克服因果障碍，这就是特斯拉无人驾驶技术的最终目标。一旦有了通用深度学习，就能淘汰激光摄像头。本文作者是Ben Dickson，原文标题：Tesla AI chief explains why self-driving cars don’t need lidar。

想实现真正的无人驾驶用什么技术呢？企业和研究人员分成两派。第一种选择，用摄像头和计算机视觉技术；第二种选择，用摄像头、激光雷达和计算机视觉技术。特斯拉的无人驾驶技术只用纯粹的计算机视觉技术和摄像头，为什么这样选择？在今年的CVRP（Conference on Computer Vision and Pattern Recognition，计算机视觉和模式识别大会）上，特斯拉首席AI科学家Andrej Karpathy解释了原因。

在演讲中，Karpathy详细谈到公司的策略。特斯拉开发深度学习系统，只需要视频输入就能感知汽车周边环境。他还解释了为什么特斯拉选择的方法是将无人驾驶变成现实的最佳选择。

通用计算机视觉系统

深度神经网络是无人驾驶技术的核心组件。摄像头采集数据，比如道路、标志、障碍物、人等信息，交给神经网络分析。

识别图像中的对象时，深度学习可能会犯错。正因如此，许多无人驾驶公司会选择激光雷达，它将激光射向各方向，为汽车周边环境绘制3D地图。激光雷达能够多提供一层信息，这样神经网络就会更可靠。

增加激光雷达也有问题。Karpathy说：“你必须用激光雷达提前给环境绘图并制作高清地图，你必须获取所有的车道信息，知道它是如何连接的，知道所有的交通灯在哪里。在测试时，你只是指引汽车在地图上行驶，很简单。”

难点在于为每一个地方绘制精准地图。Karpathy说：“无法大规模收集、制作、绘制高清激光雷达地图。要让这样的基础设计保持最新极为困难。”

特斯拉无人驾驶系统没有使用激光雷达和高清地图。Karpathy说：“汽车上发生的一切都基于摄像头，汽车周身有8个摄像头。”

无人驾驶技术必须知道车道线在哪里，交通灯在哪里，交通灯的状态如何。汽车必须在没有预制信息的前提下掌控道路信息。

Karpathy认为以视频视觉为基础的无人驾驶技术更难，因为神经网络只能依靠视频流。Karpathy补充说：“当系统步入正轨，它就变成通用视觉系统，基本上可以在任何地方部署。”

有了通用视觉系统，汽车不再需要复杂的装置。Karpathy认为特斯拉正在朝这一方向迈进。之前特斯拉汽车同时依靠雷达和摄像头，现在出货的汽车抛弃了雷达。

Karpathy说：“我们删除了雷达，这些汽车只有视觉。”他还说特斯拉的深度学习系统已经进化到一定程度，比雷达好几百倍，现在雷达成了制约，只会拖后腿。

监督式学习

很多人并不认同特斯拉的方法，没有激光雷达深度地图，神经网络测距、深度估算会存在不确定性，这是主要的争论点。

Karpathy认为：“人类本身就是靠视觉驾驶汽车前进的，人的神经网络可以处理视觉输入信息，理解周边对象的深度和速度。合成神经网络能像人类神经网络一样运行吗？这是最大的问题。我们认为答案是YES。”

特斯拉工程师想开发一套深度学习系统，它可以侦测对象，获取深度、速度、加速度信息。他们用监督式学习技术应对挑战，也就是说用带注释的数据训练系统，让它可以学着侦测对象，理解相关属性。

为了训练深度学习架构，特斯拉团队需要大量视频数据，而且数据中的对象及其属性都要准确注释。为无人驾驶员汽车制作数据库相当复杂。

Karpathy说：“当你拥有庞大、纯净、多样化数据库，就可以用它训练大型神经网络，从实践结果看，成功是有保障的。”

自动添加标签的数据库

全球已经有几百万辆特斯拉汽车，它们装有摄像头。特斯拉可以收集数据，训练汽车视觉深度学习模型。特斯拉无人驾驶团队已经获取1.5PT数据，它们包括100万段10秒视频，里面有60亿个对象。

要给数据库打上标签是一件很难的事。可以让数据标签公司手动添加标签，也可以通过线上论坛进行。不过这样做需要大量人力，成本比较高，进度也慢。

为了解决这一问题，特斯拉引入自动标签添加技术，它将神经网络、雷达数据、人力评估结合在一起。数据库是离线注释的，神经网络可以来回检视视频，将预测与事实比较，调整参数。

离线添加标签还有一个好处，工程师可以引入强大的计算密集对象侦测网络，它可以部署在汽车上，运行实时低延迟应用。特斯拉还会用雷达传感器数据进一步验证神经网络的注释。所有这一切都能提高标签网络的精准度。

Karpathy说：“如果是离线注释，你可以拥有‘后见之明’优势，整合不同传感器数据时工作起来更顺手。还有，你也可以引入人力，他们可以清理、验证、编辑。”

分层式深度学习结构

修正自动标签系统需要多少人力？Karpathy没有说。但有一点可以确定，在引导自动标签系统向正确方向前进时，人类感知起到了关键作用。

在开发数据库的过程中，特斯拉团队发现200多个触发点，也就意味着在侦测对象时有很多地方要调整。有哪些问题呢？比如，不同摄像头的侦测结果不一致，摄像头和雷达之间的侦测结果不一致。有些场景需要特别关注，比如隧道入口、出口。

为了处理这些触发点，特斯拉团队花了4个月时间。当标签网络进一步优化，越来越好，团队开始部署，用“影子模式”运行，也就是说将系统装进消费版汽车，暗中运行但不会给汽车发送指令。然后团队将网络的输出结果与传统网络、雷达、驾驶员习惯对比。

数据工程迭代7次。最开始团队用初始数据训练神经网络，然后将深度学习应用于“影子模式”，在真车上运行，用触发点侦测不一致、错误、特殊场景。接下来修订错误，如果必要还要往数据库添加新数据。

Karpathy说：“按照这样的流程我们重复一次又一次，直到网络变得超级好。”

由此证明，将半自动标签系统与人力检测结合效果很好，当中神经网络做重复性工作，由人负责高级感知问题和极端情况。

垂直整合

特斯拉是如何用超级计算机训练、微调深度学习模型的呢？Karpathy透露了一些细节。

计算集群由80个节点组成，参数为：720个80GB 8x A100 节点（共5760 个GPU）；1.8 EFLOPS（720节点* 312 TFLOPS-FP16-A100 * 8 gpu/节点）；10 PB“热层”NVME存储@ 1.6 TBps。特斯拉将所有节点连接在一起，如此一来神经网络就能高效完成分布式训练。

特斯拉汽车内也有AI芯片。Karpathy说：“这些芯片专为神经网络设计，我们希望它能运行真正的无人驾驶应用。”

特斯拉最大的优势在于垂直整合。它制造汽车和无人驾驶硬件，可以收集遥测和视频数据，可以用专有数据库开发并训练神经网络，它有内部计算集群，通过影子模式测试网络。当然啦，特斯拉还有专业团队，包括机器学习工程师、研究人员、硬件设计师。

Karpathy说：“在所有层，我们都可以设计并工程化，不会有第三方干扰。命运完全由自己掌控，我觉得这点很了不起。”Karpathy还举了一些例子，证明特斯拉神经网络单靠自己就能击败传统机器学习模型（它们与雷达信息结合）。Karpathy相信，如果系统继续进化，特斯拉可以淘汰激光雷达。其它企业想复制特斯拉的成功很难。

问题

深度学习真的能克服当前无人驾驶存在的所有问题吗？无人知道。的确，对象检测、速度和距离估计在驾驶过程中扮演关键角色，但人类视力还有其它重要功能。

还有，深度学习的因果推理能力并不强，如果遇到新场景，它可能会手足无措。虽然特斯拉已经拥有庞大的多样化数据库，但开放公路的环境相当复杂，新的不可预知事情一直在发生。

将因果和推理植入深度神经网络能解决问题，还是利用庞大、分布良好的数据库来让神经网络达到通用深度学习的程度，从而克服因果障碍，到底哪种方法能成功？AI研究者存在分歧。特斯拉无人驾驶团队的似乎偏向后一种方法。

译者：小兵手

本文来自翻译, 如若转载请注明出处。

[免责声明]

资讯标题：无人驾驶为什么不用激光雷达？特斯拉工程师是这样解释的

资讯来源： 36氪官网

上一篇【前沿科技公开氪 ② 】锤子科技VR项目负责人、经纬投资人都来了，你来不来？