大模型画的饼,自动驾驶能消化么?

AutoReport
+ 关注
2023-07-07 16:08
589次阅读
当模型参数量超过某个临界值之后,它的性能会大大超越预期。

如果要评选2023年最大的风口,AI大模型一定位列其中。

风起自ChatGPT的现象级爆火,英伟达创始人黄仁勋激动地喊出了“AI的iPhone时刻正在到来“。

整个科技圈似乎达成了一种共识:所有产品都值得用大模型重做一遍,当然也包括正处于寒冬之中的自动驾驶。

然后,几乎是一夜之间,整个汽车圈都是GPT上车的消息,长安、集度、吉利、岚图、红旗、长城、东风日产、零跑等搭上了百度的文心一言。

“蔚、小、理“先后申请了GPT的相关商标。其中,理想自研的Mind GPT已经正式发布。另外,毫末智行也在不久前发布了自动驾驶生成式大模型drive GPT。

可以说AI大模型的火热,给正在冷却中的自动驾驶又画了一张新的大饼。

有人表示从中看到了自动驾驶的未来。比如集度汽车创始人夏一平,小鹏汽车董事长何小鹏等,当然也有很多人觉得,GPT上车目前就是个PR行为。

所以,今天来尝试探讨一个问题,大模型之于自动驾驶,到底有什么作用?它能给这个已经烧掉无数金钱但依然成效寥寥的赛道,带来一个相对确定的未来么?

先明确一个定义,大模型是指具有超大参数规模(通常在十亿个以上)和复杂程度的机器学习模型。通常来说,参数量越大,模型就越容易拟合海量数据的规律。

而ChatGPT的出现,让人们有一个非常惊喜的发现。那就是当模型参数量达到了一定程度,超过某个临界值之后,它的性能会大大超越预期。

大模型画的饼,自动驾驶能消化么?

很多科学家惊叹于这一现象,并将其称之为“涌现“。但遗憾的是到目前为止还没有一套系统、公认的理论来解释为什么会出现这个现象。

所以我们姑且相对简单地把这种“涌现“理解为一个从量变到质变的过程。在跨过临界点之后,模型精度呈指数型增加,甚至产生了类似于人类的逻辑思考能力。

而这种能力很可能是自动驾驶算法攻克最后1%长尾场景的关键所在。在数据标注、虚拟仿真环境以及决策规划上,大模型都有可能改变甚至重写过去的算法。

举个例子,低频率但又几乎不可穷尽的Corner Case,正是从高阶辅助驾驶迈向自动驾驶最大的一块绊脚石。

而Corner Case的出现带有极强的不可预知性,毫末智行数据智能科学家贺翔举了一个例子,一辆卡车转运一颗大树,算法看到的可能只有车,而没有伸出车外的树枝。

类似的状况有很多,比如说很特别的大件运输车辆,甚至是违规拉着很长一根管子的三轮车。

面对这些场景,算法只识别的车辆是不够的,但按照现在基于标签的方式来挖掘长尾场景,只能给系统看大量的标注图片,教它学会识别。

不过问题在于,这些车辆出现的频率太低,数据采集的难度大、成本高、周期长,真正碰到这种场景的概率又小,成本上是算不过来的。

但AI大模型具备举一反三的能力,我们可以通过文字的描述来使其检索并对图像进行分类,检索甚至是自主创造我们需要的长尾场景,例如拖着大树的卡车,拉着长水管的三轮车等。

除此之外,大模型也可以更好的从数据中提取特征,进行数据标注。

比如,先用海量未标注数据通过自监督的方式预训练一个大模型,然后用少量已经人工标注好的数据对模型做微调,使得模型具备检测能力,这样模型就可以自动标注需要的数据。

目前,很多公司都在研究如何提高大模型自动标注的精度,希望实现自动标注的完全无人化。

在Mind GPT发布之后,理想汽车董事长李想就表示:“我们一年要做大概1000万帧的自动驾驶图像的人工标定,外包公司价格大概6元到8元钱一张,一年成本接近一亿元。当我们使用大模型,通过训练的方式进行自动化标定,过去需要用一年做的事情基本上3个小时就能完成,效率是人的1000倍。

大模型画的饼,自动驾驶能消化么?

总之,自动驾驶的感知也好,规划决策也好,目前基本上是基于经验和规则的,缺少场景泛化的能力。

但就像夏一平所言,大模型解决的正是泛化的问题,是举一反三的问题,这可能让自动驾驶在未来3-5年内又重大的突破。

因为从根本上来说,生成式AI在语言模型上的应用思路是可以平移到自动驾驶上的。

虽然计算机不懂自然语言,但它通过数学建模,把语言问题变成了数学问题。通过给定文本的历史,预测下一个词出现的概率,间接地理解了自然语言。

换到驾驶场景,如果给定当前的交通环境,给定一个导航地图,以及一个驾驶员驾驶行为的历史,那么,大模型是不是可以预测下一个驾驶动作?

理论上,这是可行的。地平线的创始人余凯认为以AI现在所展现的学习能力,学习司机的驾驶习惯并不难。

“接下来要继续用更大的数据、更大的模型,无监督地去学习人类驾驶的尝试,就像我们从大量无监督的、没有标注的自然文本里去学习一样,构建一个回归自动驾驶的大语言模型。”

大模型为自动驾驶画出来的这张饼,很诱人。但能不能消化其实是另外一回事儿。

“现在说GPT上车都是噱头,车端还没有运转大模型的硬件条件。”贺翔说道。

理论上,大模型需要高规格的硬件配置,包含高性能计算能力、大容量内存和低时延等特点,但车载设备的硬件条件相对有限,无法提供足够的计算资源支撑大模型运行。

举个例子,在自然语言处理领域的 GPT-3 模型就需要数万亿Tops的计算能力。这要求芯片的算力至少要在万级Tops以上才能够胜任大型模型的计算任务。

但是,在车载部署场景下,芯片的算力往往只有数百Tops,远远达不到大型模型的要求。

大模型画的饼,自动驾驶能消化么?

所以,目前自动驾驶大模型也只能暂时运转在云端,例如毫末智行的Drive GPT。

但即便如此,它依然可以对车端产生影响。 比如通过用知识蒸馏的方式“教”车端的小模型。

最简单的方式就是把需要打标签的图片给大模型学习,大模型可以给这些图片打好标签,标注好的图片就可以用于小模型的训练。

所以,大模型对算力的消耗让云计算厂商成为了第一批被风吹起来的玩家。

2023年以来 阿里、美团、腾讯等互联网大厂也都纷纷收缩或者调整了自动驾驶相关的投入,将更多的精力放到了云计算和AI大模型上。

而主机厂这边,自建超算中心也逐渐成为了基本操作。

当然如果大模型只能运转在云端,它对于自动驾驶的影响会小很多。因为从云端到车端,哪怕只是一点点的时延也可能会在公路上造成悲剧。

所以目前地平线、英伟达等芯片企业都在积极研发适应大模型上车需求的新一代高算力AI芯片。

地平线CTO黄畅认为,按照发展进程来看,在自动驾驶场景中,大模型在车端会优先从环境模型的预测和交互式规控和规划开始应用。

“这个场景不需要特别的大规模参数模型,在百Tops级别的算力平台上就能应用, 3~5年内就可以初步上线。”

“但如果从感知到定位地图到规控,整个端到端的闭环做出来,则需要一个更大规模的参数模型,大概需要5~10年的时间。”黄畅补充到。

严格来说,一夜火遍全球的ChatGPT只是AI大模型中的一种。自动驾驶行业对于大模型的运用比ChatGPT的爆火要早很多。

2017年,马斯克从Open AI挖来了了一位计算机视觉领域的顶级研究院Andrej Karpathy。

他在特斯拉工作了五年,最高做到了AI高级总监兼自动驾驶负责人,而这五年也被绝大多数人认为是特斯拉自动驾驶成长最快的五年。

入职后不久,Andrej Karpathy就重写了特斯拉自动驾驶算法,以BEV纯视觉感知+Transformer为基础,将特斯拉的智能驾驶带入了新的阶段。

当下小鹏、华为、毫末智行、理想等企业正在纷纷跟进这一路线。

而所谓Transformer是一种由谷歌8为AI科学家提出的一种深度学习神经网络,GPT中的T正是指代Transformer。

Open AI将Transformer运用于自然语义理解,诞生了ChatGPT;特斯拉将其应用于计算机视觉,成功开创了BEV技术,让纯视觉感知成为了潮流。

大模型画的饼,自动驾驶能消化么?

接下来,Transformer还将被自动驾驶玩家们逐步运用到决策规划等各个环节,改变现有模块化的部署方式,迈向端到端的自动驾驶。

我们现在还无法预知这一切会擦出怎么样的火花,但可以肯定大模型在智能驾驶上还未达到自然语义一般“涌现”的程度。

芯片算力、数据来源以及丰富程度甚至是车辆的散热性能,都还没有准备好迎接大模型的上车。

但至少,改变已经在发生,也许这一次自动驾驶这条路也许就真的通了呢?

本文来自微信公众号“AutoReport 汽车产经”(ID:autoreport),作者:Misfire,36氪经授权发布。

[免责声明]

原文标题: 大模型画的饼,自动驾驶能消化么?

本文由作者原创发布于36氪企服点评;未经许可,禁止转载。

资深作者AutoReport
0
消息通知
咨询入驻
商务合作