查看原文
其他

顾维灏:DriveGPT让通用感知实现“万物识别”、通用认知具备“世界知识”

毫末智行 2024-02-26


“未来的自动驾驶系统一定是跟人类驾驶员一样,不但具备对三维空间的精确感知测量能力,而且能够像人类一样理解万物之间的联系、事件发生的逻辑和背后的常识,并且能基于这些人类社会的经验来做出更好的驾驶策略,真正实现完全无人驾驶。”


随着汽车智能化趋势加速,我国智能驾驶赛道迎来爆发。当前高阶智驾产品正经历从高速场景到城市场景落地的比拼,而城市辅助驾驶被认为是迈向真正自动驾驶的最后一个挑战。毫末认为,决定这场智能驾驶产品跃迁的关键,是自动驾驶 AI 算法在开发模式和技术框架的颠覆性变革,而 AI 大模型则成为引领这场技术变革的核心变量。


10月11日第九届 HAOMO AI DAY 上,顾维灏发表了主题为《自动驾驶3.0时代:大模型将重塑汽车智能化的技术路线》的演讲,分享了毫末对于自动驾驶3.0时代 AI 开发模式和技术架构变革的思考,同时也公布了毫末 DriveGPT 大模型的最新进展和实践。


截至目前,毫末 DriveGPT 雪湖·海若已累计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶 4D Clips 数据;在通用感知上,进一步升级引入多模态大模型,获得识别万物的能力;与 NeRF 技术进一步整合,渲染重建 4D 空间;在通用认知上,借助 LLM(大语言模型),让自动驾驶认知决策具备世界知识,能够做出更好的驾驶策略。


图|毫末 CEO 顾维灏:DriveGPT 通用感知与通用认知能力全面升级

毫末 CEO 顾维灏提出:“在大数据、大模型、大算力的自动驾驶3.0时代,自动驾驶技术框架也会发生颠覆性的变化。在感知阶段,通过海量的数据训练感知基础模型,学习并认识客观世界的各种物体;在认知阶段,则通过海量司机的驾驶行为数据,学习驾驶常识,通过数据驱动的方式不断迭代并提升整个系统的能力水平。毫末一直以数据驱动的方式来推动自动驾驶产品的升级,为进入自动驾驶3.0时代做准备。”




顾维灏认为,与2.0时代相比,自动驾驶3.0时代的开发模式将发生颠覆性的变革。在自动驾驶2.0时代,以小数据、小模型为特征,以 Case 任务驱动为开发模式。而自动驾驶3.0时代,以大数据、大模型为特征,以数据驱动为开发模式。


图|毫末提出自动驾驶3.0时代的技术架构演进趋势


相比 2.0 时代主要采用传统模块化框架,3.0 时代的技术框架也发生了颠覆性变化:

  • 首先,自动驾驶会在云端实现感知大模型和认知大模型的能力突破,并将车端各类小模型逐步统一为感知模型和认知模型,同时将控制模块也 AI 模型化;
  • 其次,车端智驾系统的演进路线也是一方面会逐步全链路模型化,另一方面会逐步大模型化,即小模型逐渐统一到大模型内;
  • 第三,云端大模型也可以通过剪枝、蒸馏等方式逐步提升车端的感知能力,在通讯环境比较好的地方,大模型甚至可以通过车云协同的方式实现远程控车;
  • 最后,在未来,车端、云端都会是端到端的自动驾驶大模型。


毫末 DriveGPT 大模型正是按照3.0时代的技术框架要求进行升级。在通用感知能力提升上,DriveGPT 通过引入多模态大模型,实现文、图、视频多模态信息的整合,获得识别万物的能力;同时,通过与 NeRF 技术整合,DriveGPT 实现更强的 4D 空间重建能力,获得对三维空间和时序的全面建模能力;在通用认知能力提升上,DriveGPT 借助大语言模型,将世界知识引入到驾驶策略,从而做出更好的驾驶决策优化。



具体来讲,在感知阶段,DriveGPT 首先通过构建视觉感知大模型来实现对真实物理世界的学习,将真实世界建模到三维空间,再加上时序形成 4D 向量空间;然后,在构建对真实物理世界的 4D 感知基础上,毫末进一步引入开源的图文多模态大模型,构建更为通用的语义感知大模型,实现文、图、视频多模态信息的整合,从而完成 4D 向量空间到语义空间的对齐,实现跟人类一样的“识别万物”的能力。


图|毫末 DriveGPT 通用感知大模型:让自动驾驶认识万物


毫末通用感知能力的进化升级包含两个方面:

  • 首先是视觉大模型的 CV Backbone 的持续进化,当前基于大规模数据的自监督学习训练范式,采用 Transformer 大模型架构,实现视频生成的方式来进行训练,构建包含三维的几何结构、图片纹理、时序信息等信息的 4D 表征空间,实现对全面的物理世界的感知和预测。


  • 其次是构建起更基础的通用语义感知大模型,在视觉大模型基础上,引入图文多模态模型来提升感知效果,图文多模态模型可以对齐自然语言信息和图片的视觉信息,在自动驾驶场景中就可以对齐视觉和语言的特征空间,从而具备识别万物的能力,由此可以更好地完成目标检测、目标跟踪、深度预测等各类任务。


在认知阶段,基于通用语义感知大模型提供的“万物识别”能力,DriveGPT 通过构建驾驶语言(Drive Language)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,并借助外部大语言模型 LLM 的海量知识来辅助给出驾驶决策。


图|毫末 DriveGPT 认知大模型:让自动驾驶具备常识


由于大语言模型已经学习到并压缩了人类社会的全部知识,因而也就包含了驾驶相关的知识。毫末经过对大语言模型的专门训练和微调,从而让大语言模型更好地适配自动驾驶任务,使得大语言模型能真正看懂驾驶环境、解释驾驶行为、做出驾驶决策。


认知大模型通过与大语言模型结合,使得自动驾驶认知决策获得了人类社会的常识和推理能力,也就是获得了世界知识,从而提升自动驾驶策略的可解释性和泛化性。


顾维灏表示:“未来的自动驾驶系统一定是跟人类驾驶员一样,不但具备对三维空间的精确感知测量能力,而且能够像人类一样理解万物之间的联系、事件发生的逻辑和背后的常识,并且能基于这些人类社会的经验来做出更好的驾驶策略,真正实现完全无人驾驶。”




在毫末 DriveGPT 大模型的最新开发模式和技术框架基础上,顾维灏同时分享了自动驾驶大模型的七大应用实践,包括驾驶场景理解、驾驶场景标注、驾驶场景生成、驾驶场景迁移、驾驶行为解释、驾驶环境预测和车端模型开发。


图|毫末 DriveGPT 应用的七大实践


顾维灏表示:“毫末 DriveGPT 大模型的应用,在自动驾驶系统开发过程中带来了巨大技术提升,使得毫末的自动驾驶系统开发彻底进入了全新模式,新开发模式和技术架构将大大加速汽车智能化的进化进程。”


图|驾驶场景理解:开集语义图像检索


原有自动驾驶技术方案在解决 Corner case 时,都需要先收集一批与此 case 相关的数据,然后以标签加人工的方式进行数据标注,即先对图片打上标签,然后用标签做粗筛选、再人工细筛选,成本非常高、效率非常低。

现在,毫末采用通用感知大模型,可以利用图文多模态模型对海量采集图片进行目标级别和全图级别的特征提取,变成图片表征向量,并对这些海量的向量数据建立向量数据库,可以从百亿级别的向量数据库中找到任意文本对应的驾驶场景数据,实现秒级搜索。


基于这一能力,毫末还构建了专有的自动驾驶场景多模态数据集,训练了毫末的图文多模态模型,来对如鱼骨线、双黄实线车道线等理解难度较大的驾驶环境特有场景进行专门训练和学习。


图|驾驶场景标注:zeroShot 自动标注


原有的自动驾驶感知算法,仅仅能识别人工标注过的有限个品类的物体,一般也就几十类,这些品类之外的物体都无法识别,通常称之为闭集(Closed-set)数据。

毫末通过图文多模态大模型将原有仅识别少数交通元素的闭集场景标注,升级为开集(Open-set)场景中进行 ZeroShot 的自动标注,从而应对千变万化的真实世界的各类驾驶场景,实现对任意物体既快速又精准的标注。


通过多模态技术对齐图文表征,再利用大语言模型辅助用于提供开放词句的表征能力,最终完成 ZeroShot 的自动标注。通过该方案,毫末不仅实现了针对新品类的 ZeroShot 快速标注,而且精度还非常高,预标注准召达到80%以上。


图|驾驶场景生成:无中生有的可控生成


为应对海量数据中相关困难场景(Hardcase)数据不足的问题,毫末基于 DriveGPT 大模型构建了 AIGC 能力,从而生成平时难以获取的 Hardcase 数据。基于毫末丰富的驾驶数据,训练了驾驶场景的 AIGC 模型,可通过输入标注结果,比如路口、大曲率弯道等车道线,再以这个标注结果为 Prompt 来生成对应的图像。基于这样的可控生成的图像,一方面可以通过标注进行更加精细的位置控制,另一方面也让新生成的数据自带了标注信息,可以直接用于下游任务的训练。


图|驾驶场景迁移:轻松获取全天候驾驶数据


除了基于标注结果的数据生成之外,DriveGPT 还可以进行高效的场景迁移。通过引入文字引导,AIGC 生成能力可以用单个模型实现多目标场景生成。基于毫末的感知大模型,以真实的采集图像作为引导,通过文本语言来描述希望生成的目标场景,可实现清晨、正午、黄昏、夜晚等多时间段光照变换,同时也可把晴天转换为雨天、雪天、雾天等各种极端天气。通过这种方式,能将采集到的一个场景,迁移到该场景的不同时间、不同天气、不同光照等各类新场景下,极大地丰富了训练数据,提高模型在极端场景下的泛化性。


图|驾驶行为解释:让 AI 解释自己的驾驶决策


毫末 DriveGPT 原本对自动驾驶策略解释的做法是引入场景库、并对典型场景用人工标注的方式给出驾驶解释。这次升级则是通过引入大语言模型来对驾驶环境、驾驶决策做出更丰富的解释,相当于让 AI 自己解释自己的驾驶策略。


首先,将感知大模型的结果解码得到当前的感知结果,再结合自车信息和驾驶意图,构造典型的 Drive Prompt(驾驶提示语),将这些 Prompt 输入大语言模型,从而让大语言模型对当前的自动驾驶环境做出解释。

其次,大语言模型也可以对自动驾驶系统所做出的驾驶行为给出合理的解释,例如为什么要加速、为什么要减速、为什么要变道等,让大语言模型能够像驾校教练或者陪练一样,对驾驶行为做出详细的解释。

大语言模型的引入,一方面能解决大模型不可解释的问题,另一方面也能基于这些驾驶解释来进行驾驶决策的优化。




图|驾驶环境预测:更像人类一样预测未来场景


DriveGPT 原来采用生成式预训练的方式,使用海量司机驾驶行为进行预训练,并引入大量司机接管数据作为人类反馈数据进行强化学习,从而基于已有的 BEV 场景来更好地预测生成未来几秒的 BEV 场景。

但是 DriveGPT 需要具备像人类一样对社会常识、社会潜规则的理解,并基于这种潜规则做出更好的预测。因此,除了使用驾驶行为数据,DriveGPT 还需要引入大语言模型,才可以在预测规划中融入人类社会的知识或常识,才能给出更合理的驾驶决策。


顾维灏认为:“我们相信,必须要引入大语言模型,才能让自动驾驶具备常识,而自动驾驶必须具备常识,才能理解人类社会的各种明规则、潜规则,才能跟老司机一样,与各类障碍物进行更好地交互。”


图|车端模型开发新模式:把大模型蒸馏成小模型

大模型训练需要依靠云端的海量数据和超大算力,短期内难以直接部署到车端芯片,而如何让大模型的能力帮助车端提升效果,可以采用蒸馏的方式。

第一种蒸馏方法是使用大模型来输出各类伪标签,伪标签既可以作为训练语料,来丰富车端小模型的训练数据,也可以作为监督信号,让车端小模型来学习云端大模型的预测结果;

第二种蒸馏方法是通过对齐 Feature Map 的方式,让车端小模型直接学习并对齐云端的 Feature Map,从而提升车端小模型的能力。基于蒸馏的方式,可以让车端的感知效果提升5个百分点。


毫末利用视觉感知模型,使用鱼眼相机可以识别墙、柱子、车辆等各类型的边界轮廓,形成360度的全视野动态感知,可以做到在 15m 范围内达到 30cm 的测量精度,2m 内精度可以高于 10cm。这样的精度可实现用视觉取代 USS 超声波雷达,从而进一步降低整体智驾方案成本。


图|毫末纯视觉泊车


基于 DriveGPT 通用感知的万物识别能力,毫末对交通场景全要素识别也有了较大提升,从原有感知模型只能识别少数几类障碍物和车道线,到现在可以识别各类交通标志、地面箭头、甚至井盖等交通场景的全要素数据。大量高质量的道路场景全要素标注数据,可以有效帮助毫末重感知的车端感知模型实现效果提升,助力城市 NOH 加速进城。


图|毫末城市 NOH 感知全要素识别


基于 DriveGPT 的通用语义感知模型能力对通用障碍物的开集场景标注,可实现对道路上小目标障碍物的有效检测。毫末在当前城市 NOH 的测试中,面对城市道路场景,在时速最高70公里的状态下,可以对50米距离外、大概高度为 35cm 的小目标障碍物进行有效检测,并做到100%的成功绕障或刹停,对道路上穿行的小动物等移动障碍物起到了很好的检测保护作用。



历届 HAOMO AI DAY 的核心主题都是聚焦最硬核的自动驾驶 AI 技术,这次更是专门聚焦 AI 大模型对于自动驾驶技术的赋能,提出了探索端到端自动驾驶技术路线的一种新可能。


正如顾维灏在结尾说道:“毫末即将成立四周年,一约既定,万山无阻。毫末人将继续用 AI 连接更广阔的世界,用技术叩问更浩远的未来。” HAOMO AI DAY 成为中国自动驾驶技术的一面旗帜,同时也正在成为毫末向年轻的 AI 人才发出邀请的最好的一扇窗口。





继续滑动看下一个

顾维灏:DriveGPT让通用感知实现“万物识别”、通用认知具备“世界知识”

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存