查看原文
其他

金秋HAOMO AI DAY:重磅发布三款千元级无图NOH;DriveGPT具备世界知识可“识别万物”

毫末智行 2024-02-26


金秋飒爽  第九届 HAOMO AI DAY 准时到来🎉🎉这届“自动驾驶 AI 春晚”不负众望用最前沿的 AI 技术奉上最震撼的惊喜速速下划阅读和小编一起沉浸式体验这届惊喜十足、干货拉满、亮点频出的 HAOMO AI DAY!👇👇


<<  左右滑动一览现场盛况  >>


  • 毫末重磅发布三款“极致性价比”千元级无图 NOH,全面满足高中低价位智驾车型量产需求;

  • 毫末发布的行业首个自动驾驶生成式大模型 DriveGPT 雪湖·海若进一步升级引入多模态大模型,获得识别万物的能力;借助 LLM(大语言模型),让自动驾驶认知决策具备了世界知识;

  • 搭载毫末城市 NOH 功能的魏牌蓝山即将在2024年第一季度正式量产上市;

  • 小魔驼即将在2023年第四季度在商超履约配送场景实现盈利;

  • ......


10月11日,北京金秋时节,第九届 HAOMO AI DAY 如期而至。


本届 HAOMO AI DAY 以“BETTER AI,BETTER HAOMO”为主题。毫末重磅发布三款“极致性价比”千元级无图 NOH,全面满足高中低价位智驾车型量产需求。毫末发布的行业首个自动驾驶生成式大模型 DriveGPT 雪湖·海若公布最新成果:共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶 4D Clips 数据;进一步升级引入多模态大模型,获得识别万物的能力;与 NeRF 技术进一步整合,渲染重建 4D 空间;借助 LLM(大语言模型),让自动驾驶认知决策具备了世界知识。产品层面,搭载毫末城市 NOH 功能的魏牌蓝山即将在2024年第一季度正式量产上市;小魔驼即将在2023年第四季度在商超履约配送场景实现盈利。


图|毫末董事长张凯重磅发布三款“极致性价比”千元级 HPilot


成立近四年时间,毫末始终引领中国自动驾驶技术风向标,HAOMO AI DAY 更成为中国自动驾驶技术的一面旗帜。毫末率先在行业布局大模型、大数据、大算力技术发展方向,冲刺自动驾驶3.0时代。


图|毫末 CEO 顾维灏公布 DriveGPT 发布200天重要成果


图|毫末董事长张凯(左二)、CEO 顾维灏(右二)、COO 侯军(左一)、首席交付官甄龙豹(右一)在 HAOMO AI DAY 现场


“2023年我国高阶智能辅助驾驶市场迎来大爆发。”活动现场,张凯以《BETTER AI,BETTER HAOMO》为主题,分享了对2023年智驾市场竞争局势的判断,以及毫末四大战役的最新进展。


图|张凯介绍2023年中国高阶智能辅助驾驶市场迎来大爆发


张凯介绍,目前乘用车销量和智能化指数都在稳步提升,智能驾驶渗透率与价格却呈反向增长,乘用车市场 L2 及以上智能驾驶渗透率达42.4%,2025年将达70%,并普及到10-20万的主销车型上;城市 NOA 迎来量产上车潮,目前占 L2 及以上辅助驾驶份额的17%,2025年将达70%;行泊分体的硬件设计、一体机逐步退出市场,更具性价比的行泊一体域控方案将成为主流。


为了迎战智驾市场的变化,现场,毫末重磅发布了 HP170、HP370、HP570 三款“极致性价比”智能辅助驾驶产品,预计将在2023年和2024年先后上车。


图|毫末重磅发布三款千元级 HPilot 产品


张凯表示:“毫末全新发布的第二代 HPilot 乘用车辅助驾驶三款产品,价格打下来的同时性能都打了上去,让中阶智驾便宜更好用,让高阶智驾好用更便宜。”这也是2023年,毫末给中国如此“卷”的智驾市场交出的答卷。



  • 毫末 HP170 是3000元级“极致性价比”的高速无图 NOH,可以实现行泊一体智驾。硬件配置上,算力5TOPS,传感器方案标配1个前视相机、4个鱼眼相机、2个后角雷达、12个超声波雷达,灵活选装1个前视雷达和2个前角雷达。场景上,可实现高速、城市快速路上的无图 NOH,以及短距离记忆泊车等功能,并获 E-NCAP 5星 AEB 的高安全标准认证。


图|毫末 HP170


  • 毫末 HP370 是5000元级“极致性价比”的城市记忆行车与记忆泊车产品,可以实现行泊一体智驾。硬件配置上,算力32TOPS,传感器方案标配2个前视相机、2个侧视相机、1个后视相机、4个鱼眼相机、1个前雷达、2个后角雷达、12个超声波雷达,灵活选装2个前角雷达。场景上,可实现高速、城快,以及城市内的记忆行车,实现免教学记忆泊车、智能绕障等功能。张凯表示:“毫末的记忆行车可看作毫末城市 NOH 的最小集,是城市 NOH 的强有力补充。”


图|毫末 HP370


  • 毫末 HP570 是8000元级“极致性价比”的城市全场景无图 NOH 产品,未来将在100+城落地。硬件配置上,算力可选 72TOPS 和 100TOPS 两款芯片,传感器方案标配2个前视相机、4个侧视相机、1个后视相机、4个鱼眼相机、1个前雷达、12个超声波雷达,还支持选配1颗激光雷达。场景上,可实现城市无图 NOH、全场景辅助泊车、全场景智能绕障、跨层免教学记忆泊车等功能。张凯强调:“HP570 平台的历史使命是打造行业内最具性价比的高阶城市智驾产品。”


图|毫末 HP570


发布新产品的同时,张凯介绍了毫末2023年四大战役的最新成果。



  • 首先是“智能驾驶装机量王者之战”,在中国的自动驾驶公司中,毫末稳居中国量产自动驾驶第一名,辅助驾驶产品 HPilot 整体已搭载至超过20款车型,用户辅助驾驶行驶里程突破8700万公里。其中,最新搭载毫末 HPilot 的车型为山海炮 HEV 版、新摩卡 Hi-4S 等。


图|毫末 HPilot 整体已搭载超过20款车型


  • 其次是“MANA 大模型巅峰之战”,DriveGPT 发布200天左右的时间里,已累积480万段 Clips 高质量测试。目前已有生态伙伴17家,助力生态伙伴提效90%。2023年,DriveGPT 成功入选“北京市首批人工智能10个行业大模型应用案例”,毫末入选“北京市通用人工智能产业创新伙伴计划”,成为首批模型伙伴观察员。此外,DriveGPT 还助力毫末荣获2023中国 AI 基础大模型创新企业的称号。


图|DriveGPT 发布200天的蝶变生长


  • 第三是“城市 NOH 百城大战”, 具备城市 NOH 导航辅助驾驶功能的毫末 HP550(原HPilot3.0),将搭载魏牌蓝山在2024年第一季度正式量产上市。现场,张凯和顾维灏首次公开搭载 HP550 城市 NOH 的魏牌蓝山路测视频,在保定闹市区全程12公里的行驶中,历时35分钟,手动接管3次。其中包含21个红绿灯,7个路口转向……重感知路线的毫末城市 NOH 展现出出色性能,尤其是面对拥堵道路、红绿灯交替以及非机混行等复杂场景时,处理得非常自然,产品力行业领先。


图|HP550 将搭载魏牌蓝山在2024年第一季度正式量产上市


  • 最后是“末端物流自动配送商业之战”,末端物流自动配送车小魔驼3.0,售价89999元,是全球首款9万元内中型末端物流自动配送车,可以满足物流、商超、零售等9大场景的需求,小魔驼3.0产品的推出在中国无人车规模化商用的行业进程中具有里程碑式的意义。目前,小魔驼已配送超过22万单,并即将于2023年第四季度在商超履约配送场景实现盈利。从商业意义上,毫末具备了成为全球范围内首家拥有规模化盈利 L4 业务公司的能力。




演讲中,张凯还介绍到毫末总部已落户北京市顺义区,毫末将充分发挥在自动驾驶领域的技术和产业优势,助力顺义打造中国新能源智能汽车产业高地。


图|毫末总部落户北京市顺义区



历届 HAOMO AI DAY 的核心主题都是聚焦最硬核的自动驾驶 AI 技术。此次,顾维灏带来了主题为《自动驾驶3.0时代:大模型将重塑汽车智能化的技术路线》的演讲,分享了毫末对于自动驾驶3.0时代 AI 开发模式的思考以及毫末 DriveGPT 大模型的最新进展和实践。



顾维灏认为,自动驾驶3.0时代与2.0时代相比,其开发模式和技术框架都将发生颠覆性的变革。在自动驾驶2.0时代,以小数据、小模型为特征,以 Case 任务驱动为开发模式。而自动驾驶3.0时代,以大数据、大模型为特征,以数据驱动为开发模式。


图|毫末提出的自动驾驶3.0时代的技术架构演进趋势


相比2.0时代主要采用传统模块化框架,3.0时代的技术框架会发生颠覆性变化。首先,自动驾驶会在云端实现感知大模型和认知大模型的能力突破,并将车端各类小模型逐步统一为感知模型和认知模型,同时将控制模块也 AI 模型化。随后,车端智驾系统的演进路线也是一方面会逐步全链路模型化,另一方面会逐步大模型化,即小模型逐渐统一到大模型内。然后,云端大模型也可以通过剪枝、蒸馏等方式逐步提升车端的感知能力,在通讯环境比较好的地方,大模型甚至可以通过车云协同的方式实现远程控车。最后,在未来,车端、云端都会是端到端的自动驾驶大模型。


顾维灏还详细介绍了毫末 DriveGPT 大模型在推出200天后的整体进展。


  • 首先是 DriveGPT 训练数据规模的提升。截至2023年10月,DriveGPT 雪湖·海若共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶 4D Clips 数据;


  • 其次是 DriveGPT 通用感知能力的提升。DriveGPT 通过引入多模态大模型,实现文、图、视频多模态信息的整合,获得识别万物的能力;同时,通过与 NeRF 技术整合, DriveGPT 实现更强的 4D 空间重建能力,获得对三维空间和时序的全面建模能力;


  • 最后是 DriveGPT 通用认知能力的提升。借助大语言模型,DriveGPT 将世界知识引入到驾驶策略中。


顾维灏认为,未来的自动驾驶系统一定是跟人类驾驶员一样,不但具备对三维空间的精确感知测量能力,而且能够像人类一样理解万物之间的联系、事件发生的逻辑和背后的常识,并且能基于这些人类社会的经验来做出更好的驾驶决策,真正实现完全无人驾驶。


毫末 DriveGPT 是如何具备识别万物的通用感知能力,以及拥有世界知识的通用认知能力的?顾维灏也给出了详尽解释。


图|毫末 DriveGPT 升级:大模型让自动驾驶拥有世界知识


在感知阶段,DriveGPT 首先通过构建视觉感知大模型来实现对真实物理世界的学习,将真实世界建模到三维空间,再加上时序形成 4D 向量空间;然后,在构建对真实物理世界的 4D 感知的基础上,毫末进一步引入开源的图文多模态大模型,构建更为通用的语义感知大模型,实现文、图、视频多模态信息的整合,从而完成 4D 向量空间到语义空间的对齐,实现跟人类一样的“识别万物”的能力。



毫末通用感知能力的进化升级包含两个方面。


  • 首先是视觉大模型的 CV Backbone 持续进化,当前基于大规模数据的自监督学习训练范式,采用 Transformer 大模型架构,实现视频生成的方式来进行训练,构建包含三维的几何结构、图片纹理、时序信息等信息的 4D 表征空间,实现对物理世界的全面感知和预测。


  • 其次是构建起更基础的通用语义感知大模型,在视觉大模型基础上引入图文多模态模型来提升感知效果,图文多模态模型可以对齐自然语言信息和图片的视觉信息,在自动驾驶场景中就可以对齐视觉和语言的特征空间,从而具备识别万物的能力,也由此可以更好地完成目标检测、目标跟踪、深度预测等各类任务。


在认知阶段,基于通用语义感知大模型提供的“万物识别”能力,DriveGPT 通过构建驾驶语言(Drive Language)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,借助外部大语言模型 LLM 的海量知识来辅助给出驾驶决策。


图|毫末 DriveGPT 认知大模型:让自动驾驶具备常识


由于大语言模型已经学习到并压缩了人类社会的全部知识,因而也就包含了驾驶相关知识。毫末经过对大语言模型的专门训练和微调,从而让大语言模型更好地适配自动驾驶任务,使得大语言模型能真正看懂驾驶环境、解释驾驶行为,做出驾驶决策。


认知大模型通过与大语言模型结合,使得自动驾驶认知决策获得了人类社会的常识和推理能力,也就是获得了世界知识,从而提升自动驾驶策略的可解释性和泛化性。


图|毫末 DriveGPT 应用的七大实践


在分享了最新 DriveGPT 大模型技术框架后,顾维灏随后也给出了毫末基于 DriveGPT 大模型开发模式的七大应用实践,包括驾驶场景理解、驾驶场景标注、驾驶场景生成、驾驶场景迁移、驾驶行为解释、驾驶环境预测和车端模型开发。


  • 在驾驶行为解释方面,毫末 DriveGPT 在原有结合场景库及人工标注方式来对驾驶行为进行解释的基础上,升级为引入大语言模型来解释驾驶环境,让 AI 自己解释自己的驾驶决策。接下来,毫末会持续通过构建自动驾驶描述数据,来对大语言模型进行微调,让大语言模型能够像驾校教练或者陪练一样,对驾驶行为做出更详细的解释。


图|驾驶行为解释:让 AI 解释自己的驾驶决策


  • 驾驶环境预测方面,毫末 DriveGPT 原来基于海量人驾数据预训练和接管数据的反馈强化学习来完成未来 BEV 场景的预测生成,现在则是通过引入大语言模型,在使用驾驶行为数据的同时,让大语言模型对当前的驾驶环境给出解释和驾驶建议,然后再将驾驶解释和驾驶建议作为 Prompt 输入到生成式大模型,来让自动驾驶大模型获得外部大语言模型内的人类知识,从而具备常识,才能理解人类社会的各种明规则、潜规则,才能跟老司机一样,预测未来最有可能出现的驾驶场景,从而与各类障碍物进行更好地交互。


图|驾驶环境预测:更像人类一样预测未来场景


  • 车端模型开发模式变革方面,毫末正在尝试采用蒸馏的方法,也就是用大模型输出的伪标签作为监督信号,让车端小模型来学习云端大模型的预测结果,或者通过对齐 Feature Map 的方式,让车端小模型直接学习并对齐云端的 Feature Map,从而提升车端小模型的能力。基于蒸馏的方式,可以让车端的感知效果提升五个百分点。


图|车端模型开发新模式:把大模型蒸馏成小模型


此外,毫末 DriveGPT 的驾驶场景理解可以对海量驾驶场景数据进行秒级特征搜索,从而实现更高效的数据筛选,为大模型挖掘海量高质量训练数据。


  • 驾驶场景标注采用了开集(Open-set)场景下的 Zero-Shot 自动标注,可实现对任意物体既快速又精准的标注,不仅针对新品类的 Zero-Shot 可实现快速标注,而且精度还非常高,预标注准召达到80%以上。


  • 驾驶场景生成方面,可以基于驾驶场景的文生图模型,通过文字描述批量生成平时难以获取的 Hardcase 数据,实现无中生有的可控生成。


  • 驾驶场景迁移方面,基于 AIGC 生成能力,可实现多目标场景生成,能将采集到的一个场景,迁移到该场景的不同时间、不同天气、不同光照等各类新场景下,可同时获取全天候驾驶数据,实现瞬息万变的高效场景迁移。


现场,顾维灏还给出了 DriveGPT 赋能车端的三大测试成果:


  • 第一个是毫末纯视觉自动泊车测试成果。毫末利用视觉感知模型,使用鱼眼相机可以识别墙、柱子、车辆等各类型物体的边界轮廓,形成360度的全视野动态感知,可以做到在15米范围内达到 30cm 的测量精度,2米内精度高于10cm。这样的感知精度可实现用视觉取代 USS,从而进一步降低整体智驾方案成本。


图|毫末纯视觉泊车


  • 第二个是毫末对交通场景全要素识别测试成果。DriveGPT 基于通用感知的万物识别能力,从原有感知模型只能识别少数几类障碍物和车道线,发展到现在可以识别各类交通标志、地面箭头、甚至井盖等交通场景的全要素数据。大量高质量的道路场景全要素标注数据,有效帮助毫末重感知的车端感知模型实现效果提升,助力城市 NOH 的加速进城。


图|城市 NOH 全要素覆盖


  • 第三个是毫末城市 NOH 对小目标障碍物检测的测试成果。毫末在当前城市 NOH 的测试中,面对城市道路场景,在时速最高70公里的状态下,可以对50米距离外、大概高度为 35cm 的小目标障碍物进行有效检测,并做到100%的成功绕障或刹停,对道路上穿行的小动物等移动障碍物起到了很好的检测保护作用。


图|毫末城市 NOH 小目标障碍物检测



本届 HAOMO AI DAY 再度齐聚自动驾驶领域超豪华嘉宾阵容。


中国工程院院士、清华大学教授、清华智能产业研究院(AIR)院长张亚勤;清华大学车辆与运载学院副院长、长聘教授、博士生导师李升波发表主题演讲;合众新能源汽车 CTO 戴大力;中汽创智智能驾驶 CTO 张振林;美团自动车研发总监穆北鹏;达达快送产品与规划负责人郭瑜;火山引擎汽车行业总经理杨立伟;车云网&电动邦创始人、CEO 程里等产业领军人物出席第九届 HAOMO AI DAY 尖峰对话环节,围绕“2023自动驾驶:乘风大模型,创造新范式”展开讨论。


图|尖峰对话——2023自动驾驶:乘风大模型,创造新范式



演讲结尾,顾维灏提到:“毫末即将成立四周年,一约既定,万山无阻。毫末人将继续用 AI 连接更广阔的世界,用技术叩问更浩远的未来。”


张凯表示:“风好正扬帆,毫末人将始终秉持初心,保持创业者的激昂斗志,共同实现自动驾驶的梦想。”



BETTER AI,BETTER HAOMO

让机器智能移动,给生活更多美好




继续滑动看下一个

金秋HAOMO AI DAY:重磅发布三款千元级无图NOH;DriveGPT具备世界知识可“识别万物”

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存