当城市NOH逐步落地时,智驾技术迭代的核心逻辑正在发生根本性的变化。
毫末AI DAY
对于关注智能驾驶的从业者而言,截至目前,毫末AI DAY依然还是全球范围内,唯一的智能驾驶技术交流平台。
2022年9月13日,第六届毫末AI DAY如期举行。
中国工程院院士、清华大学教授张亚勤,毫末智行董事长张凯、毫末智行CEO顾维灏、阿里巴巴集团副总裁贾扬清、寒武纪CEO陈天石等行业人士发表了演讲,并分享了一些智驾相关的前瞻性思考。
张亚勤认为,垂直领域的自动驾驶将会更快落地,并逐渐扩散到实现通用自动驾驶能力。
张凯则提出,渐进式技术路线是实现自动驾驶的必由之路。
顾维灏认为,智能驾驶在经过多年发展之后,正在进入以数据驱动为主要特征的3.0时代。
贾扬清则分享了其对自动驾驶领域AI工程化的思考。
陈天石则分享了其对智驾产业发展过程中,计算所面临的挑战和解决方案,并给出从云到端的全栈计算解决方案。
在中美科技战中,寒武纪的全栈解决方案,会是高端GPGPU对中国的禁运的一个有效替代方案。
在AI DAY上,魏牌、毫末和高通再次联合亮相,承诺搭载毫末城市NOH的魏牌摩卡DHT-PHEV激光雷达版将在9月量产,年内发售。
魏牌摩卡DHT-PHEV激光雷达版,有一定的概率会是全球范围内首个落地城市NOH系统的车型,它将会与小鹏G9角逐这一桂冠。
但是,魏牌摩卡DHT-PHEV激光雷达版,肯定会是全球范围内首个落地的、不搭载高精地图的、拥有城市NOH系统的车型。
张凯指出,魏牌摩卡DHT-PHEV是毫末智行实现的第10个带有高级辅助驾驶能力的量产车型,该公司同时还在推进31个量产车型项目。
这些车型的陆续上市,将会帮助毫末智行实现未来两年“高阶智能驾驶车队规模达到100万辆”的目标。
此外,到2023年底,该公司还计划在国内100个城市落地城市NOH。
截至目前,这也是唯一一家提出类似目标的智能驾驶公司。
为支持上述目标的实现,毫末智行联合其生态伙伴,发布了两项智能驾驶AI训练的产业基础设施:
1.毫末智行超算中心。
这是继特斯拉Dojo、小鹏“扶摇”之后中国第二个智能驾驶超算中心,全球第三个超算中心。
2.实景仿真系统。
毫末智行、阿里云、德清市政府在活动中宣布,发布“中国首个基于车路协同云服务的大规模自动驾驶场景库”。
该场景库主要聚焦了各式各样的路口信息,将采用真实的路口摄像头信息,并将其引入仿真系统,使得智驾模型可基于真实路口模型验证算法可靠性。
在顾维灏看来,该公司所有的工作和发布,都围绕着一个重要的智驾产业变革:智能驾驶产业,正从2.0时代进入到3.0时代,从软件驱动技术迭代,向数据驱动技术迭代阶段迈进。
自动驾驶3.0时代
现代智能驾驶产业,大概从2009年起步。
作为国内最早研究量产智能驾驶的从业者,根据驾驶里程、感知、认知和迭代模式四个维度,顾维灏将自动驾驶产业的发展分为3个阶段:
分别是“硬件时代”、“软件时代”和“数据时代”,并将其定义为自动驾驶1.0时代、自动驾驶2.0时代和自动驾驶3.0时代。
时间划分上,顾维灏认为,2018年、2019年之前,都可称为以硬件驱动的“自动驾驶1.0时代”。
在那个时代,车上挂满了各种激光雷达、堆满线束、塞满计算机器……硬件性能的提升,驱动智能驾驶能力的进步。
在那个时代,驾驶里程通常以100万公里计,在感知上,以激光雷达为主,在认知上,主要基于规则进行决策规划,在技术迭代上,由硬件迭代驱动。
在2018年、2019年的时候,顾维灏认为,自动驾驶开始进入到以软件为主要驱动力的2.0阶段。
在那个时代,自动驾驶技术开始在量产车上规模化落地。
自动驾驶产业已不能靠不计成本地堆硬件提升系统的能力,车规级的硬件,有严格的功能和成本要求。
在那个时代,驾驶里程以千万公里计,在感知上,各个传感器各自为战,用一些小模型和少量数据做训练,得到单个传感器的识别结果,然后进行感知结果级的融合,在认知上,还是以规则为主进行决策规划。
在自动驾驶2.0时代,技术迭代由小模型和小数据驱动,或者说软件能力驱动。
在2022年底、2023年初,顾维灏认为,自动驾驶开始进入3.0时代,特斯拉是这个时代的典型代表。
在这个时代,驾驶里程以亿公里计,在感知上,以视觉和融合感知为主,在认知上,则用AI模型解决决策规划问题。
在自动驾驶3.0时代,技术迭代由大模型和大数据驱动,数据规模将会成为智能驾驶的核心竞争力。
顾维灏为自动驾驶3.0时代定义了几个重要的特征:
1.算法模型以大模型为基础。
2.训练数据基于亿公里级驾驶里程,这些数据将无法采用人工标注,训练方式只能采取无监督学习方式进行。
3.决策规划采用AI模型。
顾维灏认为,上述几个条件,是智能驾驶不断迭代发展并实现高阶智能驾驶的必由之路。
在被问及小模型小数据和大模型大数据之间的区别时,顾维灏指出,小模型和大模型的核心区别在于参数规模:
小模型参数规模级别为几百万个参数,而大模型参数规模达到1000亿个以上,比如谷歌的GPT-3模型的参数规模达到了1750亿个。
小数据和大数据的核心区别在于数据是否由人工标注:
对于小规模的数据集而言,由人工标注是可行的和成本可控的;但涉及亿公里这种当量的数据集,采取人工标注的成本无法承受。
这些无标注的海量数据直接被用于大模型的无监督训练,是大模型大数据的特点。
顾维灏指出,在智能驾驶领域,Transformer模型和原先的CNN技术路线相比,结合海量数据,其模型收敛的训练时间只需原来的三分之一,而模型精度显著提高。
Transformer大模型在城市NOH领域的一个现实优势是,依托于时序BEV机制,可高效地实时感知三维空间信息。
这是特斯拉能够不依托于高精地图,就可实现高级别辅助驾驶的原因。
利用Transformer大模型,毫末智行是全球范围第二家、中国第一家,在不依赖高精地图情况下实现城市NOH的公司。
自动驾驶的大模型大数据时代的到来,主要是基于以下两个方面的原因:
一方面,智驾开始进入到城市NOH时代。
与此前的低阶辅助驾驶和高速NOH相比,城市NOH的难度系数和数据规模,都有了质的跃升。
在难度上,顾维灏认为,由于城市道路养护活动频繁、车流密集、变道空间狭窄、交通环境复杂等因素,智能驾驶的难度与之前相比,提升了不止一个数量级。
在数据规模上,城市NOH的使用频率和高速NOH相比至少高一个数量级,而在接管频次上,城市NOH也将显著高于高速NOH。
上述因素综合作用,将会使城市NOH所产生的数据规模比高速场景至少高出2个数量级。
高技术难度和大数据规模,是当下智能驾驶实践的典型特征。
这是大模型大数据技术路线产生的现实需求。
另一方面,大模型大数据也是AI技术的趋势。
据顾维灏介绍,自2014年起,基于Attention机制的大模型开始应用在NLP领域并获得成功,使得Transformer模型统治了NLP领域。
年2020,Attention机制在计算机视觉领域大获成功,Google的ViT模型和微软亚洲研究院的SwinTransformer刷爆各大CV比赛的排行榜。
这使得Transformer模型继完成了NLP领域的垄断之后,开始占领CV领域的阵地。
此后,非常迅速地,各种基于Attention机制的多模态大模型奔涌而出,并涌现了Graph Attention等各类变种,它们可以接受多种不同模态的输入——语言、图像、视频、语音等等,也可以输出多种模态,在各个领域都取得了惊人的效果。
据顾维灏介绍,截至目前,基于Attention机制的transformer结构似乎能成为一种有效的通用AI模型范式。
基于Attention机制的大模型,正在成为AI技术发展的趋势。
最后,由于像高通骁龙Ride、英伟达Orin X、地平线J5等大算力车端芯片的量产,也使得像Transformer这样的大模型在车端落地应用成为可能。
技术挑战
大模型大数据驱动的智驾算法迭代模式,有很明显的优势,但也有很大的技术挑战。
一个最明显的挑战是,如何将基于Attention机制的大模型在智驾领域落地,既包括云端的训练,也包括在车端的落地。
在云端训练方面,毫末智行在进行模型切换时,做了很多的基础工作,包括:
训练平台的改造升级、数据规格和标注方法的切换准备,和针对感知、认知具体任务的模型细节探索等等。
当然了,核心挑战之一是启动无监督学习。
毫末选择的方式是将所有的感知任务backbone都统一,然后利用无标注数据先训练好这个统一backbone并锁定,模型剩余部分再用标注样本来训练。
当然了,这并不容易。
在实现无监督学习之后,智能驾驶才会启动真正意义上的大数据驱动模型迭代时代。
在车端落地大模型,算力无疑是最大的挑战。
在云端训练,算力的供应理论上是无限的。
在车端,则由一块360TOPS的高通骁龙Ride提供计算,尽管这已经是当下最强大的终端AI计算平台之一,但如何能够让大模型流畅地跑在这个计算平台之上,依然需要一些办法。
顾维灏指出,尽管大模型的算力需求是小模型的100倍,但这些算力之中,大概只有6.9%的算力贡献了94%的价值,剩余的算力在做大量的弱关联的计算,效率并不高。
基于上述发现,通过优化车端模型,大幅减少弱关联计算,可显著降低模型对算力的消耗,又不会影响模型的精度。
相同的工作可在芯片层面上进行。
此外,还可在数据的调度、算力的利用率方面进行优化,提升计算效率,使得大模型可在车端实现落地。
除了大模型在车端的落地挑战之外,顾维灏认为,将基于Attention机制的大模型应用于智能驾驶,还面临两大核心挑战:
1.如何通过低碳超算,降低智能驾驶训练成本。
2.如何组织数据,让大模型发挥更大的作用。
在大模型对算力的消耗方面,毫末智行提供了一组CNN模型和Transformer模型在训练中对算力需求的对比图:通常情况下,训练大模型所需算力是小模型的100倍。
这将会极大地提升智能驾驶模型训练的成本,包括资金成本和时间成本。
如何降低超算成本?
毫末智行做了多方面的研究并分享了一些具有启发性的成果:
1.使用增量学习,提高新数据使用效率。
在此之前,智能驾驶行业的模型训练比较低效的一个原因在于:每次增加新数据的时候,所有的模型都需要在全量数据(即存量 增量数据中)重新训练一遍,包括感知模型、决策模型。
在训练完毕之后,还需要再走一遍验证流程(包括仿真验证和场地验证)之后,才会通过OTA部署到车端。
毫末智行是国内第一家提出增量学习概念的企业,即有了新的corner case数据之后,模型只针对新数据和少量存量数据进行训练。
联系客服