毫末智行：智能驾驶进入3.0时代

当城市NOH逐步落地时，智驾技术迭代的核心逻辑正在发生根本性的变化。

毫末AI DAY

对于关注智能驾驶的从业者而言，截至目前，毫末AI DAY依然还是全球范围内，唯一的智能驾驶技术交流平台。

2022年9月13日，第六届毫末AI DAY如期举行。

中国工程院院士、清华大学教授张亚勤，毫末智行董事长张凯、毫末智行CEO顾维灏、阿里巴巴集团副总裁贾扬清、寒武纪CEO陈天石等行业人士发表了演讲，并分享了一些智驾相关的前瞻性思考。

张亚勤认为，垂直领域的自动驾驶将会更快落地，并逐渐扩散到实现通用自动驾驶能力。

张凯则提出，渐进式技术路线是实现自动驾驶的必由之路。

顾维灏认为，智能驾驶在经过多年发展之后，正在进入以数据驱动为主要特征的3.0时代。

贾扬清则分享了其对自动驾驶领域AI工程化的思考。

陈天石则分享了其对智驾产业发展过程中，计算所面临的挑战和解决方案，并给出从云到端的全栈计算解决方案。

在中美科技战中，寒武纪的全栈解决方案，会是高端GPGPU对中国的禁运的一个有效替代方案。

在AI DAY上，魏牌、毫末和高通再次联合亮相，承诺搭载毫末城市NOH的魏牌摩卡DHT-PHEV激光雷达版将在9月量产，年内发售。

魏牌摩卡DHT-PHEV激光雷达版，有一定的概率会是全球范围内首个落地城市NOH系统的车型，它将会与小鹏G9角逐这一桂冠。

但是，魏牌摩卡DHT-PHEV激光雷达版，肯定会是全球范围内首个落地的、不搭载高精地图的、拥有城市NOH系统的车型。

张凯指出，魏牌摩卡DHT-PHEV是毫末智行实现的第10个带有高级辅助驾驶能力的量产车型，该公司同时还在推进31个量产车型项目。

这些车型的陆续上市，将会帮助毫末智行实现未来两年“高阶智能驾驶车队规模达到100万辆”的目标。

此外，到2023年底，该公司还计划在国内100个城市落地城市NOH。

截至目前，这也是唯一一家提出类似目标的智能驾驶公司。

为支持上述目标的实现，毫末智行联合其生态伙伴，发布了两项智能驾驶AI训练的产业基础设施：

1.毫末智行超算中心。

这是继特斯拉Dojo、小鹏“扶摇”之后中国第二个智能驾驶超算中心，全球第三个超算中心。

2.实景仿真系统。

毫末智行、阿里云、德清市政府在活动中宣布，发布“中国首个基于车路协同云服务的大规模自动驾驶场景库”。

该场景库主要聚焦了各式各样的路口信息，将采用真实的路口摄像头信息，并将其引入仿真系统，使得智驾模型可基于真实路口模型验证算法可靠性。

在顾维灏看来，该公司所有的工作和发布，都围绕着一个重要的智驾产业变革：智能驾驶产业，正从2.0时代进入到3.0时代，从软件驱动技术迭代，向数据驱动技术迭代阶段迈进。

自动驾驶3.0时代

现代智能驾驶产业，大概从2009年起步。

作为国内最早研究量产智能驾驶的从业者，根据驾驶里程、感知、认知和迭代模式四个维度，顾维灏将自动驾驶产业的发展分为3个阶段：

分别是“硬件时代”、“软件时代”和“数据时代”，并将其定义为自动驾驶1.0时代、自动驾驶2.0时代和自动驾驶3.0时代。

时间划分上，顾维灏认为，2018年、2019年之前，都可称为以硬件驱动的“自动驾驶1.0时代”。

在那个时代，车上挂满了各种激光雷达、堆满线束、塞满计算机器……硬件性能的提升，驱动智能驾驶能力的进步。

在那个时代，驾驶里程通常以100万公里计，在感知上，以激光雷达为主，在认知上，主要基于规则进行决策规划，在技术迭代上，由硬件迭代驱动。

在2018年、2019年的时候，顾维灏认为，自动驾驶开始进入到以软件为主要驱动力的2.0阶段。

在那个时代，自动驾驶技术开始在量产车上规模化落地。

自动驾驶产业已不能靠不计成本地堆硬件提升系统的能力，车规级的硬件，有严格的功能和成本要求。

在那个时代，驾驶里程以千万公里计，在感知上，各个传感器各自为战，用一些小模型和少量数据做训练，得到单个传感器的识别结果，然后进行感知结果级的融合，在认知上，还是以规则为主进行决策规划。

在自动驾驶2.0时代，技术迭代由小模型和小数据驱动，或者说软件能力驱动。

在2022年底、2023年初，顾维灏认为，自动驾驶开始进入3.0时代，特斯拉是这个时代的典型代表。

在这个时代，驾驶里程以亿公里计，在感知上，以视觉和融合感知为主，在认知上，则用AI模型解决决策规划问题。

在自动驾驶3.0时代，技术迭代由大模型和大数据驱动，数据规模将会成为智能驾驶的核心竞争力。

顾维灏为自动驾驶3.0时代定义了几个重要的特征：

1.算法模型以大模型为基础。

2.训练数据基于亿公里级驾驶里程，这些数据将无法采用人工标注，训练方式只能采取无监督学习方式进行。

3.决策规划采用AI模型。

顾维灏认为，上述几个条件，是智能驾驶不断迭代发展并实现高阶智能驾驶的必由之路。

在被问及小模型小数据和大模型大数据之间的区别时，顾维灏指出，小模型和大模型的核心区别在于参数规模：

小模型参数规模级别为几百万个参数，而大模型参数规模达到1000亿个以上，比如谷歌的GPT-3模型的参数规模达到了1750亿个。

小数据和大数据的核心区别在于数据是否由人工标注：

对于小规模的数据集而言，由人工标注是可行的和成本可控的；但涉及亿公里这种当量的数据集，采取人工标注的成本无法承受。

这些无标注的海量数据直接被用于大模型的无监督训练，是大模型大数据的特点。

顾维灏指出，在智能驾驶领域，Transformer模型和原先的CNN技术路线相比，结合海量数据，其模型收敛的训练时间只需原来的三分之一，而模型精度显著提高。

Transformer大模型在城市NOH领域的一个现实优势是，依托于时序BEV机制，可高效地实时感知三维空间信息。

这是特斯拉能够不依托于高精地图，就可实现高级别辅助驾驶的原因。

利用Transformer大模型，毫末智行是全球范围第二家、中国第一家，在不依赖高精地图情况下实现城市NOH的公司。

自动驾驶的大模型大数据时代的到来，主要是基于以下两个方面的原因：

一方面，智驾开始进入到城市NOH时代。

与此前的低阶辅助驾驶和高速NOH相比，城市NOH的难度系数和数据规模，都有了质的跃升。

在难度上，顾维灏认为，由于城市道路养护活动频繁、车流密集、变道空间狭窄、交通环境复杂等因素，智能驾驶的难度与之前相比，提升了不止一个数量级。

在数据规模上，城市NOH的使用频率和高速NOH相比至少高一个数量级，而在接管频次上，城市NOH也将显著高于高速NOH。

上述因素综合作用，将会使城市NOH所产生的数据规模比高速场景至少高出2个数量级。

高技术难度和大数据规模，是当下智能驾驶实践的典型特征。

这是大模型大数据技术路线产生的现实需求。

另一方面，大模型大数据也是AI技术的趋势。

据顾维灏介绍，自2014年起，基于Attention机制的大模型开始应用在NLP领域并获得成功，使得Transformer模型统治了NLP领域。

年2020，Attention机制在计算机视觉领域大获成功，Google的ViT模型和微软亚洲研究院的SwinTransformer刷爆各大CV比赛的排行榜。

这使得Transformer模型继完成了NLP领域的垄断之后，开始占领CV领域的阵地。

此后，非常迅速地，各种基于Attention机制的多模态大模型奔涌而出，并涌现了Graph Attention等各类变种，它们可以接受多种不同模态的输入——语言、图像、视频、语音等等，也可以输出多种模态，在各个领域都取得了惊人的效果。

据顾维灏介绍，截至目前，基于Attention机制的transformer结构似乎能成为一种有效的通用AI模型范式。

基于Attention机制的大模型，正在成为AI技术发展的趋势。

最后，由于像高通骁龙Ride、英伟达Orin X、地平线J5等大算力车端芯片的量产，也使得像Transformer这样的大模型在车端落地应用成为可能。

技术挑战

大模型大数据驱动的智驾算法迭代模式，有很明显的优势，但也有很大的技术挑战。

一个最明显的挑战是，如何将基于Attention机制的大模型在智驾领域落地，既包括云端的训练，也包括在车端的落地。

在云端训练方面，毫末智行在进行模型切换时，做了很多的基础工作，包括：

训练平台的改造升级、数据规格和标注方法的切换准备，和针对感知、认知具体任务的模型细节探索等等。

当然了，核心挑战之一是启动无监督学习。

毫末选择的方式是将所有的感知任务backbone都统一，然后利用无标注数据先训练好这个统一backbone并锁定，模型剩余部分再用标注样本来训练。

当然了，这并不容易。

在实现无监督学习之后，智能驾驶才会启动真正意义上的大数据驱动模型迭代时代。

在车端落地大模型，算力无疑是最大的挑战。

在云端训练，算力的供应理论上是无限的。

在车端，则由一块360TOPS的高通骁龙Ride提供计算，尽管这已经是当下最强大的终端AI计算平台之一，但如何能够让大模型流畅地跑在这个计算平台之上，依然需要一些办法。

顾维灏指出，尽管大模型的算力需求是小模型的100倍，但这些算力之中，大概只有6.9%的算力贡献了94%的价值，剩余的算力在做大量的弱关联的计算，效率并不高。

基于上述发现，通过优化车端模型，大幅减少弱关联计算，可显著降低模型对算力的消耗，又不会影响模型的精度。

相同的工作可在芯片层面上进行。

此外，还可在数据的调度、算力的利用率方面进行优化，提升计算效率，使得大模型可在车端实现落地。

除了大模型在车端的落地挑战之外，顾维灏认为，将基于Attention机制的大模型应用于智能驾驶，还面临两大核心挑战：

1.如何通过低碳超算，降低智能驾驶训练成本。

2.如何组织数据，让大模型发挥更大的作用。

在大模型对算力的消耗方面，毫末智行提供了一组CNN模型和Transformer模型在训练中对算力需求的对比图：通常情况下，训练大模型所需算力是小模型的100倍。

这将会极大地提升智能驾驶模型训练的成本，包括资金成本和时间成本。

如何降低超算成本？

毫末智行做了多方面的研究并分享了一些具有启发性的成果：

1.使用增量学习，提高新数据使用效率。

在此之前，智能驾驶行业的模型训练比较低效的一个原因在于：每次增加新数据的时候，所有的模型都需要在全量数据（即存量增量数据中）重新训练一遍，包括感知模型、决策模型。

在训练完毕之后，还需要再走一遍验证流程（包括仿真验证和场地验证）之后，才会通过OTA部署到车端。

毫末智行是国内第一家提出增量学习概念的企业，即有了新的corner case数据之后，模型只针对新数据和少量存量数据进行训练。

在使用了这个方法之后，毫末智行在训练端的算力用量降低了80%，训练时间只需要原来的六分之一。

这不仅可大幅降本，还可在更短的时间解决掉智驾系统的corner case问题。

2.使用实景仿真。

智能驾驶的仿真系统，是验证模型的关键基础设施。

仿真系统与现实用车场景越接近，智驾系统验证和“回炉”再训练的成本就越低。

通常情况下，如果使用手工打造仿真系统场景库，每一个“人日”的产出大概是20-30个场景，非常低效。

鉴于此，毫末智行采取自动生成仿真场景库的解决方案，可基于一些给定的设定，瞬间生成海量的驾驶场景。

但这也会面临一个问题，即自动生成的场景，它的难度是否是合理的？

比如说，一个十字路口，可以自动生成100个不同难度的驾驶场景，但对于智能驾驶算法而言，是否有必要通过自动生成的、最难等级的十字路口场景，才可算合格？

如果是这样的话，则意味着根据现实场景中的corner case训练出来的智驾算法，有很大概率会无法通过仿真验证而不得不回炉再训练。

整个模型再训练一遍，一周时间又搭进去了。

引入实景仿真的价值在于，在采集了很多现实交通场景中的十字路口驾驶模型之后，智驾算法在仿真系统的验证就有了一个现实的边界，它无需再去挑战最hard的场景，而是在顺利通过现实场景之后，即可被证明是有效的。

这是毫末联合阿里和德清市，推出十字路口实景仿真的价值所在。

顾维灏指出，在城市智驾场景，十字路口是挑战最大的场景，基于私家车采集的路口信息缺少一个上帝视角而无法看到全景，在红绿灯上的摄像头的优势是能够看到全景。

3.打造超算中心。

在当天，毫末智行正式发布了该公司的超算中心，该超算中心的目标是，支持千亿参数的大模型，在训练数据规模为100万clips的情况下，训练成本低至原先的二百分之一。

顾维灏指出，在通常情况下，一个千亿参数大模型，在100万clips数据规模的情况下，如果在一个拥有1000块英伟达A100 GPU的数据中心训练，需要花费几个月的训练时间。

这样的效率显然是无法接受的。

顾维灏的计划是将训练时间降低为原来的二百分之一。

在解决了低碳超算问题之后，大模型大数据的第二个挑战是，如何组织数据让大模型发挥更大的作用。

在这方面，顾维灏以谷歌最新的PaLM模型为例进行介绍。

PaLM是一个拥有7800亿个参数的自然语言处理模型，在经过了一个拥有7800亿个token的数据集训练之后，该模型在204项基准测试中的平均水平超过了人类。

在对数据集进行了研究之后，顾维灏发现，这些用于训练的大规模的无标注数据中，只有很少的结构化数据，即除了wiki百科、新闻、书籍是结构化数据之外，其他的都是非结构化数据。

顾维灏发现，基于大模型用于智能驾驶训练的数据与基于小模型的数据截然不同。

在大模型时代，一方面，数据的规模要足够大，另一方面，数据的多样性要足够充分。

在数据规模方面，他认为至少需要1亿公里的智驾里程数据。

在数据多样性方面，他认为各种传感器的数据，包括不同类型、不同像素、不同角度对于大模型训练都有非常大的价值；同时，对于不同的场景，包括不同的道路形态、不同的交通流密度、不同的自然环境都是非常有价值的。

这看起来比较反常识，让直接做L4技术路线的友商们难以苟同。

按照顾维灏的逻辑，这里的挑战是两个：

1.获取足够多的数据。

这是量产智能驾驶的优势。

毫末智行公布的数据是，截止2022年9月13日，该公司的辅助驾驶总里程已经达到了1722.74万公里。

目前已有10个车型搭载该公司的智驾系统，可提供驾驶里程数据，同时在开发的车型数量为31个。

2.如何组织数据。

数据的组织是与模型训练方式匹配的。

在毫末智行，他们将数据分为两类：

一类是无标注的大规模、多样化数据，这类数据通过无监督学习，用于大模型的预训练。

一类是原先已经做好标注的场景数据，这类数据用于大模型的启发式训练。即大模型在完成预训练之后，在一些关键场景，用标注数据再次进行训练，让大模型对一些特定场景的处理能力显著提升。

每一家试图进入到新智驾时代的玩家，都需要解决上述问题。

顾维灏认为，截至目前，真正意义上进入到数据驱动的3.0时代的智驾公司只有特斯拉一家，他希望毫末智行能够成为第二家进入到智驾3.0时代的公司。

行业剧变

当产业进入自动驾驶3.0时代以后，将会对产业格局带来显著的冲击。

1.直接做L4模式压力与日俱增。

直接做L4模式属于典型的小模型小数据模式。

通常情况下，这种模式的车队规模在1000辆以内，通过安全员的测试获取驾驶里程信息，这些驾驶里程信息在经过人工标注之后，被用于作为训练的数据集。

在获得新的数据集之后，通常会重新训练模型，在模型收敛之后，在仿真系统上进行验证，在仿真系统的验证通过之后，进入封闭场地验证，然后再进入公共道路继续测试……

上述过程周而复始，但始终不能大规模落地到量产车上。

由于车队规模上的劣势，使得直接做L4模式在获取增量的规模数据上，与量产车的差距与日俱增。

2.不能获得数据的智驾平台压力与日俱增。

据一些不愿具名的业内人士透露：在当下，一些第三方平台与传统车企合作时，无法获取车企的驾驶里程数据。

这使得这些第三方平台，无法获得闭环数据，让智能驾驶的算法模型持续迭代。

在这里，呼吁传统车企，如果还想让第三方自动驾驶平台在这场竞争中存在下去，需要乐于分享数据。

3.没有销量规模就无以言智能驾驶。

这也是显而易见的。

当然了，在这里，如果你的智能驾驶系统体验很差，用户买了之后不用，也将会导致贵司在数据驱动的智能驾驶研发竞争中处于被动境地。

这也是为何一些车企开始采取标配智能驾驶系统的定价策略。当然了，一些车企只需标配部分功能就可以获取驾驶里程数据，比如特斯拉。

4.大算力车端芯片普及速度提升。

在大模型时代，中低端智驾芯片无以支撑大模型智驾算法模型的计算要求，比较难支持能力的快速迭代。

鉴于此，在自动驾驶3.0时代，大算力车端芯片快速普及将会成为必然。

这对于高通骁龙Ride、英伟达Orin X、地平线J5们而言，会是一个振奋人心的消息。

同时，我们也希望市场规模的扩张，能够让这些芯片的价格得以显著下降。

在成本控制上，特斯拉Hardware4.0将会为我们树立新的标杆，也将会是智能驾驶硬件系统性能和价格的演进方向。

5.智驾的云计算基础设施需求爆发。

当智驾进入到以大模型大数据为核心特点的3.0时代时，这个行业对云计算基础设施的需求必然会产生爆发式增长。

以特斯拉为例，该公司在21年20AI DAY上透露，他们拥有三大数据中心：

数据中心1用于自动数据标注，总共有1752块英伟达A100的GPU，用于训练的数据中心2有4032块A100，用于训练的数据中心3拥有5760块A100，总的算力达3.5EFLOPS。

在21年209月之前，特斯拉所需算力在过去2年增长了10倍。

基于此，该公司在21年209月发布了Dojo，除了自研云计算基础芯片D1之外，还自研了整个云计算硬件集群和软件系统。

据特斯拉透露，Dojo在投入使用之后，与A100为基础的集群相比，性能提升4倍，相同能耗下可提供1.3倍算力，占地面积降至原来的五分之一。

这也是为何，小鹏汽车8月2日在乌兰察布发了超算中心“扶摇”，算力达到了0.6EFLOPS。

这也是为何，毫末智行在今天发布了该公司的超算中心，并计划将整体训练成本降低到原先的0.5%。

6.毫末和蔚小理特们获益。

在自动驾驶3.0时代，以毫末和蔚小理特为代表的量产模式，将会在竞争中处于有利地位。

直接做L4的公司恐怕很难follow这种模式，他们需要找到自己的破局之道。

总结

顾维灏认为，毫末智行模式是为自动驾驶3.0时代而生的模式。

一方面，他们拥有科技公司的基因和技术，在应用和落地创新AI技术方面拥有优势；另一方面，他们拥有传统车企车队规模，能够为大模型带来大数据。

在实现真正意义上的自动驾驶之后，可以向包括末端物流等所有需要智能驾驶的关键场景进行商业模式的扩展。

从另一个角度看，毫末智行模式，本质上是一种科技公司与传统车企紧密捆绑的模式，长城为毫末提供数据，而毫末助力长城实现智能化转型。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。