拆解特斯拉端到端迷局

「特斯拉端到端智驾有筹算到底是如何作念的？」

在一次端到端智能体研讨会上，有东说念主向一众端到端内行学者们抛出疑问。

现场包括赵行（清华交叉信息磋议院助瓦解释）、许春景（华为车 BU 智驾 AI 首席科学家）、王乃岩（小米智驾凸起科学家）、贾鹏（梦想算法研发副总裁）这些学界、业界东说念主士在内，没东说念主能给出确切呈报。

莫得东说念主澄澈，特斯拉 FSD V12 具体模子架构是如何的，但特斯拉等于凭一己之力，搅拌了端到端的潮流。

咱们试图从马斯克发言和特斯拉动态中凑合出特斯拉端到端的约莫体征：从感知到决策由斡旋神经收集限定，很大可能基于生成式 AI，在原有 Occupancy 模子基础上构建世界模子。

但从中捕捉的细目性是，端到端有筹算对于云霄算力的需求来到一个新高潮。

正如马斯克屡次默示：「FSD V12 端到端模子迭代主要受到云霄算力资源的制肘。」

于是，特斯拉选拔重金堆算力，筹算 2024 年底前对 DOJO 超算中心投资超 10 亿好意思元，辩论是总算力栽种至 10 万 PFLOPS。

若是说算力是端到端的必要条件，那这意味着，端到规定在掀翻新一轮武备竞赛，赢家时常是甘休出古迹者。

同期，正如无东说念主清醒特斯拉端到端具体如何竣事一样，各人仅仅对准了潮流涌动的标的，一股脑向那涌去。

于是，忽如通宵春风来，端到端有筹算随地开，谁都跟紧节律，不想因此出局。

端到端智驾，大「力」才能出古迹

端到端智驾，基于 AI 模子化的主旅途，对其老师算力资源的超大需求，例必孕育了算力放手的火焰。

智算中心进入了赛马圈地期间，一场关乎算力的竞赛就此张开。

这边，特斯拉、长安、祥瑞等车企都不遗余力地计算智算中心，或选拔自建，或选拔与第三方相助。

特斯拉的 DOJO 智算中心，瞻望到 2024 年 10 月，总算力将达到 100EFLOPs（10 万 PFLOPS），非常于约 30 万块英伟达 A100 的算力总数。

国内车企也在算力上悉力追逐，祥瑞、长安，以及新势力「蔚小理」，都没掉队。

值得一提的是，蔚来与腾讯相助树立智算中心，诚然暂未公布其超算中心的具体实力，但李斌曾用「丧心病狂」一词来形容蔚来在算力方面的布局，并称在当年一两年内都还会是全球天花板。

那里，以华为、商汤绝影、毫末智步履代表的智驾供应商，也涓滴不占下风。

华为车 BU 云智算中心的乾崑 ADS 3.0，在算力方面已达到 3500PFLOPS，老师数据量为日行 3000 万公里，按照全球说念路总长约为 6400 万公里预计的话，2.1 天系统就能完全遮蔽。

而商汤科技在最新财报中骄傲，其智算中心 GPU 数目达到 4.5 万张，总体算力范围为 12000PFLOPS，相较于 2023 岁首提高了一倍。以及毫末智行合资火山引擎推出的智算中心「雪湖·绿洲」，算力高达 670PFLOPS。

显著，智算中心的建设已成为端到端自动驾驶的标配，对于算力的需求正在以一种倍极速率大肆增长。

「莫得智算中心的端到端智驾企业是分歧格的。」毫末智行一位内行直言，算力越多，对模子的迭代遵循、迭代样式速率，以及多样情况的建造遵循，均有大幅栽种。

商汤绝影智能驾驶副总裁石建萍也默示，高算力，意味着它所容纳的专揽空间是泛泛的，它允许更多的尝试、试错发生，那么就更有可能研发出性能更强的端到端模子。

那这是否意味着竣事端到端智驾，必须甘休才能出古迹？

有真谛的是，针对这个谜底，行业呈现了两种发展旅途：

一面是倾向于重投算力的「暴力预计」；

另一面是深耕算法的「工匠想法」。

诚然，行业对于智驾三要素（算法、数据、算力）的共鸣是三者相得益彰，任何一个出现短板，都会激励水桶效应。

但在此基础上，三个长板，哪方面当今需要重心强化，则出现了一些分歧。

暴力预计者以为，当今各家算法其实莫得本体区别，中枢点在于把数据在超算中心中如何高效老师起来。

一位行业东说念主士就指出，在学界如故公开了可行的端到端算法架构，甚而束缚更新前沿推崇的情形下，业界完全不错参照学界的磋议效果进行量产、落地实验，那么这就要求其现阶段在算力基础、数据范围上积聚弥散实力。

但也有另一种声息混合在其中。他们以为，竣事端到端智驾，深耕算法是现时更为艰辛的打破样式。

元帅启行就对汽车之心默示，算力中心比拼仅仅一方面，但现阶段更宏大的是打造一套应承 Scalling law 的收集模子。

Scalling law 即范围定律，跟着模子范围的加多（包括参数数目、数据范围和预计资源），模子的性能也会相应提高。

也等于说，想要范围定律收效，需要先谋定的是模子优化问题，这才是后续甘休出古迹的发力点场所。

说到底，两种旅途无关实足优劣之分，毕竟各家的端到端策略筹算、本钱实力各不交流。

但从特斯拉、华为等头部车企都重投超算中心的动作评判，算力愈高，端到端智驾效果的天花板简直会随之举高，也等于上限会有所栽种。

那么，超算中心到底多大的算力能够守旧起端到端智驾？

在辰韬本钱发布的《端到端自动驾驶行业磋议阐述》（以下简称「阐述」）中骄傲，大部分公司默示 100 张大算力 GPU 不错赞助一次端到端模子的老师，但这随机率守旧不了有筹算走到量产阶段。

毫末智行以为，基于算法需要束缚迭代，端到端起步需要 1000 张 GPU。

但至于上限如何权衡，却莫得定论。

行业一致以为，量入计出。毕竟巨头特斯拉横亘在繁密选手面前。

据悉，特斯拉本年筹算将英伟达 GPU H100 加多至 85000 张以上，达到和谷歌、亚马逊并吞量级，这是国内企业可望不能即的程度。

毕竟，一张 H100 面前售价在 2.5 万-4 万好意思元之间，非常于特斯拉本年至少要投超 20 亿好意思元。

莫得浑厚家底，这不是谁都「玩」的起的。因为特斯拉的办事在于具身智能的全球化，其辩论还包括 Robotaxi、智能机器东说念主等，惩处问题的难度触及到一个新的阶级。

因此，特斯拉这般大动作，是基于财力、辩论、数据范围的适配，其它企业没必要向它看都，追求一味的超高算力。

对于国内智驾企业而言，脚下辩论是惩处城市 NOA 量产落地，竣事高阶自动驾驶。

毫末智行默示，要竣事世界都能开，2000-5000 张 GPU 如故弥散。

但跟着辩论的束缚进阶，从 L2 到 L3、L4，甚而 L5，算力需求将会不时情随事迁。

岂论如何，端到端的波浪，简直激动了一场新的洗牌辅导，岂论是数据范围、算法结构如故算力要求，都将掌抓期间中枢的企业洗到了最前边。

端到端迷局：谁才是真端到端？

端到端高涨正在造就新一场收集迷因。

谁都想搭上端到端的快车，就算期间没跟上，宣传高地也必须占领。

有真谛的是，在「你亦然端到端，我亦然端到端」的情形下，很难把真伪的泡沫点破。

究其根柢在于，端到端竣事旅途尚未斡旋，各家都有发言权。

当今对于端到端的界说不错永别为广义与狭义。

广义强调端到端是信息无损传递，不因东说念主为界说接口产生信息损耗，不错竣事数据初始的全体优化。

而狭义的端到端只强调从传感器输入到筹算、限定输出的单一神经收集模子。

也等于说，唯有应承广义模范，都能称之为端到端，因此能看到各家端到端智驾企业，从输入到输出的竣事体式具有各异化，当今主流有筹算有以下三种：

一是感知瓦解模子化。将大模子拆分为感知与瓦解（预测决策筹算）两个阶段，串联二者作念老师。以华为乾崑 ADS 3.0 为代表，其感知部分吸收 GOD 大感知收集，瓦解部分吸收 PDP 收集竣事端到端一张网。

二是模块化端到端。将智驾的悉数模子串联在沿路，用高端的样式斡旋老师。以 OpenDriveLab 的 UniAD（2023）为代表，通过跨模块（感知预测筹算）的梯度传导完周详局优化。

三是单一神经收集。也等于狭义端到端办法。用一通盘囊括输入到输出端的大模子，平直进行老师。以 Wayve 为代表，其生成式世界模子 GAIA-1、视觉-言语-动作模子 LINGO-2 可能是当年 One Model 端到端的宏大基础。

值得一提的是，要跟紧端到端潮流的转向，站在传统规矩算法之上的企业一时无法推翻重来，于是他们遵守了一条递进式的期间旅途

阐述中也明确表明了自动驾驶架构演进的四个阶段：感知「端到端」、决策筹算模子化、模块化端到端、单一模子（One Model) 端到端。

图源：辰韬本钱《端到端自动驾驶行业磋议阐述》

也等于说，从感知端模子上车，再进行筹算模子化，临了串联起来作念端到端老师。这是一种相对平滑的过渡体式。

蔚来智能驾驶研发副总裁任少卿一样以为，自动驾驶的大模子需要拆解成几许个层级，第一步是模子化，行业基本完成了感知模子化，可是规控模子化方面头部公司也莫得完全作念好，外汇投资第二步是端到端，去掉不同模块间东说念主为界说的接口，第三步是大模子。

天然，通往端到端的旅途既不错平滑过渡，也不错推倒重来。

小鹏就在 AI DAY 上就强调我方卸下职守，落地端到端大模子。

毫末也提到，「若是具备弥散勇气和决心去重构一套系统，遵循可能会更高一些。」

是以选拔何种旅途，何种样式，全凭自家招引实践条件考量。

但综上来看，由于各家竣事旅途、竣事程度、宣传力度均不一致，简直造就了端到端众说纷纭的迷局。

一个莫名点是，当尝试从一些显著特征判别真伪端到端时，会发现都行欠亨。

比如 BEV+Transformer 架构，好多企业将其视为感知模子化的标配，但这不代表一种绑定关系。只可说，这是当下在感知模子上一种较好的竣事样式。

以及特斯拉的纯视觉道路，与华为的激光雷达交融道路，都不错称为端到端，这仅是不同企业的道路选拔。

尽管有企业强调，不开脱高精舆图，无法作念端到端模子。

但更多声息如故更倾向于二者之间莫得实足联系。

石建萍强调，去高精舆图，不是端到端的一个前提条件。尽管当今商汤作念到了「无图」，但为了交互更友好，也准备把导航舆图加进去。

尤其，招引模子老师复杂性、量产落地的安全性、端到端有筹算成本等多身分考量，纯视觉如故激光雷达道路，都是各家企业的期间选拔。

而这些无法论证端到端的根源在于，端到端智驾强调的是结构上的梯度可传导以及全局优化，这仅是一种老师样式。

它会时常和另一个词「大模子」耻辱在沿路。

行业东说念主士都一致指明，这是两个不同维度的办法，大模子关切的是模子的参数数目以及知道智力。面前大模子为端到端竣事提供了惩处有筹算，但端到端并非例必基于大模子竣事。

那么，回来到开始的疑问，真假端到端到底如何看？

谜底是，要么扒代码，要么看体验。

前者看它代码到底如何编写，是否完成了从输入到输出的信息无损传递。显著，这不太现实。

后者则是到落地考证阶段，判断其智驾水平是不是像「老司机」，能处理多样 Corner case。这是唯独可靠的辨认样式。

有行业东说念主士默示，「端到端有筹行为念出来后，自动驾驶水平会有显著飞跃，若是效果差未几，那阐扬端到端有筹算是假的。」

端到端不一定是最终解，可是现今最优解

从上海东说念主工智能实验室发表的 UniAD 得到 CVPR 2023 最好论文，到特斯拉 FSD V12 的问世，再到智驾企业 Wayve 获 10 亿好意思元融资，在学界、业界、本钱的「共谋」下，端到端智驾开启了新一轮产业立异。

英伟达汽车奇迹部副总裁吴新宙以为，端到端恰是智驾三部曲的最终曲。

小鹏 CEO 何小鹏也直言，端到端将对智驾带来颠覆性变革。

不外，在端到端智能体研讨会对于端到端 VS 传统模块化的圆桌辩说中，临了论断却是端到端假想并未完全碾压传统模块化假想，这其中依然存在对于考证、落地、量产的冷念念考。

是以只可说，端到端不一定是聚首智驾结尾的最终解，但面前来看是最优解，它能够处理传统旅途难以惩处的极点案例，况且代表了一种减少东说念主工编码依赖，更高效的念念路。

基于这个旅途，随机能够通往智驾的更高阶段。

当今，包括学界、车企、智驾供应商在内，悉数东说念主都朝向端到端这个标的奔去。

从主体细分，三者在端到端智驾发展旅途中的侧重心与单干变装还不太一样。

学界侧重算法架构和期间旅途的探索，正如上海东说念主工智能实验室开源的 BEVFormer 架构，是当下通用的视觉感知算法结构；以及清华 MARS Lab 最早发表了「无图」自动驾驶有筹算，竣事了自动驾驶舆图的挂念、更新、感知一体化。

学术念念想的迸发被投射到业界，进而激动了期间的落地与发展标的。比如清华 MARS Lab 的 BEV 检测算法、BEV 追踪算法等，就在梦想汽车的家具中泛泛专揽落地。

不外不时贸易端的智驾供应商与车企，酌量更多的除了有筹算的系统性、落地可行性，更宏大的，是在时候竞赛中霸占优势。

面前，诸多智驾供应商于近两年都推出了自研的端到打量产有筹算。

客岁 4 月，毫末智行发布智驾生成式大模子 DriveGPT（雪湖·海若），这是竣事端到端智驾的宏大期间载体。

限定本年 5 月，搭载毫末 HPilot 智驾车辆超越 20 款，用户辅助驾驶行驶里程打破 1.6 亿公里。

小马智行也于客岁 8 月推出端到端智驾模子，已同步搭载到 L4 级自动驾驶出租车和 L2 级辅助驾驶乘用车。

本年 4 月，元帅对外展示了行将量产的高阶智驾平台 DeepRoute IO 以及基于 DeepRoute IO 的端到端惩处有筹算。

同个时段，商汤绝影推出头向量产的 UniAD，竣事去高精舆图，同期还发布了下一代智驾期间 DriveAGI，是基于多模态大模子打造的自动驾驶惩处有筹算。

显著，端到打量产落地，如故不得不发。

尤其是在特斯拉 FSD 开释入华信号后，车企们更是坐不住了。

小鹏在 5 月份就告示端到端有筹算量产上车，蔚来、梦想也于本年上半年加紧激动端到端模子上车筹算。

不外，2024 年只可勉强称之为端到打量产落地元年，着实的大范围上车瞻望在 2025 年。

商汤绝影默示，端到端更合理的落地时候在来岁下半年，能够达到一个量产导入状态。因为端到端期间有筹算想要教训上线，需要过程宽阔可靠性考证。

一位端到端行业东说念主士也指出，「端到端上车，说上信服能上，但上完之后到底有什么效果是另一趟事，若是想要达到特斯拉这般效果，本年之内还口角常困难。」

但岂论如何，端到端简直掀翻了新一场历练智驾实力的竞赛，而当今竞赛来到了下半场。

学界、业界在竞走的同期，也在相互助力，一同探索端到端的落地阶段。

面前来看，探索标的呈现三大趋势，主要对应的是端到端落地三大挑战，即：

端到端如何限定成本？

端到端如何搪塞黑盒问题？

端到端落地如何进行模范化考证？

一是端到端的优化。

端到端作为一个新期间旅途，大算力、大数据、大算法的高需求，构建了玩家的高门槛。大多数企业难以有特斯拉的决心与实力，参预十亿，甚而百亿好意思元 All in 端到端。

更何况，酌量到新事物的试错成本，在算法架构上，需要寥落揣度，如何均衡遵循与成本。

据 Momenta CEO 曹旭东先容，Monmenta 的念念路是把端到端架构分为两条岔路，即一条是端到端大模子，类比东说念主的长久挂念；另一条岔路是感知、瓦解阶段，类比东说念主的短期挂念。

通过短期挂念体式先考证口头正确性与数据灵验性后，再调治至端到端大模子的岔路上，保证高效老师。比拟平直专揽端到端模子，这种期间样式的老师成本能松开 10-100 倍。

二是端到端的兜底。

端到端智驾非常于类东说念主驾驶，但着实到了落地，还存在黑盒子的不能解释性问题亟待惩处，尤其濒临国内复杂的城市路况，安全性难以得到完全保险。

比如梦想推出了一套双系统有筹算对端到端兜底。系统 1 吸收端到端，对应正常的驾驶智力；系统 2 承载了 VLM 模子，对应泛化智力。

这非常于，系统 1 只需处理浅易的路况问题，而对于复杂的逻辑推理、未知问题，系统 2 不错惩处。这套体系能够栽种大模子的空间联系智力，并侧目大模子的推理速率问题。

三是端到端的考证。

端到端有筹算的落地，开始要资格教训的考证样式。但平直实车考证显著成本过于崇高，而基于数据回灌的开环测试条件（离线数据回来测试），与端到端智驾考证需要的可交互性并不匹配。

因此，基于模拟器竣事模子的闭环测试考证，成为了当下考证的可行旅途。阐述指出，闭环仿真用具的研发是端到端上车的必要条件。

面前行业在积极开展闭环仿真用具的探索：

学术界宽阔吸收 CARLA 作为端到端开荒的闭环仿真模拟器；

智驾生成式 AI 企业光轮智能招引生成式 AI，开荒出针对端到端算法研发的数据与仿真全链路惩处有筹算；

以及另一家同类型企业极佳科技，也打造出一套被称为世界模子的多模态视觉生成大模子。

尽管端到端落地的「门前雪」还未扫净，但行业对于端到端的信心如故到达一个至高点。

毕竟，端到端的出现，让东说念主工智能领域从由「规矩初始」为主导，越过到以「深度学习」为引擎，这代表了一种期间领域式的飞跃。

智能驾驶，毫无疑问地成为物理世界中，率先体验并展示这一变革的宏大端口。

本文作家：刘佳艺，著述来源：汽车之心，原文标题：《拆解端到端迷局：算力古迹、多元架构与落地挑战》。

风险辅导及免责要求商场有风险，投资需严慎。本文不组成个东说念主投资提倡，也未酌量到个别用户特殊的投资辩论、财务景况或需要。用户应试虑本文中的任何意见、不雅点或论断是否合适其特定景况。据此投资，责任兴盛。

股票杠杆