端到端自动驾驶的前世今生：不管VLA还是WM世界模型,都需要世界引擎

2025年的CVPR自动驾驶Workshop上，香港大学的Li Hongyang做了一篇名为《自动驾驶端到端方法：现状与展望》的开场演讲。演讲给了端到端一个定义，并介绍了端到端的前世今生，以及挑战，最后提出“世界引擎”（World Engine）的概念、最新进展（包括三个具体工作）、以及该领域的一些关键挑战。

本文根据Li Hongyang的演讲内容，结合自动驾驶开发应用的现状，给一些概念性的总结，结合他说的端到端1.5时代的两个分支，大胆的给当前VLA和WM下一个概念结论，最后回归到Li Hongyang的主旨，端到端都需要一个世界引擎。

端到端自动驾驶的定义

端到端自动驾驶的定义是“学习一个单一模型，直接将原始传感器输入映射到驾驶场景并输出控制指令”。它用一个统一的函数取代了传统的模块化管道。

这里的“函数”意味着给定观察（例如图像、点云或车辆信息）或目标，模型直接输出控制指令（例如转向、刹车或油门）。训练流程非常简单，可以是通过大量标注的SL监督学习、IL模仿学习，或者通过设计奖励的 RL强化学习。

所以，其实端到端是自动驾驶算法里面最广的一个概念，不管现在的VLA还是世界模型都是属于端到端的一种。

端到端自动驾驶的发展路线图

从20多年前简单的黑白图像输入开始。

多年来，出现了许多方法，可以分为条件模仿学习、泛化、Andrew Gigard团队的可解释性网络（使用多模态），以及PPJL、Soft ACT、ACO等在预训练阶段的工作。直到最近，出现了一些明确设计模块的显式方法，例如包含目标跟踪、地图和运动规划的模块，这就是模块化端到端规划与基础模型时代

而现在我们正处于“1.5代”的端到端自动驾驶的尾巴上。之所以称为“1.5代”，我们已进入基础模型（Foundation Models）时代，正在解决一些长尾问题（corner cases）。

1.5端到端时代，我们有两个分支：

一个涉及扩散（Diffusion）或使用扩散管道以及世界模型的分支。可以看到像Drive Dreamer、Cosmos Predict One和导航世界模型。Gaia 2也是一个视频生成模型，旨在实现更安全的辅助和自动化驾驶。这些模型利用多视图图像和不同的动作来预测不同类型的视频，以生成真实感和多样性。这个分枝可以总结为world model世界模型分枝。

另外一条分枝是基于大型语言模型（LLMs）的应用。例如，Java LM提出了一种“草图维基”方式，以更好地理解驾驶场景。还有Lingo Tool和早期的工作Job VRM，后者被认为是自动驾驶双系统的一个非常早期工作，它利用了基础模型更高的准确性，但缺点是延迟较高。因此，较小的模型可以预测大多数情况，并与基础模型协同工作。这个可以认为为现在VLM/VLA分支。

有了这两种方法论之后，Li Hongyang认为端到端开始步入第二代，目前，自动驾驶研究已进入第二阶段，需要处理大量的生产问题和工程工作。

有了端到端的架构，接下来就是大量的数据去训模型，下图为一个典型的训练和部署管道，包括数据收集（通常由专家驾驶）、训练（在固定的日志和回放数据上），以及评估和从推理中获得反馈，然后收集更多接管和不良数据。

真实世界部署的挑战

我们能否收集所有情况或极端情况，并最终将其真正转化为L4或L5级别的产品。

Li Hongyang引用了一个他非常喜欢的网站——特斯拉FSD追踪器，该网站主要收集北美城市中大量的客户数据。网站的实时图显示了特斯拉FSD在不同版本下“每次接管跑的公里数”（MPI）指标的年度变化，可以看到MPI在增加，这是一个非常有前景的积极信号，说明数据量的增加确实可以让端到端大模型无限接近自动驾驶。

但是，问题来了

看下图右侧，X轴表示正常驾驶和安全关键或濒临事故事件，随着驾驶里程累计，就可能会发生事故。

Y轴有两个，黑色曲线表示每英里发生危险情况的概率，红色曲线表示部署成本。随着大多数感知问题已经解决，遇到挑战性案例的概率变得非常罕见。但此时，部署成本变得非常昂贵，因为需要庞大的车队来收集所有危险案例。

剩余20%的长尾问题需要海量数据。原因是，有价值的极端情况变得越来越稀有，而收集危险驾驶数据可能会危及生命。

于是?Li Hongyang提出了一个“世界引擎”（World Engine）概念，可以解决这些挑战。

其核心思想是从人类专家驾驶中学习。该策略仍是任意的端到端规划算法，例如UniAD或V-AD等。通过与环境交互（可以称之为世界模型或与环境互动），给定当前的提示或动作（例如右转），我们希望从失败中学习，并改进当前的端到端规划器，使其适应生产环境。关键问题是如何生成这些有价值的极端情况。

这主要是由两部分组成：极端情况生成（从原始数据中的源场景生成安全关键场景），这大大节省了没有庞大车队时的成本。

这在行为层面上对模型进行建模，基本意味着给定轨迹，之后要对环境与自车之间的行为进行建模。然后，一旦有了轨迹，就需要渲染这些内容，这就是所谓的生成或渲染视频，即传感器仿真。

有了这么一个数据引擎（Data Engine），就可以来生成大量的极端情况场景，用于训练。

Li Hongyang提出还有一个算法引擎（Algorithm Engine），它没有在这里绘制，因为它仍在开发中。

有了数据引擎和算法引擎，他们共同构成了“世界引擎”的整个管道，之后可以用于改进和训练任意的端到端算法，帮助自动驾驶达成。

写在最后

其实最近，VLA和WM世界模型打的火热，说实话如果从词的概念上来讲，WM这个瓶子更大，能装的概念更多，但也意味着更能糊弄。

Jack认为 VLA应该是目前比较切合实际和看得到路径的方法，WM应该是终极目标，但目前国内提这个概念的公司多多少少都是想占领词汇和用户心智高地，其实瓶子里面装的是啥,多半夸张。

参考文章以及图片

*未经准许严禁转载和摘录-获取本文参考资料方式：

加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。

端到端自动驾驶的前世今生：不管VLA还是WM世界模型,都需要世界引擎

端到端自动驾驶的定义

端到端自动驾驶的发展路线图

真实世界部署的挑战

写在最后

相关推荐