自动驾驶领域正在普遍转向使用基于变换器(transformer)的大型基础模型。尽管 Waymo、Tesla 和 Wayve 都采用端到-端训练的架构,但它们的具体实现方式有所不同。与普遍认为 Waymo 依赖传统手工规则的看法相反,它的技术同样先进。Waymo 采用一种混合系统,结合了用于复杂语义理解的视觉语言模型和用于低延迟、高精度几何推理的传感器融合模块,这种设计便于独立验证和保障安全。相比之下,Tesla 和 Wayve 更倾向于单一端到端模型的简洁性。实际上,三者之间的差异被夸大了,它们都在努力平衡模型性能、响应速度和安全验证这些核心挑战。
普遍趋势:从模块化到端到端 AI
自动驾驶行业正从传统的工程方法转型。过去的做法是将驾驶问题分解成许多独立模块,并手动设计它们。然而,这种方式难以处理现实世界中的复杂情况。
- 传统方法的局限性: Wayve 的首席执行官 Alex Kendall 提到,传统的“古典机器人学方法”是“将自动驾驶问题分解成一堆不同的组件,并在很大程度上进行手工设计。”
- 新方向: Wayve 和 Tesla 等公司已经转向训练一个单一的、基于变换器的基础模型来处理整个驾驶任务。他们认为,这种 端到-端架构 能更好地适应新的城市和驾驶条件。
- Tesla 的转变: Tesla 的 AI 主管 Ashok Elluswamy 承认,他们过去也使用模块化方法,因为它更容易调试。但他发现,“将人类价值观编入代码真的很难”,因此最终转向了端到端模型。
Waymo 的真实路径:并非落后的规则系统
外界,特别是 Tesla 的支持者,普遍认为 Waymo 依赖于一套笨拙的手写规则,而 Tesla 则使用尖端的 AI 模型。这种看法夸大了两者之间的差异。
事实上,Waymo 如今的商用车辆是由一个以端到端方式训练的基础模型控制的——就像 Tesla 和 Wayve 的车辆一样。
Waymo 早期发布了名为 EMMA 的研究模型,它直接将原始摄像头数据映射为驾驶决策。尽管 EMMA 在某些方面表现出色,但也面临实际部署的挑战,例如 空间推理能力差 和 计算成本高。因此,Waymo 在其商业车队中采用了一种更为成熟的混合系统。
Waymo 的混合系统:快思与慢想
Waymo 的系统将两种不同的神经网络并排使用,以兼顾复杂推理和快速反应。
慢思考:视觉语言模型 (VLM)
这个模块处理需要整体性、复杂推理的场景。
- 功能: 它利用 Google 的 Gemini 模型,借助其广泛的世界知识来理解罕见、新颖和复杂的语义场景,比如交警在事故现场指挥交通。
- 弱点: 这种模型的响应时间可能较长且不稳定,而且在精确的几何推理(如判断物体确切位置)方面表现不佳。
快思考:传感器融合模块
这个模块专为速度和精度而优化,处理对延迟极为敏感的安全场景。
- 功能: 它将场景分解为数十个独立对象(车辆、行人、交通锥等),并利用激光雷达(lidar)等传感器的数据进行精确的三维空间定位。
- 核心优势: Waymo 的联席 CEO Dmitri Dolgov 强调,“在延迟攸关安全的情况下……毫秒之差至关重要。”
- 数据驱动: 该模块并非依赖人类预设的规则来描述物体,而是通过数据驱动的训练过程,学习如何用一个“对象向量”来捕捉与驾驶最相关的信息。
训练方式的共性:都是端到端
尽管 Waymo 的架构是模块化的,但其训练方式仍然是 端到端的。这意味着在训练过程中,整个系统会根据最终的驾驶决策进行整体学习和调整。
“你仍然可以拥有模块,并以端到端的方式进行训练……我们随着时间的推移学到的是,如果可能的话,你希望有几个大的组件。这可以简化开发。” - Waymo, Dragomir Anguelov
Waymo 认为,这种模块化的方法有几个实际好处:
- 降低延迟,提高精度。
- 便于验证: 工程师可以独立测试和验证每个模块的功能,以确保系统的安全性。对于一个完全“黑箱”的单一模型来说,这要困难得多。
被夸大的差异
各公司都倾向于强调自己架构的优越性,但实际上,它们面临的问题是相同的,解决方案也可能比看起来更相似。
- Waymo 并非守旧派: Waymo 广泛使用现代 AI 技术,其系统完全有能力扩展到新的城市。它的混合架构只是在纯端到端模型的基础上增加了一个为速度和精度优化的模块。
- Tesla 和 Wayve 可能也没那么“纯粹”: 为了营销,这些公司可能淡化了其系统的模块化特征。例如,Wayve 的架构图中包含一个“安全专家子系统”,并提到会“整合其他传感器模式等额外信息来源”来增强紧急反应能力。这听起来与 Waymo 的传感器融合模块有相似之处。
最终,任何自动驾驶公司都必须解决 大型模型速度慢、易出错且难以调试 的根本问题。无论是采用混合系统还是单一模型,目标都是在复杂的现实世界中实现安全、可靠的自动驾驶。