为什么头部智驾玩家都在押注强化学习?
[首发于智驾最前沿微信公众号]最近一些智驾玩家发布大模型,尤其是世界模型时,有一项技术总是伴随着频繁出现,那就是强化学习,地平线6月29日发布的HSD V2.0,核心升级就是世界模型+端到端强化学习双技术底座;Momenta在4月北京车展上宣布R7强化学习世界模型量产首发;小马智行4月发布PonyWorld世界模型2.0,强调其核心变化在于AI具备了自我诊断与定向进化的能力;蔚来在2026年1月将世界模型+闭环强化学习架构全量推送至数十万辆车;轻舟智航同样推出了基于世界模型+强化学习统一架构的解决方案。
强化学习似乎总是伴随着世界模型一起出现,为什么头部智驾玩家都在押注强化虚席?

模仿学习的天花板在哪里?
过去几年,自动驾驶模型的主流训练方式是模仿学习,即让AI观看海量人类驾驶数据,学习人在特定场景下会如何操作。在模仿学习的框架下,端到端自动驾驶系统逐渐成为主流架构,它将原本独立的感知、预测、规划等模块整合到一个统一的神经网络中,直接从传感器输入学习驾驶策略。这种组合在前几年取得了显著进展,但天花板也很明显。
模仿学习的本质是复现人类已有的驾驶行为,AI能学到的,不会超出人类驾驶员曾经做过的范围。这意味着系统很难处理那些人类驾驶员也很少遇到的极端场景,如前方突然滚出一个轮胎、夜间逆光条件下突然窜出的非机动车等,通过模仿学习训练的大模型就很难处理好。此外,这些场景在真实道路上出现频率极低,数据采集成本极高,但恰是自动驾驶安全性最需要攻克的部分。

图片源自:网络
更关键的问题在于,模仿学习只能让AI学会像人一样开,但无法让AI学会比人开得更好。此外,给大模型训练的真实驾驶数据中既有好的驾驶行为,也有大量不够好的驾驶行为,如果训练目标只是模仿,系统会连人类的缺陷一起学进去。
强化学习的介入,恰恰是为了突破这些限制。

强化学习的训练逻辑有何不同?
强化学习的训练逻辑和模仿学习完全不同,它不要求AI去模仿谁,而是给AI设定一个如安全、高效地完成驾驶任务这样的目标,然后让AI在一个环境里自己尝试、获得反馈、逐步优化自己的行为。
强化学习在自动驾驶中主要采用深度强化学习框架,将深度神经网络与强化学习相结合。在算法方面,由于自动驾驶涉及连续动作空间(方向盘角度、油门、制动等)和高维状态输入(多传感器数据),常用的算法包括深度确定性策略梯度(DDPG)、软演员-评论家(SAC)以及近端策略优化(PPO)等。其中PPO因其训练稳定性和相对较高的样本效率,在产业界获得了广泛应用。

图片源自:网络
强化学习的核心机制是一个持续循环的试错过程,在每个时刻,智能体感知环境状态,并据此做出动作决策,环境回馈一个奖励信号,智能体再根据这个信号调整后续决策,如此往复,最终持续动态优化到一条最优的驾驶策略。这一过程涉及几个关键设计要素。
状态空间是智能体能够感知到的环境信息的集合,在自动驾驶场景中包括自车速度、加速度、航向角等自身状态,周围车辆和行人的位置与运动轨迹,以及车道线、交通信号灯等道路结构信息。动作空间则是智能体可以执行的控制指令,在连续控制场景中一般包含方向盘转角、油门开度和制动压力三个维度的输出。
在所有设计环节中,奖励函数最为关键,它直接定义了什么样的行为是被鼓励的、什么样的行为是需要避免的,相当于为AI设定了学习的目标。自动驾驶的奖励函数需要同时平衡安全性(避免碰撞)、效率(缩短通行时间)和舒适性(减少急加速和急刹车)这三个相互冲突的指标。有相关研究已提出了多种设计方案,如基于二维碰撞时间的安全指标配合分段奖励,或者将多目标统一纳入一个综合函数。
策略网络则是承载最终决策的深度神经网络,它接收状态输入,输出具体的动作指令,网络参数的更新依据是智能体在交互过程中累积获得的奖励总和,奖励越高,说明当前策略越优,网络就朝着这个方向调整。通过与环境反复交互,策略网络会逐步动态优化到能够最大化累积奖励的最优驾驶策略。

图片源自:网络
这套逻辑在游戏领域已经被验证过,像是AlphaGo下围棋、OpenAI打Dota,都是通过强化学习让AI自己跟自己下棋、自己跟自己打游戏,最终超越人类顶尖选手,自动驾驶行业现在做的事情,本质上是把同样的思路搬到物理世界。
但自动驾驶和围棋有一个根本区别,围棋的规则是确定的,落子之后的局面变化是可以精确计算的,而真实道路没有确定的规则,其他车辆和行人的行为无法被精确建模,这就引出了强化学习在自动驾驶中落地的一个关键前提,需要一个足够真实的训练场,而这个训练场,就是现在行业里反复被提及的世界模型。

世界模型和强化学习为什么总被放在一起?
世界模型的作用,是将物理世界的规律压缩进一个可计算的模型里,让系统能够预测未来状态。说得更具体一些,世界模型不是一个简单的仿真器,它要准确模拟物体之间的物理交互,车撞到护栏会怎样、前车急刹时后车的反应时间窗口有多长、雨天路面湿滑对制动距离的影响是什么等,都是世界模型中需要考虑的参数。
只有世界模型的精度足够高,强化学习才能在这个环境里取得正向的训练结果。若世界模型本身不准确,AI在虚拟环境里学到的策略到了真实道路上可能完全失效。

图片源自:网络
Momenta的方案就将这一过程拆解为三个层次,第一层是世界模型预训练,即通过海量真实驾驶数据的预训练,将物理规律、常识与因果关系压缩进模型,使系统形成对物理世界的基础认知;第二层是世界模型仿真,即将世界模型用于自动驾驶的闭环仿真,让系统能够推演自身行为变化时世界将如何演变,依托高效场景推演能力对长尾场景进行性能评估。第三层是在世界模型中进行强化学习,也就是在前两层的基础上,为强化学习构建一个高度真实的虚拟训练场,让系统在接近真实的环境中反复探索与试错。
世界模型对于强化学习的价值,归结起来可以落在两个点上。
第一个是规模,真实道路上采集一个极端场景的数据可能需要跑几十万公里,但在世界模型里可以按需生成,逆光条件下非机动车与行人混行的路口、突然窜出的电瓶车、被遮挡的儿童等,在世界模型中可以快速模拟出来。
小马智行PonyWorld 2.0的做法则更进一步,其系统能够自动识别世界模型精度不足的具体场景,主动生成null
声明:本文由太平洋号作者撰写,观点仅代表个人,不代表太平洋汽车。文中部分图片来源网络,感谢原作者。
17
07-02
分享相关推荐

2124
06-17
51
06-15
2268
06-06
2126
05-30
82
04-28
210
04-20
461
03-20
1767
02-18
234
02-07
693
2025-12-06