为什么头部智驾玩家都在押注强化学习？

自动驾驶领域专业的技术、资讯分享全媒体平台。我们的slogan是：聚焦智能驾驶，紧盯行业前沿。

点击展示全部

[首发于智驾最前沿微信公众号]最近一些智驾玩家发布大模型，尤其是世界模型时，有一项技术总是伴随着频繁出现，那就是强化学习，地平线6月29日发布的HSD V2.0，核心升级就是世界模型+端到端强化学习双技术底座；Momenta在4月北京车展上宣布R7强化学习世界模型量产首发；小马智行4月发布PonyWorld世界模型2.0，强调其核心变化在于AI具备了自我诊断与定向进化的能力；蔚来在2026年1月将世界模型+闭环强化学习架构全量推送至数十万辆车；轻舟智航同样推出了基于世界模型+强化学习统一架构的解决方案。

强化学习似乎总是伴随着世界模型一起出现，为什么头部智驾玩家都在押注强化虚席？

模仿学习的天花板在哪里？

过去几年，自动驾驶模型的主流训练方式是模仿学习，即让AI观看海量人类驾驶数据，学习人在特定场景下会如何操作。在模仿学习的框架下，端到端自动驾驶系统逐渐成为主流架构，它将原本独立的感知、预测、规划等模块整合到一个统一的神经网络中，直接从传感器输入学习驾驶策略。这种组合在前几年取得了显著进展，但天花板也很明显。

模仿学习的本质是复现人类已有的驾驶行为，AI能学到的，不会超出人类驾驶员曾经做过的范围。这意味着系统很难处理那些人类驾驶员也很少遇到的极端场景，如前方突然滚出一个轮胎、夜间逆光条件下突然窜出的非机动车等，通过模仿学习训练的大模型就很难处理好。此外，这些场景在真实道路上出现频率极低，数据采集成本极高，但恰是自动驾驶安全性最需要攻克的部分。

图片源自：网络

更关键的问题在于，模仿学习只能让AI学会像人一样开，但无法让AI学会比人开得更好。此外，给大模型训练的真实驾驶数据中既有好的驾驶行为，也有大量不够好的驾驶行为，如果训练目标只是模仿，系统会连人类的缺陷一起学进去。

强化学习的介入，恰恰是为了突破这些限制。

强化学习的训练逻辑有何不同？

强化学习的训练逻辑和模仿学习完全不同，它不要求AI去模仿谁，而是给AI设定一个如安全、高效地完成驾驶任务这样的目标，然后让AI在一个环境里自己尝试、获得反馈、逐步优化自己的行为。

强化学习在自动驾驶中主要采用深度强化学习框架，将深度神经网络与强化学习相结合。在算法方面，由于自动驾驶涉及连续动作空间（方向盘角度、油门、制动等）和高维状态输入（多传感器数据），常用的算法包括深度确定性策略梯度（DDPG）、软演员-评论家（SAC）以及近端策略优化（PPO）等。其中PPO因其训练稳定性和相对较高的样本效率，在产业界获得了广泛应用。

图片源自：网络

强化学习的核心机制是一个持续循环的试错过程，在每个时刻，智能体感知环境状态，并据此做出动作决策，环境回馈一个奖励信号，智能体再根据这个信号调整后续决策，如此往复，最终持续动态优化到一条最优的驾驶策略。这一过程涉及几个关键设计要素。

状态空间是智能体能够感知到的环境信息的集合，在自动驾驶场景中包括自车速度、加速度、航向角等自身状态，周围车辆和行人的位置与运动轨迹，以及车道线、交通信号灯等道路结构信息。动作空间则是智能体可以执行的控制指令，在连续控制场景中一般包含方向盘转角、油门开度和制动压力三个维度的输出。

在所有设计环节中，奖励函数最为关键，它直接定义了什么样的行为是被鼓励的、什么样的行为是需要避免的，相当于为AI设定了学习的目标。自动驾驶的奖励函数需要同时平衡安全性（避免碰撞）、效率（缩短通行时间）和舒适性（减少急加速和急刹车）这三个相互冲突的指标。有相关研究已提出了多种设计方案，如基于二维碰撞时间的安全指标配合分段奖励，或者将多目标统一纳入一个综合函数。

策略网络则是承载最终决策的深度神经网络，它接收状态输入，输出具体的动作指令，网络参数的更新依据是智能体在交互过程中累积获得的奖励总和，奖励越高，说明当前策略越优，网络就朝着这个方向调整。通过与环境反复交互，策略网络会逐步动态优化到能够最大化累积奖励的最优驾驶策略。

图片源自：网络

这套逻辑在游戏领域已经被验证过，像是AlphaGo下围棋、OpenAI打Dota，都是通过强化学习让AI自己跟自己下棋、自己跟自己打游戏，最终超越人类顶尖选手，自动驾驶行业现在做的事情，本质上是把同样的思路搬到物理世界。

但自动驾驶和围棋有一个根本区别，围棋的规则是确定的，落子之后的局面变化是可以精确计算的，而真实道路没有确定的规则，其他车辆和行人的行为无法被精确建模，这就引出了强化学习在自动驾驶中落地的一个关键前提，需要一个足够真实的训练场，而这个训练场，就是现在行业里反复被提及的世界模型。

世界模型和强化学习为什么总被放在一起？

世界模型的作用，是将物理世界的规律压缩进一个可计算的模型里，让系统能够预测未来状态。说得更具体一些，世界模型不是一个简单的仿真器，它要准确模拟物体之间的物理交互，车撞到护栏会怎样、前车急刹时后车的反应时间窗口有多长、雨天路面湿滑对制动距离的影响是什么等，都是世界模型中需要考虑的参数。

只有世界模型的精度足够高，强化学习才能在这个环境里取得正向的训练结果。若世界模型本身不准确，AI在虚拟环境里学到的策略到了真实道路上可能完全失效。

图片源自：网络

Momenta的方案就将这一过程拆解为三个层次，第一层是世界模型预训练，即通过海量真实驾驶数据的预训练，将物理规律、常识与因果关系压缩进模型，使系统形成对物理世界的基础认知；第二层是世界模型仿真，即将世界模型用于自动驾驶的闭环仿真，让系统能够推演自身行为变化时世界将如何演变，依托高效场景推演能力对长尾场景进行性能评估。第三层是在世界模型中进行强化学习，也就是在前两层的基础上，为强化学习构建一个高度真实的虚拟训练场，让系统在接近真实的环境中反复探索与试错。

世界模型对于强化学习的价值，归结起来可以落在两个点上。

第一个是规模，真实道路上采集一个极端场景的数据可能需要跑几十万公里，但在世界模型里可以按需生成，逆光条件下非机动车与行人混行的路口、突然窜出的电瓶车、被遮挡的儿童等，在世界模型中可以快速模拟出来。

小马智行PonyWorld 2.0的做法则更进一步，其系统能够自动识别世界模型精度不足的具体场景，主动生成null