各车企相继发布的物理AI大模型是什么？有何优势？

自动驾驶领域专业的技术、资讯分享全媒体平台。我们的slogan是：聚焦智能驾驶，紧盯行业前沿。

点击展示全部

[首发于智驾最前沿微信公众号]2026年，贯穿北京车展、各大厂商发布会乃至科技企业财报的，有一个高频词汇，那就是物理AI。小鹏在财报中明确将企业定位从智能电动车企升级为物理AI公司，何小鹏称物理AI应用正处在从量产落地到规模爆发式增长的前夜，公司在2026年大幅提升了物理AI相关研发投入。华为发布ADS 5系统，将其底层技术升级为面向自动驾驶的AI智能体。蔚来创始人李斌则在公开场合为蔚来世界模型的最新版本更新站台，宣布蔚来和乐道都将在六月迎来蔚来世界模型NWM新版本升级。理想汽车也在NVIDIA GTC 2026上发布了下一代自动驾驶基础模型MindVLA-o1，并表示自动驾驶只是物理AI的起点，未来这类基础模型将驱动新的具身智能范式。

从这些企业密集的动作中，其实我们可以发现智能驾驶的技术重心，正在从让车看见世界转向让车理解世界，而物理AI正是这一转向的技术内核。

什么是物理AI，它和传统AI的区别在哪里？

想要理解物理AI，首先要明确一个基本前提，那就是传统AI处理的是数字世界的信息，而物理AI的目标是让智能体在真实物理世界中运行。

百度百科将物理AI定义为融合物理世界建模与智能决策能力的系统，其核心在于通过数学模型、传感器数据与机器学习算法的结合，使智能体能够理解物理规律、预测环境变化并执行符合物理约束的操作。中国科学技术大学特任教授王翔给出了一个更贴近技术本质的解释，物理AI意味着AI系统具备在真实世界中感知、推理、行动、反馈的闭环能力，它不仅会思考，更能通过机器人等具身设备执行任务，并从真实反馈中持续纠错、自我进化。

图片源自：网络

传统AI（或者说数字AI）的核心能力是模式识别，它能从海量标注数据中学习统计规律，然后对未见过的输入做预测。这种能力在文本生成、图像识别等任务上表现优异，但有一个根本性的缺陷，那就是它并不理解物理世界的内在规律。

一个传统模型可以精准识别出前面有一辆车，但它不会知道这辆车在湿滑路面上的刹车距离是多少，也不会预判路面坡度对车辆重心变化的影响。元戎启行CEO周光在一次演讲中对这个区别做了更清晰的阐述，小模型像是条件反射，依赖局部特征，擅长即时反应，但难以实现高级认知理解；大模型则更接近认知智能，具备更强的泛化能力，能够像人一样进行整体判断。

两者最根本的区别在于，传统AI是数据驱动的映射，物理AI是物理规律驱动的推理，前者需要海量标注数据覆盖尽可能多的场景，而后者即使面对从未见过的场景，也可以基于对物理规律和因果关系的理解，做出合理决策。

图片源自：网络

Momenta合伙人、CEO曹旭东从模型预测能力变迁的角度对此做了更底层的拆解，他指出，大语言模型的核心能力是下一词元预测，这使得AI能够压缩数字世界的常识，具备文本理解能力；而世界模型要做的是预测物理世界未来的状态和交互逻辑，从而获得理解物体物理属性、运动因果关系和交互潜在可能的能力。曹旭东总结，世界模型与强化学习共同构成了物理AI的两大核心支柱，这也是在行业内被广泛认同的一个概念。

物理AI涉及哪些技术？

如果说物理AI是一个能力目标，那么实现这一目标的技术路径主要有世界模型和VLA两条。

先说世界模型，世界模型不是简单的仿真引擎，而是一套能够理解物理世界运行规律并据此预测未来状态的系统。世界模型可以分解为3层，第一层是预训练，通过海量真实驾驶数据将物理规律、常识与因果关系压缩进模型，形成对物理世界的基础认知；第二层是仿真，将世界模型用于自动驾驶的闭环仿真，让系统能够推演自身行为变化时世界将如何演变，对长尾场景进行性能评估；第三层是在世界模型中进行强化学习，为强化学习构建高度真实的虚拟训练场，让系统在接近真实的环境中反复探索与试错。

华为ADS 5的WEWA 2.0架构采用的就是这一技术路线，其云端世界模型引入了多智能体博弈机制和多模态生成式AI技术，训练强度提升了10倍；WEWA 2.0架构采用边生成、边学习、边验证的在线强化学习，训练效率再提升10倍；车端世界行为模型应用了安全风险场理论，通过量化动能场、势能场与行为场生成动态风险热力图，使碰撞风险降低50%。这套技术架构将物理世界极难复现的极端场景转移到虚拟空间中反复训练，从而以可控的成本逼近真实路况的安全极限。

图片源自：网络

蔚来的世界模型路线也进入了规模化验证阶段，2026年1月，蔚来将采用世界模型+闭环强化学习技术架构的智能辅助驾驶版本，全量推送至搭载Banyan、Cedar、Cedar S智能系统的数十万辆车型上。在1月版本更新后的3个月时间里，蔚来用户城区领航辅助的使用里程和时长环比分别提升了92%和116%。此后蔚来进一步将技术架构升级为世界模型+监督微调+闭环强化学习三层训练框架，在国内首次实现了智能辅助驾驶系统直接操作方向盘和踏板，跳过了传统的轨迹规划中间层，使路径更短、延迟更低。此外，蔚来还通过重构传感器的信息表征方式，在自研系统中首次实现了对潮汐车道、可变车道天空路牌的实时识别与理解。

特斯拉在2026年1月公开了一份世界模型专利，详细描述了其数字孪生+平行宇宙的实现方案，利用真实车辆采集的视觉数据可重建出高精度的道路三维模型，再通过算法在这个模型上生成无数种现实中难以采集的极端场景，用于训练车端算法。这个模拟器可以让AI在一天内学习相当于人类500年经验的虚拟路况，大幅降低对真实路测的依赖。

VLA（视觉-语言-动作）大模型则与侧重于虚拟推演的世界模型不同，VLA的目标是在同一个模型框架内统一感知、推理和决策。理想汽车在NVIDIA GTC 2026上发布的MindVLA-o1就是这一方向的代表，该模型采用原生多模态MoE Transformer架构，通过五大技术创新构建了面向物理世界智能的自动驾驶基础模型。在感知层面，理想采用了以视觉为核心的3D ViT Encoder，利用激光雷达点云作为三维几何提示，引导模型理解真实空间结构；同时引入预测式隐世界模型，能够在隐空间中对未来数秒的场景演化进行高效模拟。理想汽车基座模型负责人詹锟指出：“当我们把视觉、语言和行动统一到一个模型中时，它已不再只是自动驾驶模型，而是在逐渐演化为面向物理世界的通用智能体”。

小鹏的第二代VLA则走了一条更为集约的工程路线，该模型摒弃了对显式三维重建的依赖，更强调对连续视频流的使用，让模型自身去学习空间关系和因果关系。小鹏第二代VLA已正式向用户推送，推送首月搭载第二代VLA车型的辅助驾驶里程占比首次突破50%。小鹏自研的图灵芯片也为这套模型提供了算力支撑，搭载Robotaxi车型GX的4颗图灵芯片提供了3000TOPS的有效算力。何小鹏称第二代VLA“不只是自动驾驶模型，更是物理世界基座模型”。

图片源自：网络

需要一提的是，这两条路线并不是只能二选一，理想的MindVLA-o1中已经整合了隐式世界模型的推演能力，而Momenta的R7强化学习世界模型也在预训练、仿真和强化学习三个层次上覆盖了类似VLA的决策推理功能。现阶段，行业竞争的重心正在从理论路线的争论转向工程化落地效率的比拼。

为什么车企要转向物理AI大模型

周光在一次行业演讲中指出，行业过去几年投入了大量资源在小模型上，但模型能力的提升呈现出明显的边际递减效应，最开始投入少量资源，效果提升很明显；但随着场景复杂度不断提高，投入越来越大，收益却越来越有限。与此同时，小模型也存在跷跷板效应，某个版本解决了一部分问题，却可能引入新的问题；后续再针对性修复，又可能带来新的不稳定因素。这种能力波动不仅影响系统的可靠性，也让用户难以建立对辅助驾驶的长期信任。周光的判断是，行业正在从小模型主导期进入大模型共识期。

其实不难发现，真实道路的长尾场景几乎无穷无尽，一辆车突然从路边冲出、施工路障摆了非标准形态、暴雨天路面积水的反光干扰摄像头……这些场景在采集数据中出现的概率极低，传统端到端模型一旦遇到，出错概率显著上升。物理AI的解决方案是让AI不再依赖对场景的记忆，而是基于对物理规律和因果关系的理解做推理，就像人类驾驶员一样，遇到没见过的情况也能临场判断，这正是物理AI大模型逐步走上舞台的主要原因。

图片源自：网络

2025年底，工信部批准了首批L3级自动驾驶车型的准入许可，意味着车辆在某些条件下可以由系统完全接管驾驶任务，但L3级自动驾驶对系统可靠性的要求远高于L2，而L2系统存在的典型的不确定性，在L3权限下是不可接受的。物理AI提供的因果推理能力和更稳定的表现，正是满足L3的必要基础。

最后的话

2026年可以说是物理AI元年，这有技术也正处于从技术理念走向规模化落地的关键阶段。据公开数据显示，2026年1至2月，国内具备L2级组合驾驶辅助功能的乘用车新车渗透率已达到69.15%。城市NOA功能加速落地，华为、小鹏、理想等厂商加速迭代，特斯拉监督版FSD也将正式进入中国市场。在渗透率快速攀升、技术路线逐渐收敛的背景下，车企之间的智驾竞争已经从有没有转向好不好用。而好不好用的核心，恰恰在于系统能否像人类一样理解物理世界的因果关系，从而做出安全、平顺、可预期的决策。