VLA浪潮之下:智能驾驶的下一站,是选择题还是融合题?

点击展示全部

“端到端”仿佛已在上辈子。

不得不说,VLA最近真的很火!

刚刚过去的12月,长城汽车正式宣布魏牌全新蓝山将搭载VLA辅助驾驶大模型。

2025年11月28日,奇瑞汽车副总裁李学用和地平线CEO余凯一起在珠海测试搭载了一段式端到端+VLM的星途ET5。

同年11月5日,小鹏科技正式发布了第二代VLA大模型。

更早的8月,理想对外宣称,VLA司机大模型已在理想i8车型上发布并率先搭载,9月已经完成了AD Max用户全量推送。

其他像吉利的银河M9、零跑D19,也都采用了VLA技术。目前,小米汽车也在加紧关于VLA的研发工作,引入海外人才陈龙,探索在辅助驾驶领域引入VLA模型。

细细梳理下,有些出乎意料,选择VLA技术的车企远比想象的还多。那么,问题就来了,VLA凭什么成为多数人的选择?

让汽车学会“思考与对话”

很多人第一次听说“VLA”,大概都是从理想汽车那场借用认知科学经典《思考,快与慢》来阐释技术路线的发布会开始的。

2024年,李想正是以这本书为框架,将复杂的算法决策过程锚定在大众的认知模型里,清晰托出了“端到端+VLM”的技术全景。而到了去年5月,技术演化的又一关键一步——VLA被正式公之于众。它并非凭空诞生,其概念早在2023年就已活跃于机器人领域,随后被引入自动驾驶,被视为对传统“端到端”模型的一次关键进化。

那么,VLA究竟是什么?简单说,它是在“端到端”的骨架上,完成了一次感知、认知与执行的“三位一体”融合。它的全称 Vision-Language-Action,精准揭示了其工作流:先通过视觉编码器“看见”世界,再经由大语言模型(LLM)“理解”与“推理”,最后通过驾驶编码器“执行”动作。

既可以看得懂画面、听得懂指令,还能直接做出行动。

这一切进化的核心引擎,是大语言模型的引入。正如DeepSeek的横空出世所震撼世界的那样,LLM带来的“完善的世界知识体系”与“强大的推理能力”,正是辅助驾驶最梦寐以求的拼图。传统“端到端”模型虽高效,却长期因“黑盒”属性而备受诟病——系统为何决策?面对罕见的长尾场景为何“犯蠢”?人们无从知晓。

LLM的融入,从根本上改变了这一局面。它让系统不再仅是机械地处理像素与信号,而是能进行概念化的思考。例如,它不仅能识别出“前方有红色锥桶”,更能基于知识推理出“这代表车道封闭,需要安全变道”。这种类人的因果推理能力,极大地破解了“黑盒”难题。

从产品角度看,VLA的魅力更在于它实现了与人类司机的“同频沟通”。你无需学习任何专业指令,就像告诉人类司机“前面路口靠边停,我在便利店下车”一样,用最自然的语言与车载系统交互。甚至,系统还能主动生成“思维链”向乘客解释:“检测到右前方有自行车靠近,我将稍减速留出安全空间。”

这种拟人化的沟通与透明的决策过程,极大地增加了用户的信任,这或许正是越来越多车企押注于此的原因:在智能驾驶的下半场,赢得人心与赢得算法同样重要。

通向“自动驾驶”,必须穿越的“深水区”

尽管前景诱人,但VLA的大规模落地仍面临多重技术瓶颈。

世界人工智能大会期间,博世智能驾控中国区总裁吴永桥表示,VLA短期难以落地,仍需攻克多维难题。

首先,是“多模态对齐”的极高门槛。让视觉、语言和驾驶动作三个不同模态的信号在向量空间中对齐并高效协作,需要海量、高质量的多模态配对数据,其收集、清洗与训练成本巨大。

其次,是车端算力的严苛约束。VLA模型需要部署在车端芯片上进行实时推理。尽管目前英伟达Thor、高通骁龙Ride、华为昇腾等新一代智驾芯片已开始针对大模型计算进行设计优化,但其算力、能效能否完全满足VLA的复杂需求,仍需量产验证。

最根本的挑战,在于对物理世界的“理解”鸿沟。大语言模型精通“文本世界”的规则,但对真实世界的物理规律、常识和因果关系的理解仍存在局限。当场景超出其“知识库”或语言描述模糊时,系统可能出现不合常理的错误判断。

正是这些挑战,催生并凸显了另一条更具野心的技术路径:世界模型。

世界模型的思路是“跳过语言翻译”,旨在为车辆构建一个可计算、可推演的“物理世界”。它让系统通过学习到的物理规律,直接模拟不同驾驶动作将引发的未来状态,从而进行决策。华为将这条路径视为实现高阶自动驾驶的关键跳板,并提出了“WEWA”架构:云端世界引擎(WE)如同“AI驾校”,生成海量仿真场景;车端世界行为模型(WA)则作为“驾驶大脑”,直接输出控制信号。

用华为ADS研发负责人王军的比喻来说:“如果把智驾系统比作学生,VLA是通过做海量习题(数据)来应对考试,而WA则是先理解知识点(物理规律),从而能够举一反三。”蔚来李斌也在内部评价中称,WA让车拥有“想象力,而不仅仅是记忆力”。

世界模型的优势在于其可验证性。由于建立在明确的物理规律之上,其决策过程更容易进行形式化验证和安全边界检查,理论上能提供更高的安全保障。

然而,世界模型也远非万能钥匙。其训练成本极为高昂,构建一个能高保真模拟万千可能性的世界模型,需要天量的计算资源。据悉,华为车端WA模型的复杂度,其算力需求相当于一个数十亿参数的大模型持续运行。行业数据显示,训练顶尖大模型的成本已从数千万美元攀升至数亿美元量级,且仍在增长。

这条路径的落地,同样是一场对资金、算力和工程能力的极限考验。而这些困难,并非单一技术路径的困境,而是自动驾驶行业驶向未来必须穿越的深水区。

写在最后

眼下断言哪种技术路径将主宰未来,或许为时尚早。一个更具前瞻性的视角正在浮现:世界模型与VLA并非取代关系,而可能走向融合与共生。短期内,世界模型是驯化VLA的容器,能解决后者训练数据不足的致命痛点,但长期看,二者或许或融为一体。

自动驾驶的终极答案,可能并非一道选择题,而是一道融合题。技术道路的演进,终将回归到一个最质朴的目标:让机器以人类信赖的方式,安全地抵达远方。

本文作者为踢车帮 晞贝

声明:本文由太平洋号作者撰写,观点仅代表个人,不代表太平洋汽车。文中部分图片来源网络,感谢原作者。
1499
01-02
分享
发表您的看法…
半价购
分享