长城广州车展正式发布VLA 群访首搭魏牌全新车型

点击展示全部

关于长城要上VLA，为何他们会在众多方案中，选择了VLA？VLA比起世界大模型、端到端，长城的理解和优势具体体现在哪呢？关于这些问题，我们有幸跟长城的领导和相关技术负责人有一次深度的交流，来听听看他们的思考，以及接下来长城辅助驾驶的方向节奏到底是怎样的？

1、为什么是VLA？

解决规则驱动的代码依赖。通过大模型，系统自己可以有思维推导和理解能力。

2、如何证明自己是VLA？

行业最常见的做法，要么让车机写“小作文”（思维推导链条）或者是“语音控车”，长城要跟进做吗？

长城的思考：

·思维链条窗口（小作文）：确实作为VLA的证据和可视化是有力的。

写小作文的意义，给初次体验VLA的人建立和系统的信任和沟通，以及对系统当下的行为作出“解释”。

但真正的意义在于，随着模型的不断升级，他会衍生出更多能有安全冗余的防御性预判驾驶。比如看到一个滚出马路的皮球，一般的端到端顶多就可以做到及时舒适地减速，绕行。而完善的VLA，理论上是可以有理解和推导，会理解到可能接下来会有人冲出来捡球，做进一步的风险预判以及防御性驾驶。

这就是VLA真正的强大之处，也是长城基于安全理念，要上VLA的理由。

·语音控车：同样，也是一个非常好的，证明系统自己有语言理解能力，也就是VLA的“L”。

决定做VLA系统，本质上是希望系统，具备风险场景的防御性驾驶能力，也就是场景理解。语音理解能力，只是开发VLA后诞生的附属产品之一。

而VLA带来的语音激活和控车，更大的意义在于语言文字的理解。比如让系统以后在xxx路段，按照习惯/当地实际情况，调整行驶速度，以及靠左/靠右行驶。

比如右转前的右侧道路有施工围蔽，端到端肯定是靠右走到施工区域面前再一次向左变道，存在无效变道和通行效率低的问题。此时就可以语音让VLA系统记住，以后在这条xx路上，提前靠左行驶，提前做到更高通行效率的选择。

这些都是需要文字+语音能力的理解，也是VLA中“L” 的核心意义所在。

3、长城做VLA的核心价值观：就是安全。

正如上述问题所说，能有语言和场景理解能力的系统，是可以对风险场景有思考和预判，也是源于长城对“安全”这一底线的深层敬畏，所以比起某个炫某个功能点的，长城更关注功能背后的责任，无论是怎么形式呈现，长城的VLA必须是安全的、可靠的。

4、长城的VLA落地节奏和产品矩阵？

其实长城接下来的产品布局：依次分别为CP Plus、CP Ultra、CP Master 这三种辅助驾驶方案。目前对外说VLA，更多的是想通过行业更广为人知的技术和名称，让人快速理解长城辅助驾驶的技术路径和内容。

当然，首发的将会是在长城的高端品牌——WEY上。据说在接下来的蓝山的换新改款有望搭载面世这套VLA，所以长城智驾驶的朋友，记得关注我们接下来的跟进和报道。

大家车言论-陈志豪：从我个人的想法来分享，VLA并不是某家特有的技术，别家如果有些噱头，其实更多是让用户有可视化的东西，相信这个东西可以孕育出新的可能性、看到未来的感觉。我个人的想法，如果我们想替你们把VLA说好，有没有一些场景或特定的功能可以孕育出来，让我们看到长城VLA和其他企业的VLA，在理念上会有一些不一样，或者说结合品牌基因，会有一些理念上的不同？

马骁：刚刚说了，我们做VLA的初衷是不一样的。尽管行业技术架构存在一定趋同，长城对VLA的价值理解与落地路径，却有着本质的不同。我们的核心差异，源于对“安全”这一底线更深层的敬畏。

第一，安全即底线。用一句话说，长城的VLA是“有所畏惧的智慧”。我们拒绝“招手即停”这类可能被滥用的功能，始终坚信：AI不能学坏，安全才是智能的起点。与一些友商在功能上追求炫酷不同，我们更关注功能背后的责任。

第二，防御性驾驶是我们研发的核心，这也是我们相较于新势力的显著优势：长城的VLA核心不是“炫技”，而是“防御”。关于防御性驾驶的处理，场景丰富度、识别推理准确率是我们比较显性的优势，为用户带来较强的安心感。比如车辆途径坑洼、窄路、静止临停车盲区、丁字路口等场景，辅助驾驶系统会像人类司机一样提前降速、规避风险，并通过思维链卡片呈现降速背后的动机，像老司机一样，实现从“被动响应”到“主动守护”的跨越。

第三，在交互体验上，我们追求“不打扰且有告知”的显性化信任：在推理显示方面，我们拥有独特优势。例如，我们的推理呈现精简，能在3D还原世界中将关键的场景及注意事项显示给用户，做到信息可感知又不庞杂；并能将车辆关注到风险可视化提供给驾驶员，将风险障碍物与还原世界结合，帮助驾驶员更快理解车辆关注点，这一点也优于其他新势力品牌。我们相信，信任源于透明且高效的信息传递。

第四，我们希望打造云端-车端协同架构：

我们以“云端世界模型”作为持续进化的训练场，以“车端VLA”作为稳定可靠的执行脑，通过虚实结合的“双脑”协同进化，确保技术在现实世界中万无一失。

这就是长城的VLA⸺它不像冰冷的机器，更像一位心怀敬畏、且能让你清知晓它思考过程的守护者。那么有什么体验上的不同？这个不同，可能要分场景看。在有些场景可能是比较好的，比如过去下雨天的场景，有水坑，水坑旁可能还会站个人。这个时候，一般的车开过去，会溅旁边的人一身水。但我们的车开过去，可能会有一些减速。这个减速，如果不通过CoT传播告诉用户，我是因为看到了这个人，这里有水坑，开过去可能会溅到他，所以才减速。如果不告诉他这个信息的话，对用户来说，这可能就是个误减速、误刹车、幽灵刹

车。我们是把整个推导的过程展示给用户，让用户更加容易理解这个车的表现。其他家，或多或少也在其他场景做了类似的东西，但有些是没有展现出来，或者有些展现出来，可能信息过于冗余。

对长城来说，我们是把VLA应该发挥的优势利用到了最大化。

大家车言论-陈志豪：我顺着这个逻辑往下问。长城对VLA也好，或者是其他的技术路线，对辅助驾驶板块的野心和目标，到底是要做某个技术路线的引领者，还是要做普惠者，有没有更大理念上，这种方向性的东西？

马骁：从方向上来说，从数据驱动开始，下一步肯定是知识驱动，包括原理驱动，它肯定要具备一定的通识能力。这个通识能力通过VLA实现也可以，通过世界模型实现也可以，或者通过其他东西去实现，都ok。在这个大的范式下，不管是谁，只要能做到比较好的效果，我们都是支持的。

大家车言论-陈志豪：我同意马总所说，长城想的这一点是更站在用户角度的，招手也好，语音控车也罢，从用户本身的场景来说，如果不解决低延迟，其实就是一个噱头。我们之前也用过理想的，你喊它停的时候，它得想，而且还得等个几秒，然后你就过了你想停的那个位置。我们验证过什么东西是好的，是用户需要的。比如普及也好，量产也好，我们的VLA应该做这个方向，要去看用户需要什么，而不是去做所谓最领先的。但是我也很好奇，咱们内部对L3的部署，这方面的力度怎么样，这个可以聊吗？

马骁：可能还不能说，但L3这个方向，我们确实在做。像昨天友商的发布会，直接发UI了，我说的L3是UI的L3，不是智驾的L3。大家都在往这个方向做，但是L3能做成什么样，大家都在探索。