有了占用网络技术,还需要激光雷达吗?
[首发于智驾最前沿微信公众号]想象这么一个场景,一辆自动驾驶车在高速路上以110公里的时速行驶,前方突然出现一个从货车上滚落的纸箱,纸箱没有出现在任何标准的物体标注数据集中,此时自动驾驶系统会这么做?如果是传统感知系统,它很可能将这个纸箱归为未知,然后将其忽略或错误处理,最终车辆会直接撞上去。
这种对已知类别精细,对未知物体失明的解决方案,正是传统感知系统长期无法回避的问题。在实际的交通场景中,路面上可能出现的异形物体、临时堆放的施工材料、甚至是一大块被风吹起的塑料布,这些都有可能是影响行车安全的长尾问题。Occupancy Network(占用网络)的提出,则为这个问题提供了一种不同的解法,也让很多人提出了一个大胆猜测,那就是有了占用网络,还需要激光雷达吗?
当感知从猜物体转向识空间
传统基于3D目标检测的感知方法,本质上是将三维世界简化为一个物体列表,每个物体用一个轴对齐的立方体框来表示,框内包含了物体的位置、尺寸和朝向,框的标签则表明物体类别。这种表示在大部分场景下是有效的,但它有两个先天缺陷。
第一个缺陷是几何失真,一个立方体框会包含大量空白区域,比如一辆卡车的货厢与驾驶室之间就会存在不规则的凹陷,框会将整个区域标记为占据,导致规划模块认为那里有障碍物。反过来,如果物体的形状不规则,比如工程车上伸出的长臂或者一棵倒伏的树,方形的框可能无法完整覆盖物体的实际占据区域,二造成碰撞风险。
第二个缺陷则是它只能识别被标注过的物体,若训练集中有锥桶,模型就能识别锥桶;训练集中没有纸箱,模型就会把纸箱当作背景。但现实世界中出现的物体类型几乎是无穷的,没有任何数据集能穷尽所有可能性。
图片源自:网络
占用网络则是放弃了猜物体的思路,转而回答一个更基础的问题,三维空间中的每一个微小单元是否被占据?它将空间离散化为大量规则的体素,对于每个体素,网络只需要预测两件事,它是否被占据,以及如果被占据,它属于哪一类。类别预测一般是可选的,实际应用中往往只对如汽车、行人等少数关键类别进行细分,其余统一标记为通用障碍物。这种表示不依赖于物体形态的先验知识,只要某个位置有东西,无论它是什么形状、有没有见过,都会被标记为占据。几何优先于语义的理念,正是它应对开放世界的能力来源。
占用网络通常以环视相机图像作为输入,经过特征提取和视角变换(如BEVFormer中的空间交叉注意力),生成一个BEV特征图,再通过3D卷积或Transformer解码器向上投影到3D空间,最终输出大小为(H,W,Z)的占用概率张量。
对于占用网络来说,输出分辨率是一个关键参数,当前主流方案中,体素大小通常设定在0.2米到0.5米之间,体素越精细,对细小物体的感知能力越强,但计算量也呈立方级增长。一个覆盖车前80米×80米×6米的空间,采用0.2米体素时,体素总数达到480万个,这对芯片的算力和内存带宽提出了很高要求。
图片源自:网络
时序信息的融入是占用网络能力的另一个重要提升点,早期的占用网络只处理单帧图像,输出当前时刻的静态占用,但自动驾驶需要感知运动,比如判断前方一辆急刹车的车是否会和自己发生碰撞。为此,4D占用网络引入了一个额外的预测头,输出每个体素的流场,即该体素在相邻两帧之间的运动速度和方向。通过融合连续多帧的历史信息,网络还能对动态物体建立起时空一致性,避免出现物体忽隐忽现的闪烁伪影。
此外,研究人员还开始将占用网络与规划模块进行更紧密的耦合,传统方案的做法是感知、预测、规划流水线,占用网络的输出交给下游模块处理。2025到2026年间涌现的占用世界模型思路,试图让网络直接输出未来几秒内的占用预测,形成一个端到端的可微分框架。如CascadeOcc框架通过层级化结构将场景的内在结构融入网络,实现了对未来占用状态的预测,并在此基础上直接生成行驶轨迹。这种感知即预测的做法,减少了中间环节的信息损失,也让系统的响应更加及时。
从技术路线到产业落地,各家走出了不同的路
对于占用网络的技术探索,不同公司和技术团队走出了差异化的路径。特斯拉是最早公开提出占用网络并量产上车的公司,2022年AI Day上,特斯拉展示了基于纯视觉的占用网络,能够实时重建出车辆周围的3D占据空间,其中包括路沿、锥桶以及各种形态不规则的障碍物等。特斯拉的方案不依赖激光雷达,完全依靠摄像头和强大的神经网络来推断体素的占据状态,这种做法的前提是需要拥有海量的高质量训练数据,特斯拉的车队每天就能收集到数百万公里的真实驾驶视频。到了2023年,特斯拉进一步转向端到端架构,将感知、预测和规划整合成一个神经网络,代码量从原来的数万行缩减到几千行。
国内车企的选择更加多元化,蔚来的占用网络主要用于降低异形障碍物的误检率,尤其是在城市环境中遇到施工挡板、临时路障等非标物体时,系统不会因为识别失败而做出危险决策。
小鹏的XNet架构支持纯视觉无图化,据小鹏2024年520 AI DAY发布会信息,XNet通过聚合动态XNet、静态XNet和行业首个量产纯视觉2K占用网络,实现端到端智驾,感知范围可达1.8个足球场大小,能精准识别50多个目标物。
图片源自:网络
华为则将占用能力融入ADS系统,在视觉网络之外保留了激光雷达作为补充。华为ADS 2.0的核心就是GOD网络和OCC占用网络,本质是将激光雷达数据与摄像头数据融合,而非单纯依赖某一种传感器。高阶版车型中激光雷达仍然作为安全冗余存在,形成了视觉为主、激光雷达为辅的架构。
值得一提的是,由商汤绝影与上海人工智能实验室联合提出的OccNet(Scene as Occupancy),采用级联时序体素解码器来重建3D占用场,其核心是在纯视觉框架下探索占用感知能力。该论文的实验结果表明,将OccNet应用于运动规划可以将碰撞率降低15%到58%,这是一个有明确量化依据的提升。
激光雷达的角色正在经历怎样的变化
占用网络的能力越来越强,也在网上看到了一个讨论,那就是有了占用网络,激光雷达还有必要装吗?
纯视觉占用网络确实展示出了非常厉害的几何感知能力,但它仍然有明确的边界。摄像头的成像原理决定了它需要环境光照,在夜间、隧道出入口以及强光直射的场景中,图像传感器的动态范围可能不足以同时保留高光和阴影区域的细节。而对于那些人眼都难以看清的暗光环境,纯视觉系统的感知可靠性更是下降。此外,雨雾和雪天还会进一步降低图像对比度,使得远距离障碍物的检测变得困难。这些场景是纯视觉方案需要持续攻克的难点,而激光雷达作为主动式传感器,不依赖环境光,在这些条件下仍然能够输出点云数据。
图片源自:网络
以前聊到激光雷达,很多人的第一反应就是贵。2020年前后,一颗车规级激光雷达的价格还在数万美元量级,但到2025年,入门级产品的价格已经下探到2000到3000元人民币,价格下降的同时,性能却在提升。华为发布的896线图像级激光雷达,分辨率达到了接近图像的水平,这意味着激光雷达不仅能输出几何信息,还能在一定程度上感知物体的材质和纹理。禾赛的第六代芯片平台则更进一步,在同一颗芯片上实现了三维空间感知和物体色彩信息的同步采集。更轻、更小、更便宜、更强的激光雷达,正在改变它作为昂贵配件的定位。
激光雷达在数据闭环中更是不可替代性,当前几乎所有先进的视觉占用网络,在训练阶段都依赖激光雷达生成的点云数据来提供真值标签。一辆装有激光雷达的采集车可以精确地知道每个体素是否被占据,这些数据经过处理后成为视觉网络的学习目标。换句话说,激光雷达在车辆感知系统中或许不再是必须的,但在训练和迭代视觉模型的过程中,它仍然是重要的工具。
图片源自:网络
当然,当前行业的实际选择也印证了占用网络与激光雷达是共存而非替代的趋势。据盖世汽车研究院数据,2025年中国乘用车市场激光雷达总装机量为275.6万台,在新能源乘用车中的渗透率达到21%。高工智能汽车研究院的数据显示,2025年中国市场乘用车前装标配激光雷达搭载量达到324.84万颗,同比增长112.07%。
两个数据来源的口径略有不同,但都指向同一个趋势,激光雷达正在快速普及。与此同时,L3及以上高阶智驾车型中激光雷达的搭载比例接近100%,这反映出行业对感知冗余的重视。有的车企坚持纯视觉路线,通过算法和数据来弥补传感器的不足;更多的车企则将激光雷达作为标配,尤其是在面向城市复杂环境的车型上,激光雷达更是不可或缺。
从替代到共生,技术路线的真实图景已现?
将上述分析综合起来,可以得出一个清晰的判断,占用网络并不会让激光雷达变得鸡肋,两者之间的关系正在转向一种更复杂的协同关系。
从安全性的量化角度看,学术研究已经证实基于占用网络进行规划可以将碰撞率降低15%到58%,这个提升来自于体素级精细感知带来的决策增益,车辆不再需要对障碍物进行识别、分类、避险的操作,而是可以直接得出这里不能走的结论。与此同时,搭载激光雷达的车型在涉及夜间和恶劣天气的事故统计中表现出明显更低的介入率,这说明在极端场景下,多传感器融合仍然有不可替代的优势。
未来,自动驾驶感知系统的形态很可能是分层配置的,在成本敏感的市场区间,纯视觉占用网络方案可以凭借硬件成本和算法效率成为主流,满足基本的安全需求。而在对安全冗余有更高要求的应用场景中,激光雷达仍然会扮演关键角色,但其存在形式可能发生变化,激光雷达或将不再作为主力感知源独立工作,而是与视觉占用网络深度融合,形成一种互相校验、互为备份的结构。
声明:本文由太平洋号作者撰写,观点仅代表个人,不代表太平洋汽车。文中部分图片来源网络,感谢原作者。
2108
07-05
分享相关车系
相关推荐

2039
07-05
1988
07-05
1929
07-03
1971
07-03
1982
07-03
1781
07-03
3054
07-03
1463
07-02
56
07-02
2002
07-02