最近这段时间,关于纯视觉智驾方案的讨论比较火,口水满天飞,大家互相怼,其实核心的争论只有一个,就是摄像头能不能消灭激光雷达。
弯弯绕绕也许是男女谈情的小妙招,但是,谈论技术最好还是单刀直入。
如果站在整车的视角,激光雷达的应用不仅局限于智驾,还能用于主动安全、智能底盘,甚至可能在未来四处开花,发展出更加花里胡哨的玩法,对整车而言,激光雷达是不可能被消灭的。
因此,不要顾左右而言他,也别站在整车的角度谈激光雷达,对着问题的根本直捣黄龙,问题的关键或者说关键的问题是:单纯看智驾,摄像头能不能消灭激光雷达?
两年前,关于这个问题还没有太多的争论。
在暗光、炫光、逆光的光照条件下,摄像头感知能力明显不及激光雷达,即便不考虑光照,摄像头拍摄到的是二维图像,当时的视觉神经网络很难在二维图像中得到比较细致的3D信息,这就使得纯视觉智驾方案可以运行在车辆距离比较大、障碍物种类有限的高速场景,很难用于车辆密集、障碍物种类众多的城区场景。
随后,特斯拉在2022年CVPR会议上公开占用网络,并在同年的AI DAY上给出了占用网络的模型架构,业界一片欢腾:终于有希望拿掉成本高昂的激光雷达了,要知道,2022年,单颗高线数激光雷达的价格依然高达上万!
占用网络解决了本质上仍然是2D信息的BEV网络的两大问题。
第一,它将3D空间划分成一个又一个体素网格,为每个网络分配一个特征向量,通过对每个体素进行三维语义占有预测,给出车周环境精细的3D信息。
第二,由于其对物体形状、背景环境、异常障碍等都能进行可靠的表示和识别,从而可以有效地处理训练数据集中未曾出现过的物体。
所以,视觉占用网络出现之后,激光雷达的作用的确是大大下降了。
宜将剩勇追穷寇,不可沽名学霸王。
在良好光照条件下,视觉占用网络的两种优异特性给了激光雷达重重的打击,ISP的进化又进一步削弱了激光雷达在暗光、炫光和逆光场景下的优势。
插一句题外话,在雨雪雾天气条件下,激光雷达的工作特性尽管比摄像头好一些,但跟毫米波雷达相比,摄像头和激光雷达大哥不说二哥,工作特性都比较差,那些认为激光雷达能抗恶劣天气的说法其实是不对的。
摄像头既然可以通过视觉神经网络算法的进步提高三维建模能力,当然也可以通过其他技术的进步提高抗暗光和抗强光的能力,ISP就是这样的技术之一。
目前,ISP算法的进步已经可以比较好地支撑摄像头在暗光和逆光下的表现。
说起来,原理倒也不复杂。在一般的暗光条件下,通过自动增益控制技术,根据环境光线自动调整图像亮度和对比度,拉高特别暗的区域的像素值,就可以显露暗光区域丢失的画面细节。
强光条件下,场景中不同区域亮度的差异大,采用高动态范围技术,抑制强光部分的过分曝光,就可以同时兼顾亮部和暗部的细节,做到亮处不过曝、暗处细节不丢失。
说起摄像头的这种超能力,有一个有趣的对比。
有种说法认为,人眼大概相当于3-6亿像素的相机,目前800万像素的车载摄像头永远无法和人类相比。
但是,有了AI ISP技术,摄像头可以自动调节不同区域图像的对比度和曝光强度,这显然是AI技术加持的摄像头能碾压人眼的地方。
不要觉得不可思议,这一轮AI技术大爆发以来,大模型已经在很多层面上超越了人类的能力,AI ISP技术只不过是AI技术在图像处理领域的又一次秀肌肉而已。
做人不能刻舟求剑,死守着老理儿,尤其在技术快速发展的年代,更得时刻保持刷新自己认知的能力。
长江后浪推前浪,后浪把前浪拍倒在沙滩上。
AI技术的进步催生了视觉专用网络,增强了摄像头在暗光、炫光下的工作能力,但这并不意味着激光雷达从此没有了价值。
原因有二,第一,视觉占用网络的源头来自激光雷达,第二,摄像头在暗光、炫光下依然比不上激光雷达。
万事万物都有缘起,药匣子说不想知道自己是怎么来的,只想知道自己到底是怎么没的,但我们要知道的恰恰是:视觉占用网络到底是怎么来的?
这几年,网上经常出现搭载激光雷达的特斯拉车型的照片,按马斯克一条路走到黑的性格,这当然不意味着特斯拉下一代车型要加装激光雷达,这只不过说明,它的视觉占用网络需要激光雷达提供真值做训练。
具体的做法是,将高质量、高线数的激光雷达搭载在特斯拉的车型上,在路侧中收集数据,在自动化数据生产线中做数据标注,通过激光雷达点云包含的距离几何信息在摄像头图像中标注出精确的3D信息,将精标后的数据投喂给视觉神经网络做训练。
如此乾坤大挪移,视觉神经网络就学到了激光雷达获取3D信息的能力。
很显然,视觉占用网络模仿学习的是激光雷达的能力,和真值提供者当然会存在一定的差距。
再说到光照条件,激光雷达通过光线的飞行和反射测量物体距离,这种工作特性和光线亮暗一点关系都没有。
摄像头就不一样了,ISP技术处理强光比较容易,但在真正的暗光条件下,其工作能力比较差。
巧妇难为无米之炊,没有足够的光线反射到摄像头的感光单元上,AI ISP技术也无法“无中生有”。
在光线真的很弱的情况下,上帝说没有光也就没有了光,它儿子耶稣来了也没用,我说的。
看这张图,摄像头的抗暗光能力远逊色于抗强光能力,其道理就来自于这里。
随着算法的进步和更多数量的训练,视觉占用网络可以越来越准确地估计3D信息,但是,激光雷达可以提供真实而非估计的几何3D信息。
在暗光条件下,激光雷达雷达具有更强的工作能力。基于这两种能力,单纯看智驾,摄像头也依然无法消灭激光雷达。
严谨一点的话,可以再加一个定语,摄像头无法消灭高阶智驾中的激光雷达。