“在大疆之前没有人做双目,现在基本上主流的都是单目加多传感器融合,推给车企的时候就会经历一个更长的过程。”一位前大疆车载员工曾这样向雷峰网《新智驾》表示。
双目视觉方案在车载上的应用起起伏伏,从早期的高端车型专属,到数年间的平平淡淡,大疆车载的走红,也让双目视觉在智驾上的应用再次引起关注。
双目视觉的优点很明显,相较于单目摄像头,能获得更准确的障碍物深度信息,而相较于激光雷达,双目能提供更稠密的点云,且成本更低。
但从上车至今,双目仍然被认为是一条充满争议且艰难的路线。
一位业内专家张岩向新智驾表示,狭义的双目要求两个相机连接在同一个刚体上,要做到标定一致,来获得3D信息,但绝大多数公司没有能力把这件事做好。
“双目在车载领域已经有10多年的历史,但没做好,肯定是有原因的。今天双目能不能得到普及,就看技术能不能解决这些问题了。”
01
双目视觉的技术难点怎么解决?
双目视觉系统就像人的双眼,是根据左右摄像头的视差来计算物体距离的。
如图所示,一人一树位于双目相机前方,对于左眼形成的图像,人在树的右侧,而对于右眼,人在树的左侧。
当将两幅图像放在一起时,可以看出,离摄像头较近的人视差较大,而离摄像头较远的树视差较小。
也就是说,通过计算两个摄像头之间的视差,就能计算出物体离摄像头的距离,而不需要识别物体到底是什么。
反之,单目摄像头则需要首先对物体进行识别和分类,才能根据图像大小的变化来计算物体距离。
但对驾驶来说,重要的并不是识别障碍物的种类,而是能够探测到障碍物,并获取自车与障碍物之间的距离,以计算可能的碰撞时间。
双目视觉的这个特征就避免了系统对大量非标障碍物的学习和识别成本,并获得比单目更精准的测距能力。
而相较于激光雷达,双目摄像头不仅成本更低,且能获得比激光雷达更稠密的点云。
但在高阶智驾应用中,双目在硬件和算法层面的难点依然存在。
首先,双目视觉系统对两个摄像头的一致性要求很高。两个模组要求尽量一致,光轴看向同一个方向,并做到拍摄物理空间世界时尽量同步。
硬件层面上的一致性可以得到更符合要求的高质量图像,从而简化后续的标定,缩小计算搜索空间,进而减少对算力的需求,并提高软件算法精度。
但汽车环境特殊,行驶过程中的颠簸很容易造成双目摄像头两个镜头之间产生位置、角度变化,一致性降低,导致深度检测准确度下降。
这就对产品在规模量产时的制造工艺和品控一致性提出了很高的要求。
而已经形成的偏移,就需要通过算法来进行弥补。用软件能力校正硬件层面的偏移,对算法和算力提出了要求。
张岩表示,在双目模组发生偏差时,如果采用暴力算法校正,整个计算量的代价会很高。另外,如果双目不准确或失效又该怎么处理,这些都是算法需要解决的问题。
其次,双目视觉系统对于单调缺乏纹理的场景,例如天空、白墙、沙漠等的识别能力不强,会导致匹配误差较大甚至匹配失败。
业内人士李华向新智驾解释,传统的立体视觉算法是通过找左目和右目之间相关点的关联性进行计算的,如果好多地方都重复,就会找不到这种关联性,导致无法匹配。
鉴智机器人CEO单羿向《新智驾》表示,传统立体视觉算法的这种缺陷可以通过AI算法的层次化特征提取能力来避免,使双目即便在弱纹理区域也能获得稠密的逐像素点深度信息,并构建视觉点云。
“用AI做双目可以实现比激光雷达稠密10倍的视觉点云。但问题同样存在,第一,要如何训练这样一个AI立体视觉算法模型,第二,做这样的算法同样需要耗费极大的计算量。”
据单羿表示,鉴智已经实现了用AI算法去做双目立体视觉的效果,同时,团队的算法压缩能力可将模型的算力需求做到合理的尺度,进而将AI双目在可接受的成本范围内做到产品级的效果。
而据李华观察,目前主要的双目玩家都正在从传统立体匹配算法向深度学习的算法方向进化。
但AI算法是否能有效解决双目视觉的难点,仍取决于更多落地方案的实际表现。
目前,大疆车载已有包括云朵灵犀版、iCAR03和悦也Plus等搭载其成行平台方案的车型实现量产落地。鉴智机器人的双目高阶智驾项目预计最早将于今年四季度落地。
此外,包括中科慧眼和Momenta等企业也均有双目方案推出。
02
双目视觉能做到足够高的性价比吗?
早期,双目视觉主要受到欧洲和日本车企一些高端豪华车型的青睐,用作主动安全功能,包括斯巴鲁、捷豹、宝马等。
而发展到今天,当双目开始应用于高阶智驾,试图在L2+领域实现视觉对激光雷达的替代,选择双目视觉,也成为了更具性价比的路线。
一方面,双目摄像头硬件成本低于激光雷达,同时,上面提到的一些方案商也在算力上选择了更具性价比的芯片。
大疆车载已经实现量产的7V方案采用算力32 TOPS的TDA 4VH芯片,可实现高速领航辅助功能,整体成本约为5000元。
而在电动汽车百人会期间发布的7V+100 TOPS方案则可实现城市领航辅助功能,成本7000元。
鉴智机器人在北京车展上推出的7VnR方案,配置30-80TOPS算力,可支持高速领航辅助功能,成本做到4000元以内。而9VnR方案则以80+ TOPS的算力,可实现高速和城区全场景NOA功能,成本在5500元以内。
双目算法对芯片算力有更高需求,选择较低算力的芯片,就意味着方案商需要对算法进行极致的压缩。
一位业内人士向《新智驾》评价称,大疆的路线是用极低的成本来实现一些高阶的NOA功能,这就决定了方案本身的性能有限。例如,在环岛等复杂的路口可能会退出,在高速匝道也可能会错过。算力压到极致,同时又做无图方案,“算法本质没法做到那么强”。
“华为追求所有的场景,所有的路况都能开,大疆不走这个路线,但是它便宜。华为那套去年听说要3万块。”
投资人王松也表示,算力不够强,算法就一定会做剪枝,很多corner case和很多可能的反应就没法写进去,因为算力空间不够。
“双目其实是拼公司的解决方案和算法,双目面临的也是成本问题。”
但大疆车载认为,芯片算力是芯片的硬件配置,系统运行时,有多少计算单元被实际使用,则是芯片算力利用率。例如,200 TOPS的芯片算力,如果利用率是10%,则实际算力只有20 TOPS,而32 TOPS的芯片算力,如果利用率提升到50%,实际算力就能达到16 TOPS。
大疆认为,通过其算法和模型优化、计算加速和系统优化能有效提高其芯片算力利用率。
李华同样认为双目视觉是一个成本问题。双目方案在硬件和算法上的难点,决定了双目是一种有门槛的传感器方案。在有限的成本下,把预算用在传感器还是算力上就是一种选择。
“如果用在传感器上,对算力要求就高,这是一套方案,用在算力上,那可能对双目要求就没那么高。也可以两个都有,就要看场景和它带来的优势有没有帮助。”
通过将算法芯片化是一种降本提速的方式。李华表示,在双目较大的计算要求下,芯片是最快的。而且硬件化后成本也会降低。大疆无人机就是采用了将立体视觉算法芯片化的方式。
在车载领域,支持双目立体算法的芯片并不多。此前,安霸曾推出一款加入了针对双目视觉算法硬件的芯片CV2FS,元橡也有一款专为支持双目立体视觉设计的芯片产品。
不过,李华认为,目前能实现芯片化的应该还是传统算法,深度学习算法仍在迭代中,还没有到芯片化的阶段。但芯片中可以增加一些算子来实现对双目算法更好的支持。据单羿透露,地平线就在其J6芯片架构设计中增加了对双目算法的支持力度。
在有限的算力条件下,双目视觉方案是否能以较高的性价比做出足够好的体验,对于算法是一种挑战。但同时,芯片化也是提高一部分算力利用率的方案。
此外,路面预瞄也是双目视觉的一大应用。单羿认为,双目获得的信息并不只能提供给智驾系统,同时也可用于整车智能化,为魔毯底盘和智能头灯与头显等智能化应用提供感知信息。这也是在整车层面提高双目性价比的一种方案。
03
双目视觉的天花板在哪?
北京车展上,大疆车载展示了其激目系统,即激光雷达和惯导三目总成方案。大疆表示,激目系统兼顾传统视觉方案与激光雷达方案的感知优势,同时可大大减少资源与能耗,既可为L2+高阶智驾体验的进一步提升降低门槛,也为未来L3/L4的落地量产做好了准备。
对于大疆推出激光雷达方案,业内人士猜测,可能意味着大疆在视觉方案上也碰到了性能上限。
而被问及关于激光雷达与视觉路线的看法时,单羿则坚信视觉的能力。
但和激光雷达相比,双目视觉方案也有视觉天生无法避免的缺陷,例如在黑夜或大雾天中效果不佳,就像人在夜间和大雾天驾车的表现不如白天,这是由视觉本身的局限所决定的。
而且,在向更高阶的自动驾驶能力发展时,单一传感器的方案无法做到安全冗余,更多的观点认为传感器融合是必要的方案。
王松认为,单靠视觉,不管单目还是双目,假设安全系数只能达到0.97或0.98,激光雷达能达到0.99,但激光雷达加视觉,或许就能达到万分之几的失效性。
“单个感知元件的能力都不够,多个传感器融合,整体的失效性才可能降低到符合车规的要求。”因此,王松认为,讨论单独某个传感器的意义不大,智能驾驶需要的是整套系统的交互能力。
张岩同样表示,对于整车安全性而言,如果不处理单点失效,目前主流的传感器都可以用。但如果处理单点失效,就需要考虑系统的冗余设计,靠单一传感器不行。L2级别的辅助驾驶最终责任在人,可以用单一传感器,但发展到L4,系统需要承担全部责任,就必须考虑单点失效,纯视觉方案并不现实。
总之,双目是一个很早就存在的技术路线,但存在感不高的原因一方面在于它的技术门槛较高(算法、制造工艺,质量一致性等),被欧美少数几个玩家维宁尔,大陆,博世,电装等把控;
另一方面,双目本身的技术缺陷导致实际需求没有起来。
不过,在车载应用经历数年沉浮后,双目再次回归大众视野,是从主动安全走向更高阶的智能驾驶应用,同时从高端车型走向了性价比车型,是双目试图走向普及的过程。
单羿认为,到2025年,双目方案在高阶智驾中的占比可能会达到20%。