[首发于智驾最前沿微信公众号]自动驾驶的收尾离不开万般的复旧,其中纯视觉决策成为许多工夫决策的遴荐,但由于录像头无法感知到环境深度信息,因此有部分工夫决策提到了“深度相机”的工夫。深度相机,指的是那些除了拍面孔(RGB)之外,还能径直或转折给出“每个像素到录像头距离”信息的传感器。简便聚首等于,平庸相机告诉你“这像素看起来是什么面孔、有什么纹理”,而深度相机还会告诉你“这点离车有多远”。正因为在自动驾驶里,知谈距离比知谈面孔更雄壮,车辆要判断碰不碰得上、要多早刹车、奈何规盘算推算旅途等都要依赖深度信息或与其它传感器和会后的三维感知终结。
深度相机常见的三种管事旨趣
深度相机的风物许多,常见的有基于两个镜头的立体相机(stereo camera)、投影结构光或编码光的相机、以及翱游时辰(Time-of-Flight,ToF)相机。它们产生的深度默示频频是一张“深度图”(depth map)概况零散的点云,与激光雷达(LiDAR)产生的点云在用途上有错乱,但在旨趣、精度、本钱和适用场景上都有较着诀别。
1)立体视觉(Stereo)
立体视觉的念念路等于师法东谈主眼。把两台同类的彩色或口角相机同框安设,它们之间有一个固定的“基线”(baseline,两个镜头中心之间的距离)。当看到并吞场景时,图像中的并吞个物体点在两幅图像上的横向位置会有相反,这个相反叫作念视差(disparity)。通过已知的基线长度和录像头的表里参,视差可以反算成深度(距离)。

车载录像头 图片源自收集
立体法的关键在于“匹配”,算法要在傍边图像里准确找到并吞像素对应的点;匹配辛劳的所在包括无纹理名义、重叠纹理、强反光或艰涩区域等场景。立体视觉的上风是可以用平庸相机硬件收尾,本钱低、像素高,表面上区别率和领域可以通过更大基线、更高区别率相机擢升;但其缝隙等于对光照、纹理和盘算推算资源敏锐,长距离深度精度退化较快。
2)结构光与编码光
这类方法在场景中投射已知的光学图案(举例条纹、点阵或其他编码图形),然后用相机不雅察图案在物体名义的变形,从变形情况反推出深度。结构光在如东谈主体建模、东谈主脸识别配置(早期的结构光东谈主脸识别器)等近距离欺诈里非往往见。其优点是近距离精度高,且因为系统我方提供“纹理”,因此对纹理依赖小。其裂缝是对环境光敏锐,在强阳光下投影图案容易被灭亡,导致深度失败。结构光仅适宜短到中距离(几厘米到几米)的欺诈场景,若膨胀到行车所需的几十米就会遭遇功率、可见性和安全性的问题。
3)翱游时辰(ToF)
ToF相机通过测量光从传感器发出、到物体反射、再复返传感器所需的时辰来算距离。常见收尾存脉冲ToF和相位ToF两类。脉冲ToF径直测量脉冲往复时辰,旨趣简便但要求高速电子。相位ToF发出一语气调制的光信号,测量辐射与领受信号之间的相位差来估算距离,这在短至中距离里更常见。
ToF的优点是能径直得到每个像素的深度,及时性好、算法复杂度低于立体匹配;裂缝包括多径干豫(光在场景中屡次反射导致的误读)、对强光敏锐(阳光含大批红外会擢升噪声)、以及领域和区别率受限。工业级ToF可以作念到几十米的量级,但在车用场景里,要兼顾区别率、帧率和抗日照技艺仍然需要工程折中。
除了这三种之外,还有一些夹杂决策和更集中LiDAR的固态“闪光式”测距配置。但单纯依靠单目RGB相机作念“深度臆度”的方法(基于学习的单目深度臆度)严格来说不是深度相机,而是用算法从单张图像推断深度的工夫;这么的深度频频是相对的、带有依次不笃信性或需要稀少拘谨校准,只可将它作为补充而不是实在赖的主深度源。
深度相机与平庸相机的关键区别
平庸相机输出的是亮度和面孔信息,也等于每个像素的RGB值;深度相机除了这些(随机深度相机本人也能输出RGB)之外,还输出与录像头之间的距离信息。深度数据径直给出三维几何信息,使得后续的检测、追踪、避障和定位变得更径直;平庸相机则需要依赖视觉算法(比如通过特征匹配、结构从融会或单目深度臆度)来转折取得距离。

图片源自收集
平庸相机的设想追求高区别率、宽动态领域和低噪声的图像集聚,传感器以纪录光子数为主。深度相机的硬件则要稀少设想光源(结构光、ToF)或双摄同步与高精度时钟(ToF)以及在某些系统中更严格的机械安设精度(立体需要精确的基线和标定)。这意味着深度相机往往在功耗、复杂度和本钱上高于单纯的平庸相机,自然基于两个平庸相机的立体系统可以在本钱上有上风,但对盘算推算和标定提倡了更高要求。
深度图频频亦然单通谈的浮点或整数距离数据,需要与相机内参调度成三维点云或用于后续的感知模块。平庸相机的数据更适宜径直送入见解检测、语义分割等视觉收集。深度数据和RGB数据燕瘦环肥,RGB擅长识别类别和外不雅,深度擅长提供几何信息,因此在自动驾驶系统里,常见作念法是把两者和会,用RGB作念识别,用深度作念定位与几何推理。
此外,立体视觉在暗光或无纹理时会失效;结构光在强光下会被灭亡;ToF在直射阳光或存在强红外光源时噪声会高潮。平庸相机在宽动态场景下也有挑战,但可以通过曝光戒指、HDR等技能改善。总之,不同传感器在不同环境下各有盲区,这恰是为什么自动驾驶系统要用相机、雷达、激光雷达等多传感器和会的原因。
深度相机的裂缝有哪些
由于深度相机能让机器径直看到三维寰球,许多东谈主嗅觉其可以径直替代激光雷达,但事实并非如斯。深度相机确凿能带来如立体感知、精确测距、三维建模等许多公正,但它也有不少短板,尤其是在车载这种复杂场景下,更是要多样“息争”和“弃取”。

图片源自收集
先说最典型的一个问题,那等于距离和精度的矛盾。立体视觉靠的是“视差”旨趣,简便来说等于两个录像头看到并吞个物体的角度差来盘算推算深度。问题是,距离越远,角度差就越小,盘算推算的舛讹就越较着。你想要让远方也测得准,就得拉大两个录像头之间的距离,概况提高图像区别率。但拉太开安设位置受限,还容易被艰涩;区别率太高又增多算力职责和本钱。ToF(翱游时辰)相机在近距离推崇可以,但想让它测得远、看得清,就得用更复杂的光源和领受器,功耗、热量、本钱十足往上飙。至于结构光,在汽车这种强光、远距离的环境里险些“吃不开”,更多是短距欺诈。
还有等于环境光和物体名义的问题。非论是哪种旨趣的深度相机,本色上都要依赖清明的反射。现实寰球里的光照条目可比实验室复杂多了。阳光太强会把信号灭亡,雪地的反光能“晃瞎”传感器,金属名义、玻璃、湿滑路面这些都能让测量终结乱成一团。ToF可能会被屡次反射的光干豫,导致算出错误的距离;结构光在透明或镜面物体上会出现形变;立体相机在一大片莫得纹理的区域,如在光滑车门概况天窗上,根柢找不到对应点。更别提下雨、下雪、起雾、夜间灯光这些情况了,都是深度相机的“敌东谈主”。
深度图的区别率亦然一个老浩劫问题。许多车用深度相机输出的深度图其实挺“糙”的,点比较零散,还容易带噪声。比较了了的RGB图像,深度图往往细节不及,这在识别微小物体或复杂边缘时会出按捺。自然可以用算法补全概况把深度和RGB联结来擢升后果,但那也意味着要消耗更多算力。
立体视觉需要大批盘算推算来匹配图像,尤其是高区别率、高帧率的时候,对处理器的压力极度大。ToF自然径直输出深度信息,但为了让终结更干净,还要作念多频信号解码、噪声过滤、多旅途修订,这些都比较奢华资源。车载系统的算力和功耗都有限,是以必须在精度、帧率和及时性之间找均衡。
还有一个很现实的问题,那等于标定和踏实性。深度相机其实极度“娇气”,尤其是立体视觉那种。两个录像头的角度、位置略略有点偏差,测出来的深度就会跑偏。汽车在行驶历程中会有鼎新、温度变化、以至微弱碰撞,这些都会影响标定终结。ToF相机也怕温漂,需要作念温度赔偿,不然数据会飘。为了保捏准确,就得设想坚固的支架、加上依期标定,以至用算法及时校准。
此外,深度相机还有个自然的罢休,它只可“看见”目下的东西。被挡住的物体,它完全窝囊为力。比如车阁下的低矮退却物、边缘里的行东谈主,只须被艰涩了,深度相机就测不到,这亦然为什么自动驾驶工夫上从来不会只靠深度相机。它更像是接济感知的一环,用来填补其他传感器的空缺。
表面上,立体相机用两颗平庸镜头就能收尾深度感知,看起来挺合算。但要真实上车,事情就变复杂了。你得谈判它的防尘、防水、抗震,还得通过车规认证、EMC测试、热设想考据……这些都要费钱。况兼深度相机出来的数据量大,对后端处理单位要求也高,算力芯片、数据传输、冗余设想十足得配王人。ToF和结构光更贵,还触及主动光源、安全认证等问题。要在整车上集成好,不仅费钱,还费脑。
是以说,深度相机如实有它的是非之处,但也没那么“竣工”。它能提供直不雅的空间信息,是视觉体系的雄壮补充,但想让它单独承担自动驾驶的感知任务,还远远不够。真实锻真金不怕火的决策,都是多传感器和会,让深度相机、雷达、激光雷达、平庸相机各司其职,相互补短。只须这么,车辆才能在复杂环境里既“看得清”,又“看得稳”。
什么时候用深度相机,奈何组合其它传感器
在自动驾驶系统设想中,遴荐深度相机照旧其他传感器,取决于任务、场景和本钱。近距离低速场景(比如自动停车、驾驶员监控、车内交互)十分适宜ToF或结构光,因为这些场景对短距精度要求高,环境相对可控。需要高区别率几何信息以作念雅致定位或退却物范畴判断时,立体视觉搭配高区别率相机是个合算的遴荐,但必须和谐遒劲的视差盘算推算和可靠的在线校准。

图片源自收集
关于高速公路或远距感知,激光雷达和毫米波雷达仍然是主力。激光雷达的远距区别率和精度,以及毫米波雷达对恶劣天气的鲁棒性,都是光学深度相机难以完全替代的。此时深度相机作为几何感知的补充,把RGB相机、深度相机、雷达与激光雷达的数据和会在一谈,取各自的强劲来隐蔽相互的时弊。比如用深度图快速筛选近距退却物,用RGB作念语义识别,用雷达作念速率臆度和恶劣天气下的踏实探伤,用激光雷达作念远距精笃信位。深度相机还能裁汰某些盘算推算职责:在已知深度的区域,许多视觉算法可以避让奋斗的三维重建智商,径直在深度空间作念决策。
自然,还有许多推行细节要谈判,传感器放手位置与视场隐蔽、传感器同步与时辰戳精度、数据带宽与压缩计谋、在线去噪与极度检测、在不同光照/天气下的退化检测与左迁计谋、以及冗余与故障切换机制。这些都是把深度相机从实验室带到车规产物化时必须处理的问题。