導讀:多模態融合是感知自動駕駛系統的重要任務。本文將詳細闡述基于多模態的自動駕駛感知方法。包括LiDAR 和相機在內的解決對象檢測和語義分割任務。
從融合階段的角度,從數據級、特征級、對象級、不對稱融合對現有的方案進行分類。此外,本文提出了本領域的挑戰性問題并就潛在的研究機會進行開放式討論。
多模態融合感知的背景
單模態數據的感知存在固有的缺陷,相機數據主要在前視圖的較低位置捕獲。在更復雜的場景中,物體可能會被遮擋,給物體檢測和語義分割帶來嚴峻挑戰。
此外,受限于機械結構,激光雷達在不同距離處具有不同的分辨率,并且容易受到大霧和大雨等極端天氣的影響。
因此
LiDAR 和相機的互補性使得組合感知方面具有更好的性能
。感知任務包括目標檢測、語義分割、深度補全和預測等。我們主要關注前兩個任務。

數據格式
相機提供了豐富的紋理信息的RGB圖像。具體來說,對于每個圖像像素為 (u, v),它有一個多通道特征向量 F(u,v) = {R, G, B, ...},通常包含相機捕獲的紅色、藍色、綠色通道或其他手動設計的特征作為灰度通道。
然而,由于深度信息有限,單目相機難以提取,因此在 3D 空間中直接檢測物體相對具有挑戰性。因此,許多方案使用雙目或立體相機系統通過空間和時間空間來利用附加信息進行 3D 對象檢測,例如深度估計、光流等。
激光雷達使用激光系統掃描環境并生成點云。一般來說,大多數激光雷達的原始數據都是四元數,如(x, y, z, r),其中r代表每個點的反射率。
不同的紋理導致不同的反射率,然而,點的四元數表示存在冗余或速度缺陷。因此,許多研究人員嘗試將點云轉換為體素或 2D 投影,然后再將其饋送到下游模塊。
一些工作通過將 3D 空間離散化為 3D 體素,表示為:
si
代表體素長方體的質心,而v
i
代表一些基于統計的局部信息。局部密度是由局部體素中 3D 點的數量定義的。局部偏移量通常定義為點坐標與局部體素質心之間的偏移量。
基于Voxel 的點云表示,與上面提到的基于點的點云表示不同,它極大地減少了非結構化點云的冗余。此外,
利用3D稀疏卷積技術,感知任務不僅實現了更快的訓練速度,而且還實現了更高的準確度。
一些工作試圖將LiDAR 數據作為兩種常見類型投影到圖像空間中,包括相機平面圖(CPM)和鳥瞰圖(BEV)。通過將每個 3D 點作為 (x, y, z) 投影到相機坐標系中(u, v),可以獲得CPM。由于CPM與相機圖像的格式相同,因此可以通過使CPM作為附加通道來自然地融合它們。
然而,由于投影后激光雷達的分辨率較低,CPM中許多像素的特征被破壞了。BEV 映射提供了從上方看場景的高視圖。檢測和定位任務使用它有兩個原因。首先,與安裝在擋風玻璃后面的攝像頭不同,大多數激光雷達位于車輛頂部,遮擋較少。
其次,所有對象都放置在BEV中的地平面上,模型可以生成預測而不會出現長度和寬度的失真。

融合方法
本節將回顧激光雷達相機數據的不同融合方法。從傳統分類學的角度來看,所有的多模態數據融合方法都可以很方便地分為三種范式,包括數據級融合(early-fusion)、特征級融合(deep-fusion)和對象級融合(late-fusion)。
數據級融合或早期融合方法通過空間對齊直接融合不同模態的原始傳感器數據。特征級融合或深度融合方法關注于特征空間中混合跨模態數據。對象級融合方法結合模型在每個模態中的預測結果并做出最終決策。

數據級融合
原始數據通過空間對齊和投影直接融合每種模態數據的方法的一個例子是圖4中的模型。將圖像分支中的語義特征和原始激光雷達點云融合在一起,從而在目標檢測任務中獲得更好的性能。
3D激光雷達點云轉換為 2D 圖像,并利用成熟的 CNN 技術融合圖像分支中的特征級表示以實現更好的性能。

特征級別融合使用特征提取器分別獲取激光雷達點云和相機圖像的嵌入表示,并通過一系列下游模塊融合兩種模態的特征。
深度融合有時會以級聯方式融合特征
這兩者都利用了原始和高級語義信息
。深度融合的一個例子可以是圖5中的模型。

對象級融合
后期融合,也稱為對象級融合
,表示在每種模態中融合不同結果的方法。例如,一些后期融合方法利用來自LiDAR 點云分支和相機圖像分支的輸出,并根據兩種模態的結果進行最終預測。
請注意,兩個分支應具有與最終結果相同的數據格式,但質量、數量和精度各不相同。
后期融合可以看作是一種利用多模態信息優化最終proposal的集成方法。一個例子可以是圖6中的模型。
如上所述,利用后期融合來細化每個3D區域proposal的分數,將圖像分支中的2Dproposal與LiDAR分支中的3D proposal相結合。此外,對于每個重疊區域,它利用了置信度得分、距離和 IoU 等統計特征。

不對稱融合
除了早期融合、深度融合和后期融合之外,一些方法對跨模態分支具有不同的特權。其他方法將兩個分支視為看似平等的狀態,而
不對稱融合至少有一個分支占主導地位,而其他分支則提供輔助信息來執行最終任務。
后期融合的一個例子可以是圖7中的模型。特別是與后期融合相比,盡管它們可能使用提案具有相同的提取特征,但不對稱融合只有一個來自一個分支的提。
這種融合方法是合理的,因為在相機數據上使用卷積神經網絡具有出色的性能,該網絡過濾了點云中語義上無用的點,提取原始點云中的截錐體以及相應像素的RGB信息,以輸出 3D 邊界框的參數。
使用 LiDAR 主干以多視圖樣式引導2D主干,并實現更高的精度。利用來自LiDAR分支的3D區域提案并重新投影到2D,結合圖像特征,輸出最終的 3D 提案。

挑戰與機遇
近年來,用于自動駕駛感知任務的多模態融合方法取得了快速進展,從更高級的特征表示到更復雜的深度學習模型。然而,還有一些懸而未決的問題。總結為以下幾個方面:
錯位和信息丟失
相機和 LiDAR 的內在和外在差異很大
。兩種模式中的數據都需要在新的坐標系下重新組織。傳統的早期和深度融合方法利用外部校準矩陣將所有LiDAR點直接投影到相應的像素。
然而,
這種逐像素對齊不夠準確
。因此,我們可以看到,除了這種嚴格的對應關系之外,一些利用周圍信息作為補充會產生更好的性能。此外,在輸入和特征空間的轉換過程中還存在一些其他的信息丟失。
通常,降維操作的投影不可避免地會導致大量信息丟失,例如將 3D LiDAR 點云映射到BEV 圖像中。因此,通過將兩種模態數據映射為另一種專為融合而設計的高維表示,未來的工作可以有效地利用原始數據,同時減少信息丟失。
當前的研究工作使用直觀的方法來融合跨模態數據,例如連接和元素乘法。這些簡單的操作可能無法融合分布差異較大的數據,因此難以彌合兩種模態之間的語義差距。
一些工作試圖使用更精細的級聯結構來融合數據并提高性能。在未來的研究中,雙線性映射等機制可以融合具有不同特征的特征。
多源信息權衡
現有的方法缺乏對來自多個維度和來源的信息的有效利用。他們中的大多數都專注于前視圖中的單幀多模態數據。結果,其他有意義的信息沒有得到充分利用,例如語義、空間和場景上下文信息。
在自動駕駛場景中,許多具有顯式語義信息的下游任務可能會極大地提高目標檢測任務的性能。例如,車道檢測可以直觀地為檢測車道之間的車輛提供額外幫助,語義分割結果可以提高目標檢測性能。
未來的研究可以通過檢測車道、紅綠燈和標志等各種下游任務,共同構建完整的城市景觀場景語義理解框架,以輔助感知任務的執行。
參考:
[1] Huang, K., Shi, B., Li, X., Li, X., Huang, S., & Li, Y. (2022). Multi-modal Sensor Fusion for Auto Driving Perception: A Survey. arXiv preprint arXiv:2202.02703.