毫米波雷達和「圖像數據」的融合｜技術解讀篇

駕駛哥

2021年7月14日 10:00

作者言：

由于工作的關系，一直關注自動駕駛技術中的傳感器感知算法，平時會讀相關的論文，跟蹤學術界和工業界最新的進展。

自動駕駛是近些年來非常火熱的方向，感知技術也是日新月異的發展，因此有必要系統性的梳理技術的脈絡，一方面方便自己隨時查閱，另一方面也期望和同道中人多多交流。

自動駕駛的應用中通常會包括多種傳感器，以提高系統的可靠性。

從目前來看，常用的傳感器包括可見光相機，激光雷達和毫米波雷達。這些傳感器各有優缺點，也互為補充，因此如何高效的融合多傳感器數據，也就自然的成為了感知算法研究的熱點之一。

毫米波雷達感知算法的研究起步較晚，公開的數據庫也不多，因此，目前多傳感器融合的研究主要集中在融合相機（圖像）和激光雷達（點云）的數據。

隨著毫米波雷達在自動駕駛車輛中越來越多的應用，它的數據如何與圖像進行融合，也成為了一個亟需解決的問題。

毫米波雷達的數據一般以 Point Cloud（點云）的形式呈現。理論上說這與激光雷達的點云類似，只是每個點包含的數據不同：激光雷達的點包括 X、Y、Z 坐標和反射信號強度；而毫米波雷達的點包括 X、Y（也可能有 Z）坐標，RCS（物體反射面積）和 Doppler（物體速度）。

因此，很多激光雷達和圖像的融合方法也可以用來融合毫米波雷達。

但相對于激光雷達，毫米波雷達的點云非常稀疏（幾十 vs 幾千），所以在算法上還需要一些特殊的設計。

目前來看，大多數融合算法采用點云數據作為輸入，但是也有部分工作采用更底層的雷達數據，比如 Range-Doppler-Azimuth （RAD）Tensor。RAD 數據包含更多的信息，需要的運算量也更大，但是對于深度學習來說，RAD 是更適合的數據。

下面會分別介紹基于這兩種數據的融合方法，并對其中存在的問題和未來的發展方向進行分析。

毫米波雷達和「圖像數據」的融合｜技術解讀篇的圖2

基于 Point Cloud 的融合方法

按照融合層次的不同，這類方法又可以分為 Feature-level Fusion（特征層融合）、Data-level Fusion （數據層融合）和 Decision-level Fusion （決策層融合）。

三種不同的融合策略

決策層的融合其實就是分別處理雷達和圖像數據，將兩種數據中得到的結果進行融合。這種方法需要考慮的是如何將不同可信度的結果整合到一起，采用的多是傳統的基于濾波的策略。由于并沒有充分考慮特征層面的互補性，這種方法對系統性能的提升有限。

下面重點來講一講數據層融合和特征層融合。

數據層融合

其實這種方法叫做特征 + 決策融合更貼切一些，因為其核心思想是由一種傳感器數據生成目標物體的候選（術語稱作 Proposal），然后在另外一種傳感器數據上進行驗證。

這也就相當于融合了一種傳感器的決策（Proposal）和另外一種傳感器的數據。

一般來說，由于雷達點云已經很接近于物體檢測的結果，Proposal 會基于點云來生成。你可以理解為一個點就是一個物體 Proposal 或者對點云做一個簡單的聚類，每個類作為一個物體，然后將生成的 Proposal 從雷達坐標系（一般是 Bird's Eye View, BEV）映射到圖像坐標系，并根據 Proposal 的距離來生成候選的 Boundingbox。最后就是用傳統的基于 CNN 的方法（比如 Faster RCNN）來對 Proposal 進行分類。

更復雜一些的方法會先將點云轉換成 BEV 坐標下的圖像，采用基于 CNN 的物體檢測網絡生成 Proposal，與直接由點云生成 Proposal 相比，基于 BEV 圖像的方法增加了計算量，但一般來說生成的 Proposal 質量會高很多，畢竟 CNN 可以從點云中抽取更為豐富的物體和場景信息。

也有人提出通過雷達 BEV 數據和相機圖像數據同時生成 Proposall。來自兩種數據的 Proposal 通過幾何映射可以進行對應，然后再將各自的特征進行融合，用全連接網絡進行分類。這里的幾何映射指的是BEV和圖像坐標之間的映射，可以由雷達和相機的標定數據計算得到。

基于 Proposal 的數據層融合

特征層融合

與數據層融合相比，特征層的融合更加底層一些，也更有利于神經網絡也學習不同傳感器之間的互補性，但是算法設計的復雜程度也相對較高。一般的做法是將點云數據映射到圖像坐標系下，形成一個類似于相機圖像的「點云圖像」。

比如在下圖中的例子中，第一行是相機圖像，第二、三行是對應 Range 和 Doppler 數據的點云圖像，分別反映了場景內物體的距離和運動信息。點云圖像和相機圖像處于相同的坐標系下，因此，可以很容易的通過神經網絡進行融合。

相機圖像和點云圖像示例

也可以將包含 Range 和 Doppler 的點云圖像作為額外的輸入數據，用 ResNet 進行特征提取后與相機 RGB 圖像進行融合。

這里所謂的融合其實就是一個簡單的 Concatenation 操作，這是深度學習中一個常見的操作，它將來自多個輸入的特征圖疊放到一起，后續一般會采用 kernel 大小為 1 x 1 的卷積層對其進行壓縮，其實也就是一個加權平均的過程。網絡會自動的從訓練數據中學習權重，從而達到融合多種特征的目的。

特征融合模塊輸出的是特征圖，因此后續我們可以采用一些標準的網絡結構來完成想做的任務，比如物體檢測或者語義分割。在下圖的例子中，融合模塊輸出的特征圖經過 ResNet 和下采樣來提取多分辨率下的特征。每種分辨率的特征圖分別連接了 detection head 來完成物體檢測的任務。

類似的方法有很多，比如將點云的 Range 和 Doppler 信息投影到圖像坐標系，采用 concat 操作來融合來自雷達和圖像的特征，只不過后續的物體檢測采用了 YOLO 網絡。

基于 Concatenation 的融合網絡

做數據的融合方法很多，也可以利用點云的 Range 和 RCS 信息，將其投影到圖像坐標系下，得到基于 Range 和 RCS 的點云圖像。這些操作與之前介紹的方法基本沒有區別，但是這樣處理了兩個重要的問題：

一，傳統毫米波雷達的點云數據非常稀疏，生成的點云圖像包含的信息量也很少，不利于神經網絡的特征學習。

其實在傳統的雷達數據處理中，單幀的點云數據也是很難處理的，一般都需要在時序上進行融合，比如 Occupancy grid 中的做法。類似的，也有將多幀的點云 1 秒鐘的跨度進行融合，以提高數據的稠密度，與 Occupancy grid 中的做法類似，我們需要對多幀的點云進行 Ego motion 的補償，使其處于統一的坐標系下。

這里需要注意的是，ego motion 的補償只對靜態物體有效，對于運動物體來說，運動的軌跡會出現在融合后的點云中。

二，特征融合的一個重要參數就是在網絡的哪一層上進行融合。

這個參數一般都是通過經驗或者實驗來確定。這篇文章提出了一個新的方法，也就是將雷達數據和圖像數據在不同層上分別進行融合，最后由網絡通過學習來決定不同層次上融合的權重。

多層次上的特征融合網絡

在前面介紹的方法中，不管是在單一層上，還是多層上進行融合，基本的操作都是采用 Concat 將多種數據疊放在一起并由網絡進行加權平均。

這種做法可以通過學習得到不同傳感器數據的權重，但是這些權重是全局性的，無法反映局部區域的重要性。舉個不太嚴謹的例子，在自動駕駛的應用中，車輛正前方近處的物體其重要性要遠大于側面遠處的物體，為了體現這種局部區域的重要性區別，可利用注意力機制來對特征圖的不同位置進行加權。

具體來說，還是通過幾何映射生成雷達點云圖像，這個圖像經過一系列網絡操作后生成 Attention map，并將其與相機圖像生成的特征圖相乘。這里的相乘操作是對每一個像素分別進行的，也就相當于用 Attention map 上的每一個像素值對圖像特征圖的對應像素進行加權， Attention map 上像素值的大小反映了該區域的重要程度。

經過 Attention map 的加權后，我們得到的數據依然是以特征圖的形式存在。

基于 Attention Map 的融合網絡

值得一提的是，將 Attention map 與其他融合方法進行實驗對比后，比如 Multiply，Add，Concatenation。結論是基于 Attention map的方法在物體檢測的效果上顯著的優于其他融合方法。

不同融合方法的對比

在查閱的資料中有的 Attention map 由雷達數據生成，但是理論上說每種傳感器數據都可以生成 Attention map。具體來說，該方法將所有同步的傳感器的數據（可見光相機、近紅外相機、激光雷達、毫米波雷達）映射到統一的圖像坐標系下，并以此生成相應的熵圖像（Entropy map）。

不同傳感器的特征圖通過 Concat 操作疊放到一起，并與經過 Sigmoid 處理后的熵圖像進行像素點相乘操作，得到最終的特征輸出。

這里所謂的熵圖像可以通過對圖像的局部處理得到，熵圖像中的每一個像素值都反映了該局部塊（16 x 16 像素）的信息熵，也就是包含信息量的大小，你也可以將其理解為一種特殊的attention map。

需要注意的是，這個局部信息熵圖像并不是通過學習得到，因此可以更好的處理罕見數據（比如各種極端天氣情況）。如果采用基于 Attention 的方法，那么就需要在各種天氣情況下采集大量數據用于網絡學習，這顯然是非常費時費力的。

基于熵圖像的融合網絡

總結一下：

對于雷達點云數據，與相機圖像的融合大多在較低的特征層上進行，這也是為了充分利用神經網絡的特征學習能力。

融合的方法主要有兩種：相加或者相乘。

前者將來自不同傳感器的特征圖做全局的加權平均（通過 concat 和 1 x 1 卷積實現）。后者將來自不同傳感器的特征圖相乘，可以理解為用某個傳感器的數據對另一個傳感器的數據進行局部加權。

通常來說，有用的分類信息會更多的隱藏在局部區域中，不同局部區域的重要性也不盡相同，因此相乘的方式一般會取得更好的結果。

毫米波雷達和「圖像數據」的融合｜技術解讀篇的圖11

基于 RAD Tensor 的融合方法

通常來說，毫米波雷達的點云都非常稀疏，很多有用的信息已經在雷達信號處理的過程中被過濾掉了。因此，毫米波雷達感知算法的研究開始慢慢轉向直接利用深度神經網絡處理雷達的底層數據，比如 Range-Azimuth-Doppler Tensor。

那么，將 RAD 數據與相機圖像數據進行融合，也就自然的成為了新的研究增長點。

將 RAD 數據（極坐標）和圖像數據都轉換到 BEV 坐標（笛卡爾坐標系）下。RAD 其實可以看作極坐標下的多通道圖像，其通道是 Doppler 特征，做完坐標轉換之后就可以看作 BEV 下的多通道的圖像。

同樣的，相機圖像做完坐標轉換后也可以看作 BEV 下的多通道（比如 RGB）圖像。

兩種數據處于同一坐標系下，后續的處理就相對簡單了：比如基于 Concat 的方式將兩種數據在多尺度上進行了融合。

雷達 RAD 數據和圖像數據轉換到笛卡爾坐標系

RAD 數據和圖像數據的融合網絡

這個方法本身沒有太多可介紹之處，但其中兩個實際應用中的問題值得討論一下：

圖像轉 BEV 坐標時對平坦路面的假設：如果按照美國洲際公路最大 6% 的坡度估算，在雷達的最大可視范圍處會有 8 厘米的誤差。如果這個誤差遠小于所用雷達的距離分辨率，那么可以將其忽略，否則就需要特別考慮。

各個傳感器之間在時序上的對齊：可以采用 LiDAR 數據進行自動標注，因此需要考慮三種傳感器之間的對齊。理論上說，任意時間點的物體標注數據可以通過插值的方式來得到，但是對于雷達和圖像數據就沒辦法這樣做了。以雷達數據為基準，在時間軸上尋找距離其最近的圖像數據。如果傳感器的幀率比較低的話或者車輛運動較快時，這種方法會帶來較大的誤差，因此需要更進一步的研究。

在美國有工程師提出的 RODNet 是一個較新的工作，并且在公開數據庫 CRUW 上進行了測試。

實際上，這個工作的融合部分在于利用多傳感器數據生成標注信息，也就是下圖中的 Teacher 分支。對于網絡預測部分，也就是下圖中的 Student 分支，圖像數據并沒有參與。對于 Teacher 分支，基于 RGB 圖像的物體檢測結果與雷達點云（也就是 CFAR detection）相結合，得到物體的標注，用于訓練檢測網絡。

至于 Student 分支，其實就是一個基于底層雷達數據的物體檢測網絡。當然這里面有一些特別的設計。比如說，輸入數據并不是標準的 RAD，而是 Range-Azimuth-Chirp Tensor。

在通常的雷達信號處理中，對 Chirp 維度做 FFT 會得到 Doppler 信息，但是這個工程師采用神經網絡來做這一步，以期更好的提取物體的運動信息。