BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化

駕駛哥

2021年10月11日 09:35

作者 | Jessie

出品 | 焉知

眾所周知，可靠地環(huán)境狀態(tài)感知的能力，尤其是潛在對(duì)象的存在及其運(yùn)動(dòng)行為，對(duì)于自動(dòng)駕駛至關(guān)重要。在自動(dòng)駕駛系統(tǒng)運(yùn)行過(guò)程中比較重要的是對(duì)其行駛的周邊環(huán)境進(jìn)行態(tài)勢(shì)評(píng)估。這需要通過(guò)多個(gè)車(chē)載攝像機(jī)圖像、激光點(diǎn)云、毫米波雷達(dá)點(diǎn)云協(xié)助一定的算法模型實(shí)現(xiàn)。原理是對(duì)于車(chē)身周?chē)恼麄€(gè)環(huán)境的探測(cè)描述，以獲得校正后的360度鳥(niǎo)瞰圖BEV（Birds Eye Views）圖像。校正的BEV圖像可被分割出語(yǔ)義類(lèi)別，以語(yǔ)義分割圖像作為輸入，可以減少模擬數(shù)據(jù)與現(xiàn)實(shí)世界數(shù)據(jù)之間的實(shí)際差距，并且可以成功應(yīng)用于實(shí)際工況下的探測(cè)過(guò)程中。總體說(shuō)來(lái)，在鳥(niǎo)瞰圖中可以很好的估計(jì)遮擋情況下的語(yǔ)義場(chǎng)景，這一過(guò)程可以對(duì)3D幾何形狀和可見(jiàn)場(chǎng)景語(yǔ)義有更加準(zhǔn)確的了解，同時(shí)對(duì)遮擋區(qū)域進(jìn)行更加準(zhǔn)確的預(yù)測(cè)，生成質(zhì)量更高的道路layout。同時(shí)，BEV圖像的建立可以對(duì)具有低照度和大量的車(chē)輛生成車(chē)輛和道路layout的清晰估計(jì)。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖1

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖2

BEV的遮擋區(qū)域預(yù)測(cè)

由于BEV投影保留了物體的大小和距離，為學(xué)習(xí)提供了強(qiáng)大的先決條件。同時(shí)，神經(jīng)網(wǎng)絡(luò)方法生成的BEV圖像并不依賴(lài)手動(dòng)標(biāo)記數(shù)據(jù)，而是在模擬合成數(shù)據(jù)集上進(jìn)行訓(xùn)練，并泛化到現(xiàn)實(shí)世界數(shù)據(jù)，通過(guò)給出道路場(chǎng)景的單個(gè)圖像，神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)時(shí)（30 fps）在鳥(niǎo)瞰視圖中推理非模態(tài)場(chǎng)景。使那些在圖像不可見(jiàn)的靜態(tài)場(chǎng)景（道路，人行道）以及交通參與者幻覺(jué)般恢復(fù)。這種擬合預(yù)測(cè)的方法可以很好地應(yīng)用在對(duì)環(huán)境動(dòng)態(tài)過(guò)程的預(yù)測(cè)規(guī)劃中，實(shí)現(xiàn)對(duì)遮擋區(qū)域的預(yù)測(cè)。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖3

對(duì)于每個(gè)車(chē)載攝像機(jī)，虛擬射線(xiàn)是從其安裝位置投射到語(yǔ)義分割的真值BEV圖像邊緣上，且這個(gè)射線(xiàn)僅投射到特定攝像頭視野的邊緣像素。對(duì)于BEV圖像而言，通常是根據(jù)以下規(guī)則處理這些射線(xiàn)的所有像素以確定它們的遮擋狀態(tài)：

序號(hào)	語(yǔ)義分類(lèi)	遮擋射線(xiàn)情況說(shuō)明
1	建筑物，卡車(chē)	總是擋住視線(xiàn)
2	道路	永遠(yuǎn)不會(huì)遮擋視線(xiàn)
3	卡車(chē)，公共汽車(chē)	汽車(chē)擋住了視線(xiàn)，但不能擋在后面的較高物體
4	所有道路級(jí)目標(biāo)	被部分遮擋的物體仍然完全可見(jiàn)；
5	所有環(huán)境目標(biāo)	僅當(dāng)目標(biāo)在所有攝影機(jī)透視圖中均被遮擋時(shí)，才將其標(biāo)記為遮擋。

這里需要說(shuō)明BEV對(duì)這種遮擋目標(biāo)的預(yù)測(cè)對(duì)自動(dòng)駕駛行為中極具挑戰(zhàn)性的場(chǎng)景，比如當(dāng)大多數(shù)視圖被車(chē)輛遮擋，并且場(chǎng)景呈現(xiàn)出高動(dòng)態(tài)范圍（HDR）和陰影等現(xiàn)象時(shí)，自動(dòng)駕駛系統(tǒng)可以接收BEV的預(yù)測(cè)結(jié)果實(shí)現(xiàn)很好的風(fēng)險(xiǎn)態(tài)勢(shì)評(píng)估，態(tài)勢(shì)評(píng)估結(jié)果可以對(duì)自車(chē)的軌跡預(yù)測(cè)和決策規(guī)劃模型產(chǎn)生很好的先驗(yàn)知識(shí)輸入，比如增加軌跡預(yù)測(cè)過(guò)程中某個(gè)方向上的危險(xiǎn)權(quán)重，適當(dāng)?shù)膶?duì)軌跡進(jìn)行偏移調(diào)整，決策規(guī)劃模型可能會(huì)對(duì)相應(yīng)的橫縱向控制策略進(jìn)行調(diào)整，比如經(jīng)過(guò)對(duì)應(yīng)方向路口前進(jìn)行一定程度的減速，對(duì)向偏移等。

此外，BEV圖像中可以實(shí)現(xiàn)的單道路環(huán)境級(jí)分布圖，準(zhǔn)確的估計(jì)移動(dòng)車(chē)輛的未來(lái)軌跡。同時(shí)對(duì)具有低照度和大量的車(chē)輛，BEV的單層布局方式能夠準(zhǔn)確生成車(chē)輛和道路layout的清晰估計(jì)。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖4

BEV的定位建圖

此外，BEV圖像可以很好的實(shí)現(xiàn)地平面估計(jì)、道路分割和3D目標(biāo)檢測(cè)，生成質(zhì)量較高的車(chē)道級(jí)Layout。這一過(guò)程主要依靠端到端深度學(xué)習(xí)架構(gòu)直接從視覺(jué)圖像、激光點(diǎn)云、毫米波點(diǎn)云中進(jìn)行估計(jì)，估計(jì)的過(guò)程會(huì)充分考慮到三者各自所具備的優(yōu)勢(shì)，進(jìn)行權(quán)重分配，實(shí)現(xiàn)有效的前融合和后融合。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖5

如上圖所示，在視覺(jué)處理端口，整個(gè)傳感器數(shù)據(jù)融合過(guò)程接收輸入端的各個(gè)方向的攝像頭感知結(jié)果，生成視覺(jué)多任務(wù)模型，這些任務(wù)包含2D感知、深度和路面高程、動(dòng)態(tài)目標(biāo)3D檢測(cè)，生成多攝像頭融合模型，該模型用于俯視動(dòng)態(tài)目標(biāo)3D檢測(cè)實(shí)現(xiàn)道路俯視圖語(yǔ)義分割。

而在整個(gè)雷達(dá)處理端口，接收整個(gè)激光雷達(dá)和毫米波雷達(dá)輸入，再進(jìn)行點(diǎn)云拼接，然后利用點(diǎn)云朵人物模型進(jìn)行3D檢測(cè)和語(yǔ)義分割，結(jié)果輸入視覺(jué)和點(diǎn)云融合模型進(jìn)行增強(qiáng)的道路俯視圖語(yǔ)義分割并生成動(dòng)態(tài)目標(biāo)3D檢測(cè)，最后生成語(yǔ)義預(yù)測(cè)模型。

BEV的這種道路布置輸出對(duì)于自動(dòng)駕駛開(kāi)發(fā)來(lái)說(shuō)是非常好的一種檢測(cè)能力，基本可以看成一種偽高精地圖，甚至可以實(shí)現(xiàn)車(chē)道級(jí)的定位和預(yù)測(cè)，并且實(shí)時(shí)性相對(duì)于眾包建立的高精地圖高很多，這就不僅能夠很好地解決高精地圖所能解決的很多定位問(wèn)題，可以很好的幫助解決一些定位相關(guān)的邊緣極端場(chǎng)景。

比如高精定位的更新速度往往是按照月級(jí)進(jìn)行更新，這就意味著，當(dāng)由于道路施工等場(chǎng)景下，高精定位并不能進(jìn)行有效的實(shí)時(shí)更新，其更新速度和能力的短板導(dǎo)致自動(dòng)駕駛系統(tǒng)往往不能將實(shí)時(shí)道路信息納入到態(tài)勢(shì)評(píng)估的考慮范圍，這就導(dǎo)致在自車(chē)的軌跡規(guī)劃中不能充分進(jìn)行風(fēng)險(xiǎn)規(guī)避。而B(niǎo)EV圖像由于是實(shí)時(shí)生成的“地圖信息”，這就能夠很好的解決對(duì)于環(huán)境實(shí)時(shí)性定位的問(wèn)題。

此外，BEV建圖過(guò)程中存在動(dòng)態(tài)目標(biāo)預(yù)測(cè)，即對(duì)于行駛過(guò)程中的不可見(jiàn)危險(xiǎn)目標(biāo)會(huì)有一定的預(yù)測(cè)能力，甚至可以部分解決類(lèi)似鬼影的問(wèn)題，這也可以很好的輔助自動(dòng)駕駛系統(tǒng)解決相關(guān)的規(guī)劃控制極限問(wèn)題，比如實(shí)現(xiàn)提早收油、減速或者轉(zhuǎn)向等，并且可以通過(guò)環(huán)境報(bào)警提示自車(chē)駕駛員和環(huán)境車(chē)輛進(jìn)行避撞。

當(dāng)然，純BEV生成的類(lèi)似定位你信息也存在一定的局限性，比如定位建圖范圍窄，各向預(yù)測(cè)距離近等問(wèn)題，這些都是基于眾包高精定位的強(qiáng)項(xiàng)。因此，最好的方式是通過(guò)BEV與地圖引擎的結(jié)合來(lái)做相應(yīng)的融合定位。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖6

BEV的環(huán)境3D模型重建

對(duì)于自動(dòng)駕駛來(lái)說(shuō)，用激光雷達(dá)對(duì)前方目標(biāo)進(jìn)行三維信息探測(cè)已經(jīng)是業(yè)界公認(rèn)的事實(shí)了，由于這種三維信息往往會(huì)給予規(guī)劃控制模塊足夠的信息用于確認(rèn)目標(biāo)方向上是否允許車(chē)輛繼續(xù)向前持續(xù)行駛。這里需要注意，雖然說(shuō)鳥(niǎo)瞰圖主要是針對(duì)2D的整體顯示，但是在預(yù)測(cè)過(guò)程中，也會(huì)選擇性的對(duì)其3維模型仍舊形成相應(yīng)的點(diǎn)云重建信息，一般情況下，這類(lèi)重建是針對(duì)其激光雷達(dá)點(diǎn)云進(jìn)行的，而隨著攝像機(jī)配置逐漸由單目向雙目的演進(jìn)，基于雙目甚至三目圖像的重建將逐漸進(jìn)入到整個(gè)應(yīng)用過(guò)程中。這種重建類(lèi)型主要是針對(duì)自動(dòng)駕駛過(guò)程中異形目標(biāo)可以實(shí)現(xiàn)很好的檢測(cè)，即便場(chǎng)景庫(kù)對(duì)該目標(biāo)沒(méi)有實(shí)質(zhì)性的訓(xùn)練過(guò)，但仍舊能夠在通過(guò)BEV建圖過(guò)程中直接將其標(biāo)準(zhǔn)為不可預(yù)知的目標(biāo)。甚至將其深度、高度、密度等信息在鳥(niǎo)瞰圖中進(jìn)行標(biāo)識(shí)，為自動(dòng)駕駛進(jìn)行提前規(guī)劃。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖7

BEV圖像可以應(yīng)用在預(yù)先繪制的環(huán)境中工作，在一天中的不同時(shí)間或一年中的不同季節(jié)，光照和天氣可能會(huì)發(fā)生劇烈變化的情況。使用基于語(yǔ)義的BEV映射允許只使用2D卷積網(wǎng)絡(luò)，而不是3D，這有助于提高速度。定位到拓?fù)涔?jié)點(diǎn)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)相對(duì)位姿，也可以限制最大誤差到拓?fù)涔?jié)點(diǎn)內(nèi)。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖8

基于BEV圖像的鳥(niǎo)瞰圖生成

既然BEV圖像對(duì)于自動(dòng)駕駛顯得如此重要，那么就需要在這里對(duì)相關(guān)的圖像生成原理進(jìn)行闡述說(shuō)明。自動(dòng)駕駛感知中BEV的圖像生成由一組神經(jīng)網(wǎng)絡(luò)組成，這些神經(jīng)網(wǎng)絡(luò)從不同的傳感器探測(cè)中獲取環(huán)境數(shù)據(jù)，這些傳感器包含毫米波雷達(dá)、激光雷達(dá)、整個(gè)車(chē)載攝像頭，并將其轉(zhuǎn)換為單個(gè)通用的自上而下的語(yǔ)義網(wǎng)格表示形式。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖9

這種表示與傳感器特定的參考框架無(wú)關(guān)，并且捕獲了周?chē)鷪?chǎng)景的語(yǔ)義和幾何信息。因?yàn)檫@些模式共享一個(gè)單輸出表示，可以輕松地匯總產(chǎn)生融合的輸出。多個(gè)神經(jīng)網(wǎng)絡(luò)，每個(gè)傳感器模態(tài)（Radar，Lidar和Camera）各一個(gè)，接收一系列輸入傳感器數(shù)據(jù)，通常對(duì)于自動(dòng)駕駛而言會(huì)要求輸出代表3個(gè)目標(biāo)類(lèi)別（弱勢(shì)道路用戶(hù)即VRU、車(chē)輛和背景）的一系列自上而下的共享語(yǔ)義網(wǎng)格；然后，使用聚合函數(shù)融合序列，以輸出語(yǔ)義網(wǎng)格的融合序列。最后，再將其輸入到一個(gè)解析器網(wǎng)絡(luò)預(yù)測(cè)最終的鳥(niǎo)瞰圖分割，做“填洞”和“平滑”等工作。

下面將具體講解一下基于序列圖像數(shù)據(jù)生成鳥(niǎo)瞰圖方法。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖10

整個(gè)系統(tǒng)總體架構(gòu)包括用于每個(gè)傳感器模式的神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)體系結(jié)構(gòu)均由具有卷積層的編碼器-解碼器網(wǎng)絡(luò)組成。與激光雷達(dá)和毫米波雷達(dá)網(wǎng)絡(luò)相比，視覺(jué)網(wǎng)絡(luò)使用略有不同的編碼器和解碼器方案，ResNet為主干，主要是解決像素空間特征問(wèn)題。

Step1： 首先對(duì)攝像頭輸入的圖像進(jìn)行畸變校正；為了創(chuàng)建鳥(niǎo)瞰圖圖像，點(diǎn)云數(shù)據(jù)中的相關(guān)軸將是 x 和 y 軸。一般汽車(chē)坐標(biāo)系中的軸方向與真實(shí)世界坐標(biāo)系是相反的。因此，必須移動(dòng)這些值，以便 (0,0) 是圖像中的最小可能值。

Step2： N個(gè)RGB道路場(chǎng)景圖像由不同角度的攝像頭（包括前視、側(cè)視以及后視）捕獲，并分別通過(guò)語(yǔ)義分割網(wǎng)絡(luò)Semantic生成語(yǔ)義分割圖和深度估計(jì)網(wǎng)絡(luò)Depth生成深度估計(jì)圖；

Step3： 所得到的視覺(jué)圖像語(yǔ)義分割和深度圖被組合并投影到3-D變成語(yǔ)義點(diǎn)云，這里點(diǎn)云語(yǔ)義圖可能是不完整的。

Step4： 將該點(diǎn)云投影到完整的鳥(niǎo)瞰圖中，進(jìn)行BEV點(diǎn)云編碼，整個(gè)處理過(guò)程涉及鳥(niǎo)圖視角轉(zhuǎn)化。相應(yīng)的轉(zhuǎn)化過(guò)程如下：

1）首先基于圖像特征沿高度軸進(jìn)行折疊生成條形特征圖；

這一過(guò)程中必須限制所要查看矩形，且需要?jiǎng)?chuàng)建一個(gè)過(guò)濾器，只保留我們感興趣的區(qū)域內(nèi)的點(diǎn)，然后將點(diǎn)位置映射到像素位置，為了捕捉到更多的細(xì)節(jié)，需要進(jìn)行數(shù)據(jù)縮放并通過(guò)平移轉(zhuǎn)換映射到新的原點(diǎn)位置周?chē)Ｓ捎谖覀兪褂命c(diǎn)數(shù)據(jù)來(lái)指定圖像中的 x 和 y 位置。因此，可以用高度數(shù)據(jù)來(lái)填充這些像素位置的值。但要注意像素值應(yīng)該是整數(shù)且應(yīng)介于 0-255 之間。

2）然后基于圖像深度軸進(jìn)行圖像擴(kuò)展生成對(duì)極鳥(niǎo)瞰圖；

整個(gè)過(guò)程涉及創(chuàng)建圖像數(shù)組，只需初始化一個(gè)數(shù)組，其維度取決于之前在矩形中所需的值范圍和選擇的分辨率。然后使用轉(zhuǎn)換為像素位置的 x 和 y 點(diǎn)值來(lái)指定數(shù)組中的索引，并將之前濾波器過(guò)濾后的像素值的值分配給這些索引。

3）對(duì)極鳥(niǎo)瞰圖在笛卡爾坐標(biāo)系下進(jìn)行重采樣生成鳥(niǎo)瞰圖視角特征圖；

Step5： 對(duì)編碼及視角轉(zhuǎn)化后的圖像進(jìn)行BEV圖形解碼生成BEV語(yǔ)義圖；

在解碼后為了查看鳥(niǎo)瞰圖，需要將圖像存儲(chǔ)為一個(gè) numpy 數(shù)組。如果我們希望將其可視化，我們可以將其轉(zhuǎn)換為 PIL 圖像并查看。可以在 matplotlib 中使用光譜顏色映射從而有助于我們更輕松地分辨價(jià)值差異。

BEV圖像處理對(duì)自動(dòng)駕駛系統(tǒng)的性能優(yōu)化的圖11

總結(jié)

自動(dòng)駕駛系統(tǒng)感知算法應(yīng)用中，基于BEV的圖像感知算法是應(yīng)用得十分廣泛的。特別是基于傳感器融合的BEV算法可以很好的解決整個(gè)感知定位過(guò)程中的環(huán)境整體探測(cè)能力，更能生成如偽高精地圖用于進(jìn)行形式態(tài)勢(shì)評(píng)估。特別針對(duì)自動(dòng)駕駛之前的極端場(chǎng)景（如鬼影、大曲率彎道、不確定的3D障礙物等）的解決可以起到很好的規(guī)避作用。本文以BEV圖像處理原理說(shuō)明其在自動(dòng)駕駛感知能力上能解決的場(chǎng)景應(yīng)用，相信在機(jī)器視覺(jué)這一領(lǐng)域，BEV的研究成果也可以很好的應(yīng)用在自動(dòng)駕駛研究過(guò)程中。

登錄后免費(fèi)查看全文

立即登錄