車道感知多樣化軌跡預(yù)測(cè)的分治策略


來(lái)源 |  同濟(jì)智能汽車研究所

編者按:隨著自動(dòng)駕駛的快速發(fā)展,如何理解自動(dòng)駕駛周圍目標(biāo)的行為成為自動(dòng)駕駛系統(tǒng)中的重要一環(huán)。軌跡預(yù)測(cè)任務(wù)旨在根據(jù)目標(biāo)(如行人、車輛等交通參與者)當(dāng)前或者歷史軌跡與環(huán)境信息,對(duì)該目標(biāo)未來(lái)的行駛軌跡進(jìn)行預(yù)測(cè)。軌跡預(yù)測(cè)結(jié)果是自動(dòng)駕駛系統(tǒng)進(jìn)行提前決策的重要信息之一。而目前多使用贏家通吃(WTA)解決軌跡預(yù)測(cè)中的多模態(tài)特性和目標(biāo)間的交互關(guān)系,而本文的DAC可以初始化WTA,避免偽模式。同時(shí)結(jié)合車道語(yǔ)義信息作為錨點(diǎn),也能更好避免不合理軌跡的產(chǎn)生。

摘要: 軌跡預(yù)測(cè)是自動(dòng)駕駛汽車在規(guī)劃和執(zhí)行環(huán)節(jié)中的關(guān)鍵一步。我們的工作解決了軌跡預(yù)測(cè)中的兩個(gè)關(guān)鍵挑戰(zhàn):學(xué)習(xí)多模態(tài)輸出,以及通過(guò)使用駕駛信息施加約束來(lái)實(shí)現(xiàn)更好的預(yù)測(cè)。最近的方法采用多個(gè)目標(biāo)函數(shù),如贏家通吃(WTA)或多項(xiàng)中的最佳,取得了很好的效果。但是,這些方法沒(méi)有充分考慮假設(shè)的多樣性,而目標(biāo)函數(shù)高度依賴于它們對(duì)多樣性的初始化。作為我們的第一個(gè)貢獻(xiàn),我們提出了一種新穎的分而治之(DAC)方法,對(duì)WTA目標(biāo)函數(shù)進(jìn)行更好初始化,得到?jīng)]有任何偽模式的不同輸出。我們的第二個(gè)貢獻(xiàn)是一個(gè)新的軌跡預(yù)測(cè)框架,稱為ALAN,它使用現(xiàn)有的車道中心線作為錨點(diǎn),為輸入車道提供軌跡約束。我們的框架通過(guò)超列描述子捕捉交互,并以柵格化圖像和車道錨點(diǎn)的形式結(jié)合場(chǎng)景信息,提供多個(gè)軌跡輸出。對(duì)合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的實(shí)驗(yàn)表明,與其他WTA目標(biāo)函數(shù)相比,DAC更好地捕捉了數(shù)據(jù)分布。此外,ALAN在Nuscenes城市駕駛基準(zhǔn)數(shù)據(jù)集上,取得了與SOTA方法相當(dāng)或更好的性能。

關(guān)鍵詞: 自動(dòng)駕駛汽車,軌跡預(yù)測(cè),WTA,分治策略,軌跡約束

1 引言

多模態(tài)行為的預(yù)測(cè)是自動(dòng)駕駛汽車主動(dòng)做出安全決策的關(guān)鍵。一個(gè)主要的挑戰(zhàn)在于,不僅要預(yù)測(cè)最主要的模式,還要解釋偶爾出現(xiàn)的不那么主要的模式。因此,模型不僅需要能夠確定合理的輸出空間,還需要對(duì)任意給定數(shù)量的樣本進(jìn)行預(yù)測(cè)。此外,絕大多車輛執(zhí)行的是符合底層場(chǎng)景結(jié)構(gòu)的常理可接受的策略。常理不可行的輸出可能導(dǎo)致不安全的規(guī)劃決策,而且其中一些決策比其他決策更危險(xiǎn)[7]。例如,與遵循場(chǎng)景結(jié)構(gòu)的方法相比,提供足夠接近的預(yù)測(cè)而不遵循道路語(yǔ)義信息的方法更危險(xiǎn)。

通常,生成模型被廣泛用于捕捉與軌跡預(yù)測(cè)問(wèn)題相關(guān)的不確定性[29,24,42,23,44]。然而,生成模型可能會(huì)遭遇模式崩潰問(wèn)題,這降低了其在重視安全性的問(wèn)題(如自動(dòng)駕駛汽車)上的適用性。最近的方法[36,32]使用多個(gè)目標(biāo)函數(shù)[30],如贏家通吃(WTA),但存在與網(wǎng)絡(luò)初始化相關(guān)的不穩(wěn)定性[34,39]。作為本文的第一個(gè)貢獻(xiàn),我們提出了一種分而治之(DAC)方法,該方法為WTA提供了更好的初始化。我們的方法解決了與偽模式相關(guān)的問(wèn)題,偽模式指的是一些假設(shè)要么在訓(xùn)練過(guò)程中未經(jīng)訓(xùn)練,要么不代表數(shù)據(jù)的任何部分。與WTA基線相比,我們所提出的DAC在具有多模態(tài)地面真值的真實(shí)場(chǎng)景和合成場(chǎng)景中都能更好地捕獲數(shù)據(jù)分布結(jié)構(gòu)[34,39]。

此外,軌跡預(yù)測(cè)方法通過(guò)柵格化圖像[29,42,44,36,38,8]的形式,或者高清地圖數(shù)據(jù)結(jié)構(gòu)[32,17]的場(chǎng)景信息作為輸入,融合駕駛信息。通常,這些信息被用作網(wǎng)絡(luò)輸入的特征,并且不能保證強(qiáng)語(yǔ)義耦合。本文的第二個(gè)貢獻(xiàn)是ALAN,這是一種新的軌跡預(yù)測(cè)框架,使用車道中心線作為錨點(diǎn)來(lái)預(yù)測(cè)軌跡(圖1)。ALAN的輸出精確的預(yù)測(cè),由FDE和OffRoadRate值可以證明良好的語(yǔ)義對(duì)齊,并通過(guò)定性可視化進(jìn)行驗(yàn)證。

車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖1

圖1 交互場(chǎng)景下的軌跡預(yù)測(cè)問(wèn)題,彩色虛線代表了交通參與者可能的車道錨點(diǎn)


具體來(lái)說(shuō),我們使用一個(gè)單一的表示模型[44]用于多交通參與者輸入,并通過(guò)超列描述子[2]的新穎使用對(duì)交互進(jìn)行編碼,該描述子從多個(gè)尺度的特征中提取信息。此外,我們將預(yù)測(cè)問(wèn)題轉(zhuǎn)換為相對(duì)于輸入通道的法向切向(nt) 坐標(biāo)。考慮到我們使用車道中心線作為錨點(diǎn),這種轉(zhuǎn)換是至關(guān)重要的。此外,我們通過(guò)輔助的xy預(yù)測(cè)來(lái)規(guī)范錨點(diǎn)輸出,使其不那么容易受到壞錨點(diǎn)的影響,并依賴于車輛動(dòng)力學(xué)。最后,我們通過(guò)一個(gè)基于逆最優(yōu)控制的排序模塊[29]對(duì)我們的預(yù)測(cè)進(jìn)行排序。


總而言之,本文的貢獻(xiàn)如下:
  • 一種新的分而治之的方法可以更好地初始化WTA目標(biāo)函數(shù),該方法可以捕獲沒(méi)有任何偽模式的數(shù)據(jù)分布。
  • 一個(gè)新的基于錨點(diǎn)的軌跡預(yù)測(cè)框架 (ALAN),它使用現(xiàn)有的車道中心線作為錨點(diǎn),以提供具有強(qiáng)語(yǔ)義耦合的環(huán)境感知輸出。
  • 在Nuscenes城市駕駛基準(zhǔn)數(shù)據(jù)集上有較好的表現(xiàn)。


2 相關(guān)工作

多選擇學(xué)習(xí): 過(guò)去通過(guò)多選擇學(xué)習(xí) (Multi-Choice Learning, MCL) [19,13,30]在不同領(lǐng)域?qū)崿F(xiàn)了多模態(tài)預(yù)測(cè)。一些文獻(xiàn)已經(jīng)展示了MCL在分類[30,39]、分割[30,39]、字幕[30]、姿態(tài)估計(jì)[39]、圖像合成[11]和軌跡建議[45]等方面的應(yīng)用案例。與WTA目標(biāo)函數(shù)相關(guān)的收斂問(wèn)題已在[39,34]中得到證明。在此基礎(chǔ)上,[39]提出了一種寬松的贏家通吃目標(biāo)函數(shù)(RWTA)來(lái)解決收斂問(wèn)題,但該方法本身存在假設(shè)錯(cuò)誤捕獲數(shù)據(jù)分布的問(wèn)題。[34]提出了一種改進(jìn)的贏家通吃(EWTA)損失函數(shù),相較于[39]這種損失函數(shù)更好地獲取了數(shù)據(jù)分布。盡管有了上述改進(jìn),但由于訓(xùn)練過(guò)程中存在的偽模式或未經(jīng)訓(xùn)練的假設(shè),這些方法仍不能準(zhǔn)確捕捉數(shù)據(jù)分布。因此,我們提出了一種分而治之的方法,在訓(xùn)練過(guò)程中,通過(guò)在每個(gè)階段捕獲部分?jǐn)?shù)據(jù)分布的假設(shè)集,以指數(shù)方式增加輸出的有效數(shù)量。

預(yù)測(cè)方法: 大量文獻(xiàn)對(duì)未來(lái)軌跡預(yù)測(cè)進(jìn)行了廣泛的研究,包括經(jīng)典的[47,31,27]和基于深度學(xué)習(xí)的方法[18,1,44]。確定性模型[1,33,41]預(yù)測(cè)場(chǎng)景中每個(gè)交通參與者最可能的軌跡,而忽略了軌跡預(yù)測(cè)問(wèn)題中繼承的不確定性。為了捕捉不確定性并創(chuàng)造不同的軌跡預(yù)測(cè),提出了隨機(jī)方法,通過(guò)抽樣隨機(jī)變量來(lái)編碼未來(lái)軌跡的可能模式。非參數(shù)深度生成模型,如條件變分自動(dòng)編碼器 (CVAE) [29,3,24,22,44]和生成對(duì)抗網(wǎng)絡(luò)(generative Ad versarial Networks, GANs)[28,18,40]在該領(lǐng)域得到了廣泛的應(yīng)用。然而,由于潛在分布[48]的不平衡,這些方法不能捕獲所有的潛在模式。最近的方法預(yù)測(cè)了同一輸入環(huán)境下的固定的不同軌跡[36,32]。我們的方法使用類似的方法來(lái)預(yù)測(cè)一組M假設(shè)。

表征: 高清地圖柵格化在文獻(xiàn)中被廣泛應(yīng)用于,利用神經(jīng)網(wǎng)絡(luò)對(duì)地圖信息進(jìn)行編碼和處理[3,51,14,6,44]。一些方法[43,35]利用透視圖像的語(yǔ)義和深度信息構(gòu)造頂視圖地圖。有些方法[49,6]使用了柵格化高清地圖和傳感器信息的結(jié)合。最近的一些著作[32,17]通過(guò)將矢量化的地圖數(shù)據(jù)表示為圖數(shù)據(jù)結(jié)構(gòu)來(lái)直接利用地圖信息。我們的工作使用混合地圖輸入,結(jié)合柵格化地圖和矢量化車道數(shù)據(jù),作為空間網(wǎng)格[44]上每個(gè)交通參與者的輸入。

軌跡預(yù)測(cè): 傳統(tǒng)上,一些文獻(xiàn)[44,32,17,36]將軌跡預(yù)測(cè)問(wèn)題表述為笛卡爾坐標(biāo)上的回歸問(wèn)題。[43]將其作為空間網(wǎng)格上未來(lái)位置的分類。Chang等人的[9]使用了與我們類似的法向切線坐標(biāo),但僅限于經(jīng)典的最近鄰和簡(jiǎn)單LSTM[21]方法。與我們的工作相關(guān),一些方法通過(guò)將輸出空間量化為幾個(gè)預(yù)定義的不同錨點(diǎn),然后將原始軌跡問(wèn)題重新構(gòu)造為順序錨點(diǎn)分類(選擇)和偏移回歸子問(wèn)題來(lái)解決多模態(tài)問(wèn)題[50,38,8,49]。然而,錨點(diǎn)通常是預(yù)先聚類到一個(gè)固定的集合中,或者是根據(jù)運(yùn)動(dòng)學(xué)[50]實(shí)時(shí)計(jì)算。因此,創(chuàng)建錨點(diǎn)的過(guò)程可能會(huì)增加推理時(shí)間的計(jì)算復(fù)雜度,而且它可能高度依賴于場(chǎng)景,難以泛化。相比之下,我們的方法使用高清地圖中心線信息作為錨點(diǎn),這對(duì)于不同的場(chǎng)景是一致的,也易于在推理中獲得。

3 分治策略

在本節(jié)中,我們?cè)敿?xì)描述了我們訓(xùn)練多假設(shè)預(yù)測(cè)網(wǎng)絡(luò)的方法,而我們的方法是贏家通吃[30]目標(biāo)函數(shù)的初始化步驟。設(shè)χ表示輸入的向量空間,у表示輸出變量的向量空間。設(shè)D={(xi, yi),…,(xN, yN)}是N個(gè)訓(xùn)練元組的集合,p(x, y) = p(y|x)p(x)是聯(lián)合概率密度。我們的目標(biāo)是學(xué)習(xí)一個(gè)函數(shù)fθ:χ—> уM,它將χ中的每個(gè)輸入映射到一組M假設(shè)的集合。在數(shù)學(xué)上,我們定義:
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖2
正如Rupprecht等人在[39]中所示,贏家通吃的目標(biāo)函數(shù)通過(guò)盡可能接近M個(gè)假設(shè)使損失最小化:
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖3
其中уj是標(biāo)記空間的Voronoi剖分у=∪j=1Mуj。而目標(biāo)函數(shù)將導(dǎo)致輸出的質(zhì)心Voronoi剖分[15],其中每個(gè)假設(shè)最小化到由它包圍的Voronoi標(biāo)記空間уj的概率質(zhì)量質(zhì)心。在實(shí)踐中,為了獲得不同的假設(shè),WTA目標(biāo)函數(shù)可以寫成一種元損失[34, 39, 30, 19],
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖4
其中δ(·)是當(dāng)條件為真時(shí)值為1,否則為0的Kronecker δ函數(shù)。

WTA的初始化困難 正如Makansi等人在[34]中提到的,方程3可以類比為EM算法和K-means聚類,它們主要依賴于初始化來(lái)獲得最優(yōu)收斂。如2b所示,這使得訓(xùn)練過(guò)程非常脆弱,因?yàn)橹挥猩贁?shù)幾個(gè)假設(shè)的Voronoi區(qū)域包含了數(shù)據(jù)分布,由于贏家通吃的目標(biāo)函數(shù),使得大多數(shù)假設(shè)未被訓(xùn)練。Ruppercht等人在[39]提出的通過(guò)給非贏家分配權(quán)重 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖5 來(lái)解決收斂問(wèn)題的備選方案并不奏效,因?yàn)槊總€(gè)地面真值最多只與一個(gè)假設(shè)相關(guān)聯(lián),使得其他非贏家達(dá)到2c所示的均衡。

Ruppercht等人在[39]中提出的通過(guò)分配策略,對(duì)非贏家的權(quán)重并不起作用,因?yàn)槊總€(gè)基礎(chǔ)真理最多只與一個(gè)假設(shè)相關(guān)聯(lián),使其他非贏家達(dá)到2c所示的均衡。Makansi 等人在[34]中提出了改進(jìn)贏家通吃(EWTA) 的目標(biāo)函數(shù),其中他們將前k名視作贏家。k從k=M到k=1不等,導(dǎo)致贏家在訓(xùn)練過(guò)程中獲得全部目標(biāo)。與RWTA和WTA相比,這種方法可以更好地捕捉數(shù)據(jù)分布,但仍然產(chǎn)生了模態(tài)不正確的假設(shè),如圖2d所示。

車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖6
圖2 比較不同版本的贏家通吃和封閉的預(yù)測(cè)假設(shè)的Voronoi區(qū)域的玩具示例

玩具數(shù)據(jù)用紅色表示,假設(shè)用白色表示。當(dāng)DAC的Depth=1時(shí),它包含一個(gè)單一的假設(shè)集,其中有M個(gè)假設(shè),因此所有的假設(shè)都被抑制以匹配數(shù)據(jù)并達(dá)到平衡。隨著深度的增加,當(dāng)每個(gè)集合被分解成兩半(e —> f —> g —> h) 時(shí),列表中集合的數(shù)量呈指數(shù)增長(zhǎng)。由于我們對(duì)一個(gè)集合中的所有假設(shè)都使用相同的地面真值,他們達(dá)到相同的平衡位置,形成質(zhì)心Voronoi剖分,使得輸出的數(shù)量等于列表中集合的數(shù)量(e —> 1,f —> 2,g —> 4,h —> 8)。在最后階段(h),每個(gè)集合包含一個(gè)類似WTA目標(biāo)函數(shù)的假設(shè)。與DAC相比,其他WTA目標(biāo)函數(shù)對(duì)數(shù)據(jù)分布的建模不正確,因?yàn)橐恍¬oronoi區(qū)域沒(méi)有捕獲數(shù)據(jù)的任何部分,導(dǎo)致了偽模式。

DAC用于不同的非偽模式 我們提出了一種新的初始化技術(shù),稱為分治(Divide and Conquer),它緩解了偽模式的問(wèn)題,讓每個(gè)輸出假設(shè)的Voronoi區(qū)域捕獲數(shù)據(jù)的一部分,如圖2h所示。我們將M個(gè)假設(shè)劃分為k個(gè)集合,用最小輸出更新集合以匹配地面真值。k的值從1開(kāi)始,隨著訓(xùn)練的進(jìn)行,每個(gè)集合被分解成兩部分,k的值呈指數(shù)級(jí)增長(zhǎng)。這創(chuàng)建了一個(gè)二叉樹(shù),樹(shù)的深度依賴于輸出假設(shè)M的數(shù)量。算法1顯示了所提出的分治的偽代碼。這里深度指的是當(dāng)前訓(xùn)練階段可以達(dá)到的最大深度,列表定義為在訓(xùn)練的任何階段包含假設(shè)集的變量。此外,我們將kth中新形成的集合定義為setk1和setk2。列表中產(chǎn)生最小輸出的集合表示為mSet。最后我們?nèi)Set中所有假設(shè)的平均損失來(lái)得到LDAC。

車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖7

如圖2e所示,當(dāng)k=1時(shí),列表中只包含一個(gè)集合,所有的M個(gè)假設(shè)都趨于平衡。隨著列表中集合的數(shù)量從2e增加到2f,假設(shè)根據(jù)Voronoi區(qū)域劃分分布空間,以捕獲數(shù)據(jù)的不同部分。輸出的有效數(shù)量在每個(gè)階段都在增長(zhǎng),前一階段的kth集合捕獲的數(shù)據(jù)在下一階段被拆分為兩個(gè)新形成的集。最后,當(dāng)我們到達(dá)葉節(jié)點(diǎn)時(shí),每個(gè)集合包含一個(gè)假設(shè),導(dǎo)致類似于等式3的贏家通吃的目標(biāo)函數(shù)。

DAC從擬合整個(gè)數(shù)據(jù)的所有假設(shè)開(kāi)始,在每一階段,DAC確保將一些數(shù)據(jù)封裝在Voronoi空間中。在分裂過(guò)程中,假設(shè)對(duì)包含在Voronoi空間中的數(shù)據(jù)進(jìn)行分割,以達(dá)到新的平衡。雖然DAC不能保證相同數(shù)量的假設(shè),可以捕獲數(shù)據(jù)的不同模式,但它保證了收斂。此外,值得一提的是,DAC沒(méi)有任何顯著的計(jì)算復(fù)雜性,因?yàn)橹簧婕暗絼澐譃榧虾妥钚∮?jì)算。在第5節(jié)中,我們展示了DAC在更好地捕獲多模態(tài)分布方面的優(yōu)勢(shì),與其他WTA目標(biāo)函數(shù)相比,DAC可以產(chǎn)生不同的假設(shè)集。

4 基于車道錨點(diǎn)的軌跡預(yù)測(cè)

在本節(jié)中,我們將介紹一種稱為ALAN的單一表示模型,它在向前傳遞中為多個(gè)交通參與者生成車道感知軌跡。我們將問(wèn)題表述為跨越時(shí)間的不同假設(shè)的單例回歸。接下來(lái)將詳細(xì)描述我們的方法。

4.1 問(wèn)題陳述

我們的方法采用兩種形式的場(chǎng)景信息輸入:a) 場(chǎng)景的柵格化鳥(niǎo)瞰(BEV)表示,記為尺寸為H × W × 3的I,b) 每個(gè)交通參與者的車道中心線信息作為錨點(diǎn)。我們定義車道錨點(diǎn)L={L1,…,Lp}作為包含p個(gè)點(diǎn)的序列,在BEV參考系中坐標(biāo)為L(zhǎng)p  =(x, y)。我們將Xi = {Xi1,…,XiT}表示為包含每個(gè)交通參與點(diǎn)的過(guò)去和未來(lái)觀測(cè)結(jié)果的笛卡爾形式的軌跡坐標(biāo),其中Xit = (xit,yit)。對(duì)于每個(gè)交通參與者i,我們根據(jù)軌跡信息,如最近距離、偏航對(duì)齊和其他參數(shù),確定車輛可能采取的一組候選車道。我們將其表示為一組可信的車道中心線A = { L1,…,Lk},其中k表示車輛可能沿著其行駛的車道中心線的總數(shù)。然后我們?cè)诙S曲線法向—切向坐標(biāo)系(nt)中沿這些中心線定義車輛軌跡Xi。將Ni, k = {Ni, k1,…,Ni, kT}表示為交通參與者i沿車道中心線Lk的nt坐標(biāo),其中Ni, kt  = (ni, kt,li, kt)表示到車道最近點(diǎn)的法向和縱向距離。nt坐標(biāo)的使用對(duì)于捕獲復(fù)雜的道路拓?fù)浜拖嚓P(guān)的動(dòng)態(tài)是至關(guān)重要的,坐標(biāo)用以提供語(yǔ)義一致的預(yù)測(cè),這已經(jīng)在我們的實(shí)驗(yàn)中得到了研究(第5節(jié))。

然后,我們將軌跡預(yù)測(cè)問(wèn)題定義為對(duì)給定的車道錨點(diǎn)Lk作為網(wǎng)絡(luò)輸入,進(jìn)行ntYi, k = { Ni, ktobs,…,Ni, kT }預(yù)測(cè)的任務(wù)。我們遵循一個(gè)類似于[44]的輸入表示,其中我們?cè)诳臻g網(wǎng)格上的Xi,tobs 位置對(duì)交通參與者的信息進(jìn)行編碼。最后,為了得到BEV參考系中的軌跡,我們將輸出預(yù)測(cè)轉(zhuǎn)換為基于網(wǎng)絡(luò)輸入錨點(diǎn)Li, k的笛卡爾坐標(biāo)。

4.2用于軌跡預(yù)測(cè)的ALAN框架

框架的概述如圖3所示。我們的方法包括五個(gè)主要部分:a) 中心線編碼器b) 過(guò)去的軌跡編碼器c) 多交通參與者卷積交互編碼器d) 超列[2]軌跡解碼器和e) 基于逆最優(yōu)控制(IOC) 的排序模塊[29]。


車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖8

圖3:ALAN方法的概述。該方法以過(guò)去的軌跡、車道錨點(diǎn)和BEV映射作為輸入,一次性對(duì)所有交通參與者進(jìn)行多假設(shè)預(yù)測(cè)

中心線編碼器: 對(duì)每個(gè)交通參與者的輸入車道信息Li, k進(jìn)行編碼,通過(guò)一系列1D卷積,為場(chǎng)景中的每個(gè)交通參與者生成一個(gè)嵌入向量Ci, k = Cenc(Li, k)。
過(guò)去的軌跡編碼器:除了用于車道錨點(diǎn)的nt坐標(biāo)Ni, k外,我們還為過(guò)去軌跡的編碼器提供了額外的Xi輸入。我們首先通過(guò)MLP嵌入時(shí)間輸入,然后通過(guò)LSTM[21]網(wǎng)絡(luò)提供過(guò)去狀態(tài)向量hitobs。在形式上,
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖9
多交通參與者卷積編碼器: 我們通過(guò)卷積編碼器模塊[44],在前向傳播中實(shí)現(xiàn)了多交通參與者的軌跡預(yù)測(cè)。首先,在BEV空間網(wǎng)格中,將交通參與者的特定信息Ci,k,hitobs編碼到它們各自的位置Xitobs。這將生成一個(gè)場(chǎng)景狀態(tài)映射S,大小為H ×W ×128,包含場(chǎng)景中每個(gè)交通參與者的信息。然后,我們將其與柵格化的BEV映射I一起,通過(guò)卷積編碼器產(chǎn)生不同特征尺度上的激活。為了計(jì)算每個(gè)交通參與者的特征向量,我們采用Bansal等人在[2]中的技術(shù),從它們的位置提取超列描述子Di。超列描述子包含通過(guò)對(duì)不同特征維度的Xitobs進(jìn)行雙線性插值在不同尺度上提取的特征。因此,
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖10
其中ck是通過(guò)雙線性插值,從輸入位置到給定維數(shù)在kth層提取的特征。簡(jiǎn)單來(lái)說(shuō),在不同的尺度上捕獲交互信息,深層的卷積層捕獲全局環(huán)境信息,而低層特征保留交通參與者周邊的交互信息。在第5節(jié)中,我們證明了在軌跡預(yù)測(cè)任務(wù)中使用超列描述子,比僅使用全局環(huán)境向量更有益。

超列軌跡解碼器: 每個(gè)交通參與者的超列描述子Di,通過(guò)包含一系列1x1卷積的解碼器,一次性輸出M個(gè)假設(shè)。在這里,我們研究了兩種不同的ALAN預(yù)測(cè)。ALAN-nt:我們預(yù)測(cè)在車道方向上的 nt 坐標(biāo)系下軌跡 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖11 ;ALAN-ntxy:提供一個(gè)輔助預(yù)測(cè)xy方向預(yù)測(cè)的 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖12 。nt中的線性值可以對(duì)應(yīng)基于輸入錨點(diǎn)的高階軌跡。此外,具有相同nt值的兩條軌跡可能具有完全不同的動(dòng)力學(xué)。因此,我們利用輔助預(yù)測(cè)來(lái)正則化基于錨點(diǎn)的輸出,使網(wǎng)絡(luò)意識(shí)到交通參與者的動(dòng)力學(xué),并減少對(duì)壞錨點(diǎn)的影響。網(wǎng)絡(luò)預(yù)測(cè)的M個(gè)假設(shè)為:
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖13
排序模塊: 我們使用Lee等人在[29]中的技術(shù)生成分?jǐn)?shù)sYi={sYi, 1,sYi, 2,…,sYi, M}表示M個(gè)輸出假設(shè)。它通過(guò)最大化目標(biāo)朝向[46]來(lái)衡量預(yù)測(cè)假設(shè)的好壞程度。該模塊使用預(yù)測(cè) 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖14 得到目標(biāo)分布q,其中q = softmax(-d(ntYi,  車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖15 )),d為d為地面真值與預(yù)測(cè)輸出之間的L2距離。因此,損失函數(shù)定義為L(zhǎng)score = Cross-Entropy(sYi, q)。

4.3學(xué)習(xí)

我們用它們各自的地面真值標(biāo)簽ntY作為輸入車道錨點(diǎn)的L2距離監(jiān)督網(wǎng)絡(luò)輸出 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖16 。我們使用提出的分治技術(shù)來(lái)訓(xùn)練我們的多假設(shè)預(yù)測(cè)網(wǎng)絡(luò)。因此,主預(yù)測(cè)和輔助預(yù)測(cè)的重構(gòu)損失函數(shù)分別為:
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖17
此外,我們通過(guò)將預(yù)測(cè)轉(zhuǎn)換為輸入車道上的nt坐標(biāo) 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖18 來(lái)訓(xùn)練基于錨點(diǎn)的預(yù)測(cè)。我們還添加了正則化的其他方法,通過(guò)將nt坐標(biāo)轉(zhuǎn)化為xy坐標(biāo) 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖19 ,來(lái)抑制基于錨點(diǎn)輸出 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖20 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖21 預(yù)測(cè)。我們將所有假設(shè)轉(zhuǎn)換后的主要預(yù)測(cè)和輔助預(yù)測(cè)之間的L2距離作為正則化:
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖22
使網(wǎng)絡(luò)的總目標(biāo)函數(shù)最小化:
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖23

5 實(shí)驗(yàn)

我們首先在合成汽車行人數(shù)據(jù)集[34]上,評(píng)估了我們提出的分治技術(shù)。此外,我們?cè)贜uscenes[5]預(yù)測(cè)數(shù)據(jù)集上,對(duì)DAC和提出的基于錨點(diǎn)的預(yù)測(cè)技術(shù)進(jìn)行了評(píng)估。

5.1汽車行人數(shù)據(jù)集

與現(xiàn)實(shí)世界中只觀察到單一結(jié)果的設(shè)置不同,CPI數(shù)據(jù)集由具有多模態(tài)地面真值的交互交通參與者組成。我們的目的是評(píng)估我們的多假設(shè)預(yù)測(cè)對(duì)測(cè)試集中樣本的真實(shí)分布的捕獲效果。我們使用與[34]中類似的訓(xùn)練策略,即ResNet-18[20]編碼主干,在此基礎(chǔ)上我們訓(xùn)練兩階段混合密度網(wǎng)絡(luò)[4]。第一階段將過(guò)去對(duì)汽車和行人的觀察作為輸入,預(yù)測(cè)?t時(shí)間后包含兩個(gè)參與者的未來(lái)目標(biāo)的k個(gè)輸出假設(shè)。我們使用不同的贏家通吃的損失函數(shù)來(lái)訓(xùn)練第一階段。第二階段通過(guò)預(yù)測(cè)輸出的軟分類來(lái)擬合假設(shè)上的M個(gè)模態(tài)的混合分布。關(guān)于計(jì)算混合分布參數(shù)的更多細(xì)節(jié),請(qǐng)參考[34]中的公式7、8和9。我們使用[34]中的oracle偏差(FDE)和推土距離 (EMD)等評(píng)估指標(biāo)。

Oracle偏差 (FDE)通過(guò)選擇與地面真值最接近的假設(shè)來(lái)衡量輸出預(yù)測(cè)的多樣性。

推土距離量化為使預(yù)測(cè)分布匹配真實(shí)分布必須移除的概率質(zhì)量的數(shù)量。

從表1可以推斷,我們提出的DAC方法優(yōu)于WTA目標(biāo)函數(shù)的其他變體,這表明DAC比EWTA、RWTA和WTA更好地捕捉數(shù)據(jù)分布。這也可以在圖4中看到,與其他變體相比,DAC目標(biāo)函數(shù)訓(xùn)練的網(wǎng)絡(luò)更好地捕獲了參與者的地面真值分布。DAC的平均EMD明顯優(yōu)于WTA,與EWTA和RWTA目標(biāo)函數(shù)相當(dāng)。與行人目標(biāo)相比,DAC能更好地捕捉到車輛目標(biāo)。此外,如表1所示,DAC方法的平均oracle 偏差(FDE)明顯低于其他變體,這證實(shí)了DAC產(chǎn)生了與WTA不同的假設(shè)。

車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖24

圖4:圖中展示了CPI測(cè)試集上使用不同WTA目標(biāo)函數(shù)的預(yù)測(cè)假設(shè)和學(xué)習(xí)到的目標(biāo)混合分布。紫色和黑色的方形代表汽車和行人的當(dāng)前位置。預(yù)測(cè)的假設(shè)用它們各自的顏色表示。(e) 類似于地面真實(shí)分布的假設(shè)沿著人行橫道上展開(kāi),更好地捕獲數(shù)據(jù)分布。

表1:基于FDE和EMD指標(biāo)的CPI數(shù)據(jù)集方法比較,其中p代表行人和c代表車輛
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖25

5.2 Nuscenes數(shù)據(jù)集

Nuscenes[5]包含了波士頓和新加坡的大量城市復(fù)雜道路場(chǎng)景,大約包含4萬(wàn)個(gè)實(shí)例,且包括挑戰(zhàn)性的序列,比如u型轉(zhuǎn)彎和復(fù)雜的道路布局。

5.2.1基線
我們將ALAN預(yù)測(cè)結(jié)果與在Nuscenes基準(zhǔn)數(shù)據(jù)集上評(píng)估的幾種基線方法進(jìn)行了比較。MTP[12]使用柵格化圖像作為輸入來(lái)預(yù)測(cè)軌跡。CoverNet[38]使用固定的軌跡集,將軌跡預(yù)測(cè)問(wèn)題轉(zhuǎn)為對(duì)軌跡集的分類。Multipath[8]是最接近的基線,它使用從訓(xùn)練集獲得的時(shí)間參數(shù)化錨點(diǎn)軌跡,并將問(wèn)題表述為相對(duì)于錨點(diǎn)的偏移值的回歸。MHA JAM[36]是一種使用聯(lián)合交通參與者-映射的表示,它輸出具有多頭注意力。Trajectron++[42]是結(jié)合交通參與者動(dòng)力學(xué)和語(yǔ)義的預(yù)測(cè)軌跡的圖循環(huán)模型。我們利用[36]中的[12]和[8]的數(shù)據(jù)。

5.2.2指標(biāo)
我們使用標(biāo)準(zhǔn)的評(píng)估指標(biāo),如平均位移誤差(mADEM)和最終位移誤差(mFDEM)。此外,我們計(jì)算前M個(gè)軌跡相較于地面真值的遺漏率(Missd, M)。如果在所有預(yù)測(cè)中不存在最大位移點(diǎn)小于閾值d的假設(shè),則認(rèn)為一組預(yù)測(cè)都是錯(cuò)誤的。OffRoadRate計(jì)算可行駛區(qū)域以外的輸出軌跡百分比。我們使用由Nuscenes提供的示例API來(lái)計(jì)算這些指標(biāo)。

5.2.3量化結(jié)果
首先,與基線方法相比,ALAN可以達(dá)到同等或更好的性能。在這里,我們用不同的錨點(diǎn)抽樣策略 (top-M、oracle和best-of-all (BofA)) 來(lái)評(píng)估ALAN。在ALAN (top-M)中,我們根據(jù)預(yù)測(cè)的每個(gè)軌跡的IOC分?jǐn)?shù),從不同的錨點(diǎn)上選取前M個(gè)軌跡輸出。ALAN (oracle)使用車道中心線得分最高的oracle錨點(diǎn),同時(shí)ALAN (BofA)從前k個(gè)假設(shè)的車道錨點(diǎn)中選擇最佳。表2的結(jié)果表明,ALAN評(píng)估要么表現(xiàn)出與其他基準(zhǔn)相當(dāng)?shù)男阅埽丛趲讉€(gè)指標(biāo)上顯著優(yōu)于其他基準(zhǔn),如mADE10方面至少有11%的改進(jìn),mFDE10方面相較于BofA提高了25%。此外,所有的ALAN預(yù)測(cè)的OffRoadRate為0.01,即只有1%的預(yù)測(cè)軌跡落在道路之外。這明顯低于其他有7%或更高的OffRoadRate的基線表現(xiàn)。輸出預(yù)測(cè)與語(yǔ)義的強(qiáng)耦合可以歸因于車道錨點(diǎn),它有助于在車道方向上提供輸出預(yù)測(cè)。其他方法,如[8,38],使用從訓(xùn)練集提取的軌跡作為錨點(diǎn)或進(jìn)行分類,這可能導(dǎo)致輸出對(duì)未出現(xiàn)場(chǎng)景和具有復(fù)雜車道結(jié)構(gòu)的軌跡的泛化能力較差。此外,值得注意的是,ALAN性能被低估了,因?yàn)閿?shù)據(jù)中沒(méi)有連接的車道和沒(méi)有車道中心線的地方會(huì)導(dǎo)致壞錨點(diǎn)。但為了便于與基線比較,在此沒(méi)有刪除這些情況。

表2:軌跡預(yù)測(cè)基準(zhǔn)
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖26

消融研究: 此外,我們還對(duì)ALAN以及DAC和其他變體進(jìn)行了消融研究,如表3所示。我們首先引入超列描述子[2]來(lái)提取多尺度特征,并將其與作為輸入進(jìn)入解碼器的全局環(huán)境向量進(jìn)行比較。然后我們研究了ALAN預(yù)測(cè)的幾個(gè)變體。首先,我們添加了參考中心線作為輸入,并預(yù)測(cè)xy坐標(biāo)空間(MCL + Poly)的軌跡。這大大提高了性能。使用車道中心線作為錨點(diǎn)并預(yù)測(cè)nt空間的軌跡(MCL+LA-nt)表現(xiàn)稍差,但我們認(rèn)為這是由于網(wǎng)絡(luò)難以從基于錨點(diǎn)的輸入計(jì)算交通參與者的動(dòng)力學(xué)特征。例如,具有相同nt坐標(biāo)的兩個(gè)軌跡可以根據(jù)它們所行駛的車道具有不同的動(dòng)力學(xué)。因此,我們進(jìn)一步增加xy坐標(biāo)作為輸入,并在笛卡爾空間(MCL+LA-ntxy) 預(yù)測(cè)輔助軌跡。如表3所示,這樣的輔助預(yù)測(cè)改進(jìn)了基于主要錨點(diǎn)的輸出。

此外,我們使用輔助預(yù)測(cè)正則化錨點(diǎn)輸出,反之亦然。通常意義上,錨點(diǎn)輸出可以從輔助預(yù)測(cè)中受益,因?yàn)檩o助預(yù)測(cè)并不局限于只提供沿車道方向的軌跡。添加一個(gè)正則化步驟來(lái)匹配主軌跡和輔助軌跡,顯著提高了錨定輸出性能,如表3中MCL+LA-ntxy+Reg值所示。

表3:Nuscenes數(shù)據(jù)集上的消融研究
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖27

5.2.4量化結(jié)果
圖5顯示了來(lái)自ALAN的定性結(jié)果。一般來(lái)說(shuō),使用車道作為錨點(diǎn),將預(yù)測(cè)問(wèn)題轉(zhuǎn)化到nt空間有助于指導(dǎo)預(yù)測(cè)和跟蹤語(yǔ)義。當(dāng)我們預(yù)測(cè)較長(zhǎng)時(shí)間的軌跡時(shí),所執(zhí)行的軌跡會(huì)變得復(fù)雜,而不僅僅是一個(gè)直行或轉(zhuǎn)彎動(dòng)作,而使用車道作為錨點(diǎn)可以簡(jiǎn)化問(wèn)題。

車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖28
圖5:來(lái)自ALAN的預(yù)測(cè)示例。過(guò)去的軌跡用棕色表示,地面真值(GT)用黑色表示。GT的端點(diǎn)用綠點(diǎn)表示。輸入車道錨點(diǎn)用青色表示,預(yù)測(cè)軌跡用綠色表示,終點(diǎn)用三角形表示。(a)和(b)顯示了一個(gè)復(fù)雜的車道結(jié)構(gòu)的預(yù)測(cè)。基于錨點(diǎn)的預(yù)測(cè)效果更好,特別是預(yù)測(cè)較長(zhǎng)時(shí)間軌跡。由于軌跡的復(fù)雜性,錨點(diǎn)的存在有助于遵循語(yǔ)義信息。(c) 當(dāng)目標(biāo)車道在相反方向時(shí),適當(dāng)結(jié)合動(dòng)力學(xué)信息預(yù)測(cè)u型轉(zhuǎn)彎;(d) 多交通參與者的預(yù)測(cè)場(chǎng)景。

6 結(jié)論

在本文中,我們討論了使用WTA目標(biāo)函數(shù)學(xué)習(xí)多模態(tài)輸出和使用駕駛知識(shí)對(duì)輸出預(yù)測(cè)施加約束的相關(guān)問(wèn)題。首先,我們引入了一種新的DAC方法,該方法可以學(xué)習(xí)不同的假設(shè),從而在不存在任何偽模式的情況下捕獲數(shù)據(jù)分布。此外,我們還介紹了ALAN,它使用車道作為錨點(diǎn)提供了不同的環(huán)境感知軌跡。我們?cè)诤铣蓴?shù)據(jù)和真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)都證明了,本文的DAC方法在學(xué)習(xí)多模態(tài)輸出方面的優(yōu)越性。此外,我們還證明了使用車道錨點(diǎn)有助于提供具有強(qiáng)語(yǔ)義耦合的準(zhǔn)確預(yù)測(cè)。

本文譯自:《Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction》
文章來(lái)源:CVPR 21 (Oral)
作者:Sriram Narayanan, Ramin Moslemi, Francesco Pittaluga, Buyu Liu, Manmohan Chandraker
原文鏈接:https://arxiv.org/abs/2104.08277


車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖29
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖30
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖31
車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖32
<左右滑動(dòng)查看更多>
登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺(tái)客服

TOP