車道感知多樣化軌跡預(yù)測(cè)的分治策略

駕駛哥

2021年8月11日 09:32

來(lái)源 | 同濟(jì)智能汽車研究所

編者按：隨著自動(dòng)駕駛的快速發(fā)展，如何理解自動(dòng)駕駛周圍目標(biāo)的行為成為自動(dòng)駕駛系統(tǒng)中的重要一環(huán)。軌跡預(yù)測(cè)任務(wù)旨在根據(jù)目標(biāo)(如行人、車輛等交通參與者)當(dāng)前或者歷史軌跡與環(huán)境信息，對(duì)該目標(biāo)未來(lái)的行駛軌跡進(jìn)行預(yù)測(cè)。軌跡預(yù)測(cè)結(jié)果是自動(dòng)駕駛系統(tǒng)進(jìn)行提前決策的重要信息之一。而目前多使用贏家通吃（WTA）解決軌跡預(yù)測(cè)中的多模態(tài)特性和目標(biāo)間的交互關(guān)系，而本文的DAC可以初始化WTA，避免偽模式。同時(shí)結(jié)合車道語(yǔ)義信息作為錨點(diǎn)，也能更好避免不合理軌跡的產(chǎn)生。

摘要： 軌跡預(yù)測(cè)是自動(dòng)駕駛汽車在規(guī)劃和執(zhí)行環(huán)節(jié)中的關(guān)鍵一步。我們的工作解決了軌跡預(yù)測(cè)中的兩個(gè)關(guān)鍵挑戰(zhàn)：學(xué)習(xí)多模態(tài)輸出，以及通過(guò)使用駕駛信息施加約束來(lái)實(shí)現(xiàn)更好的預(yù)測(cè)。最近的方法采用多個(gè)目標(biāo)函數(shù)，如贏家通吃(WTA)或多項(xiàng)中的最佳，取得了很好的效果。但是，這些方法沒(méi)有充分考慮假設(shè)的多樣性，而目標(biāo)函數(shù)高度依賴于它們對(duì)多樣性的初始化。作為我們的第一個(gè)貢獻(xiàn)，我們提出了一種新穎的分而治之(DAC)方法，對(duì)WTA目標(biāo)函數(shù)進(jìn)行更好初始化，得到?jīng)]有任何偽模式的不同輸出。我們的第二個(gè)貢獻(xiàn)是一個(gè)新的軌跡預(yù)測(cè)框架，稱為ALAN，它使用現(xiàn)有的車道中心線作為錨點(diǎn)，為輸入車道提供軌跡約束。我們的框架通過(guò)超列描述子捕捉交互，并以柵格化圖像和車道錨點(diǎn)的形式結(jié)合場(chǎng)景信息，提供多個(gè)軌跡輸出。對(duì)合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的實(shí)驗(yàn)表明，與其他WTA目標(biāo)函數(shù)相比，DAC更好地捕捉了數(shù)據(jù)分布。此外，ALAN在Nuscenes城市駕駛基準(zhǔn)數(shù)據(jù)集上，取得了與SOTA方法相當(dāng)或更好的性能。

關(guān)鍵詞： 自動(dòng)駕駛汽車，軌跡預(yù)測(cè)，WTA，分治策略，軌跡約束

1 引言

多模態(tài)行為的預(yù)測(cè)是自動(dòng)駕駛汽車主動(dòng)做出安全決策的關(guān)鍵。一個(gè)主要的挑戰(zhàn)在于，不僅要預(yù)測(cè)最主要的模式，還要解釋偶爾出現(xiàn)的不那么主要的模式。因此，模型不僅需要能夠確定合理的輸出空間，還需要對(duì)任意給定數(shù)量的樣本進(jìn)行預(yù)測(cè)。此外，絕大多車輛執(zhí)行的是符合底層場(chǎng)景結(jié)構(gòu)的常理可接受的策略。常理不可行的輸出可能導(dǎo)致不安全的規(guī)劃決策，而且其中一些決策比其他決策更危險(xiǎn)[7]。例如，與遵循場(chǎng)景結(jié)構(gòu)的方法相比，提供足夠接近的預(yù)測(cè)而不遵循道路語(yǔ)義信息的方法更危險(xiǎn)。

通常，生成模型被廣泛用于捕捉與軌跡預(yù)測(cè)問(wèn)題相關(guān)的不確定性[29,24,42,23,44]。然而，生成模型可能會(huì)遭遇模式崩潰問(wèn)題，這降低了其在重視安全性的問(wèn)題(如自動(dòng)駕駛汽車)上的適用性。最近的方法[36,32]使用多個(gè)目標(biāo)函數(shù)[30]，如贏家通吃(WTA)，但存在與網(wǎng)絡(luò)初始化相關(guān)的不穩(wěn)定性[34,39]。作為本文的第一個(gè)貢獻(xiàn)，我們提出了一種分而治之(DAC)方法，該方法為WTA提供了更好的初始化。我們的方法解決了與偽模式相關(guān)的問(wèn)題，偽模式指的是一些假設(shè)要么在訓(xùn)練過(guò)程中未經(jīng)訓(xùn)練，要么不代表數(shù)據(jù)的任何部分。與WTA基線相比，我們所提出的DAC在具有多模態(tài)地面真值的真實(shí)場(chǎng)景和合成場(chǎng)景中都能更好地捕獲數(shù)據(jù)分布結(jié)構(gòu)[34,39]。

此外，軌跡預(yù)測(cè)方法通過(guò)柵格化圖像[29,42,44,36,38,8]的形式，或者高清地圖數(shù)據(jù)結(jié)構(gòu)[32,17]的場(chǎng)景信息作為輸入，融合駕駛信息。通常，這些信息被用作網(wǎng)絡(luò)輸入的特征，并且不能保證強(qiáng)語(yǔ)義耦合。本文的第二個(gè)貢獻(xiàn)是ALAN，這是一種新的軌跡預(yù)測(cè)框架，使用車道中心線作為錨點(diǎn)來(lái)預(yù)測(cè)軌跡(圖1)。ALAN的輸出精確的預(yù)測(cè)，由FDE和OffRoadRate值可以證明良好的語(yǔ)義對(duì)齊，并通過(guò)定性可視化進(jìn)行驗(yàn)證。

圖1 交互場(chǎng)景下的軌跡預(yù)測(cè)問(wèn)題，彩色虛線代表了交通參與者可能的車道錨點(diǎn)

具體來(lái)說(shuō)，我們使用一個(gè)單一的表示模型[44]用于多交通參與者輸入，并通過(guò)超列描述子[2]的新穎使用對(duì)交互進(jìn)行編碼，該描述子從多個(gè)尺度的特征中提取信息。此外，我們將預(yù)測(cè)問(wèn)題轉(zhuǎn)換為相對(duì)于輸入通道的法向切向(nt) 坐標(biāo)。考慮到我們使用車道中心線作為錨點(diǎn)，這種轉(zhuǎn)換是至關(guān)重要的。此外，我們通過(guò)輔助的xy預(yù)測(cè)來(lái)規(guī)范錨點(diǎn)輸出，使其不那么容易受到壞錨點(diǎn)的影響，并依賴于車輛動(dòng)力學(xué)。最后，我們通過(guò)一個(gè)基于逆最優(yōu)控制的排序模塊[29]對(duì)我們的預(yù)測(cè)進(jìn)行排序。

總而言之，本文的貢獻(xiàn)如下:

一種新的分而治之的方法可以更好地初始化WTA目標(biāo)函數(shù)，該方法可以捕獲沒(méi)有任何偽模式的數(shù)據(jù)分布。
一個(gè)新的基于錨點(diǎn)的軌跡預(yù)測(cè)框架 (ALAN)，它使用現(xiàn)有的車道中心線作為錨點(diǎn)，以提供具有強(qiáng)語(yǔ)義耦合的環(huán)境感知輸出。
在Nuscenes城市駕駛基準(zhǔn)數(shù)據(jù)集上有較好的表現(xiàn)。

2 相關(guān)工作

多選擇學(xué)習(xí)： 過(guò)去通過(guò)多選擇學(xué)習(xí) (Multi-Choice Learning, MCL) [19,13,30]在不同領(lǐng)域?qū)崿F(xiàn)了多模態(tài)預(yù)測(cè)。一些文獻(xiàn)已經(jīng)展示了MCL在分類[30,39]、分割[30,39]、字幕[30]、姿態(tài)估計(jì)[39]、圖像合成[11]和軌跡建議[45]等方面的應(yīng)用案例。與WTA目標(biāo)函數(shù)相關(guān)的收斂問(wèn)題已在[39,34]中得到證明。在此基礎(chǔ)上，[39]提出了一種寬松的贏家通吃目標(biāo)函數(shù)(RWTA)來(lái)解決收斂問(wèn)題，但該方法本身存在假設(shè)錯(cuò)誤捕獲數(shù)據(jù)分布的問(wèn)題。[34]提出了一種改進(jìn)的贏家通吃(EWTA)損失函數(shù)，相較于[39]這種損失函數(shù)更好地獲取了數(shù)據(jù)分布。盡管有了上述改進(jìn)，但由于訓(xùn)練過(guò)程中存在的偽模式或未經(jīng)訓(xùn)練的假設(shè)，這些方法仍不能準(zhǔn)確捕捉數(shù)據(jù)分布。因此，我們提出了一種分而治之的方法，在訓(xùn)練過(guò)程中，通過(guò)在每個(gè)階段捕獲部分?jǐn)?shù)據(jù)分布的假設(shè)集，以指數(shù)方式增加輸出的有效數(shù)量。

預(yù)測(cè)方法： 大量文獻(xiàn)對(duì)未來(lái)軌跡預(yù)測(cè)進(jìn)行了廣泛的研究，包括經(jīng)典的[47,31,27]和基于深度學(xué)習(xí)的方法[18,1,44]。確定性模型[1,33,41]預(yù)測(cè)場(chǎng)景中每個(gè)交通參與者最可能的軌跡，而忽略了軌跡預(yù)測(cè)問(wèn)題中繼承的不確定性。為了捕捉不確定性并創(chuàng)造不同的軌跡預(yù)測(cè)，提出了隨機(jī)方法，通過(guò)抽樣隨機(jī)變量來(lái)編碼未來(lái)軌跡的可能模式。非參數(shù)深度生成模型，如條件變分自動(dòng)編碼器 (CVAE) [29,3,24,22,44]和生成對(duì)抗網(wǎng)絡(luò)(generative Ad versarial Networks, GANs)[28,18,40]在該領(lǐng)域得到了廣泛的應(yīng)用。然而，由于潛在分布[48]的不平衡，這些方法不能捕獲所有的潛在模式。最近的方法預(yù)測(cè)了同一輸入環(huán)境下的固定的不同軌跡[36,32]。我們的方法使用類似的方法來(lái)預(yù)測(cè)一組M假設(shè)。

表征： 高清地圖柵格化在文獻(xiàn)中被廣泛應(yīng)用于，利用神經(jīng)網(wǎng)絡(luò)對(duì)地圖信息進(jìn)行編碼和處理[3,51,14,6,44]。一些方法[43,35]利用透視圖像的語(yǔ)義和深度信息構(gòu)造頂視圖地圖。有些方法[49,6]使用了柵格化高清地圖和傳感器信息的結(jié)合。最近的一些著作[32,17]通過(guò)將矢量化的地圖數(shù)據(jù)表示為圖數(shù)據(jù)結(jié)構(gòu)來(lái)直接利用地圖信息。我們的工作使用混合地圖輸入，結(jié)合柵格化地圖和矢量化車道數(shù)據(jù)，作為空間網(wǎng)格[44]上每個(gè)交通參與者的輸入。

軌跡預(yù)測(cè)： 傳統(tǒng)上，一些文獻(xiàn)[44,32,17,36]將軌跡預(yù)測(cè)問(wèn)題表述為笛卡爾坐標(biāo)上的回歸問(wèn)題。[43]將其作為空間網(wǎng)格上未來(lái)位置的分類。Chang等人的[9]使用了與我們類似的法向切線坐標(biāo)，但僅限于經(jīng)典的最近鄰和簡(jiǎn)單LSTM[21]方法。與我們的工作相關(guān)，一些方法通過(guò)將輸出空間量化為幾個(gè)預(yù)定義的不同錨點(diǎn)，然后將原始軌跡問(wèn)題重新構(gòu)造為順序錨點(diǎn)分類(選擇)和偏移回歸子問(wèn)題來(lái)解決多模態(tài)問(wèn)題[50,38,8,49]。然而，錨點(diǎn)通常是預(yù)先聚類到一個(gè)固定的集合中，或者是根據(jù)運(yùn)動(dòng)學(xué)[50]實(shí)時(shí)計(jì)算。因此，創(chuàng)建錨點(diǎn)的過(guò)程可能會(huì)增加推理時(shí)間的計(jì)算復(fù)雜度，而且它可能高度依賴于場(chǎng)景，難以泛化。相比之下，我們的方法使用高清地圖中心線信息作為錨點(diǎn)，這對(duì)于不同的場(chǎng)景是一致的，也易于在推理中獲得。

3 分治策略

在本節(jié)中，我們?cè)敿?xì)描述了我們訓(xùn)練多假設(shè)預(yù)測(cè)網(wǎng)絡(luò)的方法，而我們的方法是贏家通吃[30]目標(biāo)函數(shù)的初始化步驟。設(shè)χ表示輸入的向量空間，у表示輸出變量的向量空間。設(shè)D={（xi, yi），…，（xN, yN）}是N個(gè)訓(xùn)練元組的集合，p(x, y) = p(y|x)p(x)是聯(lián)合概率密度。我們的目標(biāo)是學(xué)習(xí)一個(gè)函數(shù)fθ：χ—> уM，它將χ中的每個(gè)輸入映射到一組M假設(shè)的集合。在數(shù)學(xué)上,我們定義：

正如Rupprecht等人在[39]中所示，贏家通吃的目標(biāo)函數(shù)通過(guò)盡可能接近M個(gè)假設(shè)使損失最小化：

其中уj是標(biāo)記空間的Voronoi剖分у=∪j=1Mуj。而目標(biāo)函數(shù)將導(dǎo)致輸出的質(zhì)心Voronoi剖分[15]，其中每個(gè)假設(shè)最小化到由它包圍的Voronoi標(biāo)記空間уj的概率質(zhì)量質(zhì)心。在實(shí)踐中，為了獲得不同的假設(shè)，WTA目標(biāo)函數(shù)可以寫成一種元損失[34, 39, 30, 19]，

其中δ(·)是當(dāng)條件為真時(shí)值為1，否則為0的Kronecker δ函數(shù)。

WTA的初始化困難正如Makansi等人在[34]中提到的，方程3可以類比為EM算法和K-means聚類，它們主要依賴于初始化來(lái)獲得最優(yōu)收斂。如2b所示，這使得訓(xùn)練過(guò)程非常脆弱，因?yàn)橹挥猩贁?shù)幾個(gè)假設(shè)的Voronoi區(qū)域包含了數(shù)據(jù)分布，由于贏家通吃的目標(biāo)函數(shù)，使得大多數(shù)假設(shè)未被訓(xùn)練。Ruppercht等人在[39]提出的通過(guò)給非贏家分配權(quán)重車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖5

來(lái)解決收斂問(wèn)題的備選方案并不奏效，因?yàn)槊總€(gè)地面真值最多只與一個(gè)假設(shè)相關(guān)聯(lián)，使得其他非贏家達(dá)到2c所示的均衡。

Ruppercht等人在[39]中提出的通過(guò)分配策略，對(duì)非贏家的權(quán)重并不起作用，因?yàn)槊總€(gè)基礎(chǔ)真理最多只與一個(gè)假設(shè)相關(guān)聯(lián)，使其他非贏家達(dá)到2c所示的均衡。Makansi 等人在[34]中提出了改進(jìn)贏家通吃(EWTA) 的目標(biāo)函數(shù)，其中他們將前k名視作贏家。k從k=M到k=1不等，導(dǎo)致贏家在訓(xùn)練過(guò)程中獲得全部目標(biāo)。與RWTA和WTA相比，這種方法可以更好地捕捉數(shù)據(jù)分布，但仍然產(chǎn)生了模態(tài)不正確的假設(shè)，如圖2d所示。

圖2 比較不同版本的贏家通吃和封閉的預(yù)測(cè)假設(shè)的Voronoi區(qū)域的玩具示例

玩具數(shù)據(jù)用紅色表示，假設(shè)用白色表示。當(dāng)DAC的Depth=1時(shí)，它包含一個(gè)單一的假設(shè)集，其中有M個(gè)假設(shè)，因此所有的假設(shè)都被抑制以匹配數(shù)據(jù)并達(dá)到平衡。隨著深度的增加，當(dāng)每個(gè)集合被分解成兩半(e —> f —> g —> h) 時(shí)，列表中集合的數(shù)量呈指數(shù)增長(zhǎng)。由于我們對(duì)一個(gè)集合中的所有假設(shè)都使用相同的地面真值，他們達(dá)到相同的平衡位置，形成質(zhì)心Voronoi剖分，使得輸出的數(shù)量等于列表中集合的數(shù)量(e —> 1，f —> 2，g —> 4，h —> 8)。在最后階段(h)，每個(gè)集合包含一個(gè)類似WTA目標(biāo)函數(shù)的假設(shè)。與DAC相比，其他WTA目標(biāo)函數(shù)對(duì)數(shù)據(jù)分布的建模不正確，因?yàn)橐恍￢oronoi區(qū)域沒(méi)有捕獲數(shù)據(jù)的任何部分，導(dǎo)致了偽模式。

DAC用于不同的非偽模式我們提出了一種新的初始化技術(shù)，稱為分治(Divide and Conquer)，它緩解了偽模式的問(wèn)題，讓每個(gè)輸出假設(shè)的Voronoi區(qū)域捕獲數(shù)據(jù)的一部分，如圖2h所示。我們將M個(gè)假設(shè)劃分為k個(gè)集合，用最小輸出更新集合以匹配地面真值。k的值從1開(kāi)始，隨著訓(xùn)練的進(jìn)行，每個(gè)集合被分解成兩部分，k的值呈指數(shù)級(jí)增長(zhǎng)。這創(chuàng)建了一個(gè)二叉樹(shù)，樹(shù)的深度依賴于輸出假設(shè)M的數(shù)量。算法1顯示了所提出的分治的偽代碼。這里深度指的是當(dāng)前訓(xùn)練階段可以達(dá)到的最大深度，列表定義為在訓(xùn)練的任何階段包含假設(shè)集的變量。此外，我們將kth中新形成的集合定義為setk1和setk2。列表中產(chǎn)生最小輸出的集合表示為mSet。最后我們?nèi)Set中所有假設(shè)的平均損失來(lái)得到LDAC。

如圖2e所示，當(dāng)k=1時(shí)，列表中只包含一個(gè)集合，所有的M個(gè)假設(shè)都趨于平衡。隨著列表中集合的數(shù)量從2e增加到2f，假設(shè)根據(jù)Voronoi區(qū)域劃分分布空間，以捕獲數(shù)據(jù)的不同部分。輸出的有效數(shù)量在每個(gè)階段都在增長(zhǎng)，前一階段的kth集合捕獲的數(shù)據(jù)在下一階段被拆分為兩個(gè)新形成的集。最后，當(dāng)我們到達(dá)葉節(jié)點(diǎn)時(shí)，每個(gè)集合包含一個(gè)假設(shè)，導(dǎo)致類似于等式3的贏家通吃的目標(biāo)函數(shù)。

DAC從擬合整個(gè)數(shù)據(jù)的所有假設(shè)開(kāi)始，在每一階段，DAC確保將一些數(shù)據(jù)封裝在Voronoi空間中。在分裂過(guò)程中，假設(shè)對(duì)包含在Voronoi空間中的數(shù)據(jù)進(jìn)行分割，以達(dá)到新的平衡。雖然DAC不能保證相同數(shù)量的假設(shè)，可以捕獲數(shù)據(jù)的不同模式，但它保證了收斂。此外，值得一提的是，DAC沒(méi)有任何顯著的計(jì)算復(fù)雜性，因?yàn)橹簧婕暗絼澐譃榧虾妥钚∮?jì)算。在第5節(jié)中，我們展示了DAC在更好地捕獲多模態(tài)分布方面的優(yōu)勢(shì)，與其他WTA目標(biāo)函數(shù)相比，DAC可以產(chǎn)生不同的假設(shè)集。

4 基于車道錨點(diǎn)的軌跡預(yù)測(cè)

在本節(jié)中，我們將介紹一種稱為ALAN的單一表示模型，它在向前傳遞中為多個(gè)交通參與者生成車道感知軌跡。我們將問(wèn)題表述為跨越時(shí)間的不同假設(shè)的單例回歸。接下來(lái)將詳細(xì)描述我們的方法。

4.1 問(wèn)題陳述

我們的方法采用兩種形式的場(chǎng)景信息輸入：a) 場(chǎng)景的柵格化鳥(niǎo)瞰(BEV)表示，記為尺寸為H × W × 3的I，b) 每個(gè)交通參與者的車道中心線信息作為錨點(diǎn)。我們定義車道錨點(diǎn)L={L1，…，Lp}作為包含p個(gè)點(diǎn)的序列，在BEV參考系中坐標(biāo)為L(zhǎng)p =(x, y)。我們將Xi = {Xi1，…，XiT}表示為包含每個(gè)交通參與點(diǎn)的過(guò)去和未來(lái)觀測(cè)結(jié)果的笛卡爾形式的軌跡坐標(biāo)，其中Xit = (xit，yit)。對(duì)于每個(gè)交通參與者i，我們根據(jù)軌跡信息，如最近距離、偏航對(duì)齊和其他參數(shù)，確定車輛可能采取的一組候選車道。我們將其表示為一組可信的車道中心線A = { L1，…，Lk}，其中k表示車輛可能沿著其行駛的車道中心線的總數(shù)。然后我們?cè)诙S曲線法向—切向坐標(biāo)系(nt)中沿這些中心線定義車輛軌跡Xi。將Ni, k = {Ni, k1，…，Ni, kT}表示為交通參與者i沿車道中心線Lk的nt坐標(biāo)，其中Ni, kt = (ni, kt，li, kt)表示到車道最近點(diǎn)的法向和縱向距離。nt坐標(biāo)的使用對(duì)于捕獲復(fù)雜的道路拓?fù)浜拖嚓P(guān)的動(dòng)態(tài)是至關(guān)重要的，坐標(biāo)用以提供語(yǔ)義一致的預(yù)測(cè)，這已經(jīng)在我們的實(shí)驗(yàn)中得到了研究(第5節(jié))。

然后，我們將軌跡預(yù)測(cè)問(wèn)題定義為對(duì)給定的車道錨點(diǎn)Lk作為網(wǎng)絡(luò)輸入，進(jìn)行ntYi, k = { Ni, ktobs，…，Ni, kT }預(yù)測(cè)的任務(wù)。我們遵循一個(gè)類似于[44]的輸入表示，其中我們?cè)诳臻g網(wǎng)格上的Xi,tobs 位置對(duì)交通參與者的信息進(jìn)行編碼。最后，為了得到BEV參考系中的軌跡，我們將輸出預(yù)測(cè)轉(zhuǎn)換為基于網(wǎng)絡(luò)輸入錨點(diǎn)Li, k的笛卡爾坐標(biāo)。

4.2用于軌跡預(yù)測(cè)的ALAN框架

框架的概述如圖3所示。我們的方法包括五個(gè)主要部分：a) 中心線編碼器b) 過(guò)去的軌跡編碼器c) 多交通參與者卷積交互編碼器d) 超列[2]軌跡解碼器和e) 基于逆最優(yōu)控制(IOC) 的排序模塊[29]。

車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖8

圖3：ALAN方法的概述。該方法以過(guò)去的軌跡、車道錨點(diǎn)和BEV映射作為輸入，一次性對(duì)所有交通參與者進(jìn)行多假設(shè)預(yù)測(cè)

中心線編碼器： 對(duì)每個(gè)交通參與者的輸入車道信息Li, k進(jìn)行編碼，通過(guò)一系列1D卷積，為場(chǎng)景中的每個(gè)交通參與者生成一個(gè)嵌入向量Ci, k = Cenc(Li, k)。

過(guò)去的軌跡編碼器：除了用于車道錨點(diǎn)的nt坐標(biāo)Ni, k外，我們還為過(guò)去軌跡的編碼器提供了額外的Xi輸入。我們首先通過(guò)MLP嵌入時(shí)間輸入，然后通過(guò)LSTM[21]網(wǎng)絡(luò)提供過(guò)去狀態(tài)向量hitobs。在形式上，

多交通參與者卷積編碼器： 我們通過(guò)卷積編碼器模塊[44]，在前向傳播中實(shí)現(xiàn)了多交通參與者的軌跡預(yù)測(cè)。首先，在BEV空間網(wǎng)格中，將交通參與者的特定信息Ci,k，hitobs編碼到它們各自的位置Xitobs。這將生成一個(gè)場(chǎng)景狀態(tài)映射S，大小為H ×W ×128，包含場(chǎng)景中每個(gè)交通參與者的信息。然后，我們將其與柵格化的BEV映射I一起，通過(guò)卷積編碼器產(chǎn)生不同特征尺度上的激活。為了計(jì)算每個(gè)交通參與者的特征向量，我們采用Bansal等人在[2]中的技術(shù)，從它們的位置提取超列描述子Di。超列描述子包含通過(guò)對(duì)不同特征維度的Xitobs進(jìn)行雙線性插值在不同尺度上提取的特征。因此，

其中ck是通過(guò)雙線性插值，從輸入位置到給定維數(shù)在kth層提取的特征。簡(jiǎn)單來(lái)說(shuō)，在不同的尺度上捕獲交互信息，深層的卷積層捕獲全局環(huán)境信息，而低層特征保留交通參與者周邊的交互信息。在第5節(jié)中，我們證明了在軌跡預(yù)測(cè)任務(wù)中使用超列描述子，比僅使用全局環(huán)境向量更有益。

超列軌跡解碼器： 每個(gè)交通參與者的超列描述子Di，通過(guò)包含一系列1x1卷積的解碼器，一次性輸出M個(gè)假設(shè)。在這里，我們研究了兩種不同的ALAN預(yù)測(cè)。ALAN-nt：我們預(yù)測(cè)在車道方向上的 nt 坐標(biāo)系下軌跡車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖11

；ALAN-ntxy：提供一個(gè)輔助預(yù)測(cè)xy方向預(yù)測(cè)的車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖12

。nt中的線性值可以對(duì)應(yīng)基于輸入錨點(diǎn)的高階軌跡。此外，具有相同nt值的兩條軌跡可能具有完全不同的動(dòng)力學(xué)。因此，我們利用輔助預(yù)測(cè)來(lái)正則化基于錨點(diǎn)的輸出，使網(wǎng)絡(luò)意識(shí)到交通參與者的動(dòng)力學(xué)，并減少對(duì)壞錨點(diǎn)的影響。網(wǎng)絡(luò)預(yù)測(cè)的M個(gè)假設(shè)為：

排序模塊： 我們使用Lee等人在[29]中的技術(shù)生成分?jǐn)?shù)sYi={sYi, 1，sYi, 2，…，sYi, M}表示M個(gè)輸出假設(shè)。它通過(guò)最大化目標(biāo)朝向[46]來(lái)衡量預(yù)測(cè)假設(shè)的好壞程度。該模塊使用預(yù)測(cè) 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖14

得到目標(biāo)分布q，其中q = softmax(-d(ntYi, 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖15

))，d為d為地面真值與預(yù)測(cè)輸出之間的L2距離。因此，損失函數(shù)定義為L(zhǎng)score = Cross-Entropy(sYi, q)。

4.3學(xué)習(xí)

我們用它們各自的地面真值標(biāo)簽ntY作為輸入車道錨點(diǎn)的L2距離監(jiān)督網(wǎng)絡(luò)輸出車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖16

。我們使用提出的分治技術(shù)來(lái)訓(xùn)練我們的多假設(shè)預(yù)測(cè)網(wǎng)絡(luò)。因此，主預(yù)測(cè)和輔助預(yù)測(cè)的重構(gòu)損失函數(shù)分別為：

此外，我們通過(guò)將預(yù)測(cè)轉(zhuǎn)換為輸入車道上的nt坐標(biāo) 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖18

來(lái)訓(xùn)練基于錨點(diǎn)的預(yù)測(cè)。我們還添加了正則化的其他方法，通過(guò)將nt坐標(biāo)轉(zhuǎn)化為xy坐標(biāo) 車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖19

，來(lái)抑制基于錨點(diǎn)輸出車道感知多樣化軌跡預(yù)測(cè)的分治策略的圖20

的

預(yù)測(cè)。我們將所有假設(shè)轉(zhuǎn)換后的主要預(yù)測(cè)和輔助預(yù)測(cè)之間的L2距離作為正則化：

使網(wǎng)絡(luò)的總目標(biāo)函數(shù)最小化：

5 實(shí)驗(yàn)

我們首先在合成汽車行人數(shù)據(jù)集[34]上，評(píng)估了我們提出的分治技術(shù)。此外，我們?cè)贜uscenes[5]預(yù)測(cè)數(shù)據(jù)集上，對(duì)DAC和提出的基于錨點(diǎn)的預(yù)測(cè)技術(shù)進(jìn)行了評(píng)估。

5.1汽車行人數(shù)據(jù)集

與現(xiàn)實(shí)世界中只觀察到單一結(jié)果的設(shè)置不同，CPI數(shù)據(jù)集由具有多模態(tài)地面真值的交互交通參與者組成。我們的目的是評(píng)估我們的多假設(shè)預(yù)測(cè)對(duì)測(cè)試集中樣本的真實(shí)分布的捕獲效果。我們使用與[34]中類似的訓(xùn)練策略，即ResNet-18[20]編碼主干，在此基礎(chǔ)上我們訓(xùn)練兩階段混合密度網(wǎng)絡(luò)[4]。第一階段將過(guò)去對(duì)汽車和行人的觀察作為輸入，預(yù)測(cè)?t時(shí)間后包含兩個(gè)參與者的未來(lái)目標(biāo)的k個(gè)輸出假設(shè)。我們使用不同的贏家通吃的損失函數(shù)來(lái)訓(xùn)練第一階段。第二階段通過(guò)預(yù)測(cè)輸出的軟分類來(lái)擬合假設(shè)上的M個(gè)模態(tài)的混合分布。關(guān)于計(jì)算混合分布參數(shù)的更多細(xì)節(jié)，請(qǐng)參考[34]中的公式7、8和9。我們使用[34]中的oracle偏差(FDE)和推土距離 (EMD)等評(píng)估指標(biāo)。

Oracle偏差 (FDE)通過(guò)選擇與地面真值最接近的假設(shè)來(lái)衡量輸出預(yù)測(cè)的多樣性。

推土距離量化為使預(yù)測(cè)分布匹配真實(shí)分布必須移除的概率質(zhì)量的數(shù)量。

從表1可以推斷，我們提出的DAC方法優(yōu)于WTA目標(biāo)函數(shù)的其他變體，這表明DAC比EWTA、RWTA和WTA更好地捕捉數(shù)據(jù)分布。這也可以在圖4中看到，與其他變體相比，DAC目標(biāo)函數(shù)訓(xùn)練的網(wǎng)絡(luò)更好地捕獲了參與者的地面真值分布。DAC的平均EMD明顯優(yōu)于WTA，與EWTA和RWTA目標(biāo)函數(shù)相當(dāng)。與行人目標(biāo)相比，DAC能更好地捕捉到車輛目標(biāo)。此外，如表1所示，DAC方法的平均oracle 偏差(FDE)明顯低于其他變體，這證實(shí)了DAC產(chǎn)生了與WTA不同的假設(shè)。

圖4：圖中展示了CPI測(cè)試集上使用不同WTA目標(biāo)函數(shù)的預(yù)測(cè)假設(shè)和學(xué)習(xí)到的目標(biāo)混合分布。紫色和黑色的方形代表汽車和行人的當(dāng)前位置。預(yù)測(cè)的假設(shè)用它們各自的顏色表示。(e) 類似于地面真實(shí)分布的假設(shè)沿著人行橫道上展開(kāi)，更好地捕獲數(shù)據(jù)分布。

表1：基于FDE和EMD指標(biāo)的CPI數(shù)據(jù)集方法比較，其中p代表行人和c代表車輛

5.2 Nuscenes數(shù)據(jù)集

Nuscenes[5]包含了波士頓和新加坡的大量城市復(fù)雜道路場(chǎng)景，大約包含4萬(wàn)個(gè)實(shí)例，且包括挑戰(zhàn)性的序列，比如u型轉(zhuǎn)彎和復(fù)雜的道路布局。

5.2.1基線

我們將ALAN預(yù)測(cè)結(jié)果與在Nuscenes基準(zhǔn)數(shù)據(jù)集上評(píng)估的幾種基線方法進(jìn)行了比較。MTP[12]使用柵格化圖像作為輸入來(lái)預(yù)測(cè)軌跡。CoverNet[38]使用固定的軌跡集，將軌跡預(yù)測(cè)問(wèn)題轉(zhuǎn)為對(duì)軌跡集的分類。Multipath[8]是最接近的基線，它使用從訓(xùn)練集獲得的時(shí)間參數(shù)化錨點(diǎn)軌跡，并將問(wèn)題表述為相對(duì)于錨點(diǎn)的偏移值的回歸。MHA JAM[36]是一種使用聯(lián)合交通參與者-映射的表示，它輸出具有多頭注意力。Trajectron++[42]是結(jié)合交通參與者動(dòng)力學(xué)和語(yǔ)義的預(yù)測(cè)軌跡的圖循環(huán)模型。我們利用[36]中的[12]和[8]的數(shù)據(jù)。

5.2.2指標(biāo)

我們使用標(biāo)準(zhǔn)的評(píng)估指標(biāo)，如平均位移誤差(mADEM)和最終位移誤差(mFDEM)。此外,我們計(jì)算前M個(gè)軌跡相較于地面真值的遺漏率(Missd, M)。如果在所有預(yù)測(cè)中不存在最大位移點(diǎn)小于閾值d的假設(shè)，則認(rèn)為一組預(yù)測(cè)都是錯(cuò)誤的。OffRoadRate計(jì)算可行駛區(qū)域以外的輸出軌跡百分比。我們使用由Nuscenes提供的示例API來(lái)計(jì)算這些指標(biāo)。

5.2.3量化結(jié)果

首先，與基線方法相比，ALAN可以達(dá)到同等或更好的性能。在這里，我們用不同的錨點(diǎn)抽樣策略 (top-M、oracle和best-of-all (BofA)) 來(lái)評(píng)估ALAN。在ALAN (top-M)中，我們根據(jù)預(yù)測(cè)的每個(gè)軌跡的IOC分?jǐn)?shù)，從不同的錨點(diǎn)上選取前M個(gè)軌跡輸出。ALAN (oracle)使用車道中心線得分最高的oracle錨點(diǎn)，同時(shí)ALAN (BofA)從前k個(gè)假設(shè)的車道錨點(diǎn)中選擇最佳。表2的結(jié)果表明，ALAN評(píng)估要么表現(xiàn)出與其他基準(zhǔn)相當(dāng)?shù)男阅埽丛趲讉€(gè)指標(biāo)上顯著優(yōu)于其他基準(zhǔn)，如mADE10方面至少有11%的改進(jìn)，mFDE10方面相較于BofA提高了25%。此外，所有的ALAN預(yù)測(cè)的OffRoadRate為0.01，即只有1%的預(yù)測(cè)軌跡落在道路之外。這明顯低于其他有7%或更高的OffRoadRate的基線表現(xiàn)。輸出預(yù)測(cè)與語(yǔ)義的強(qiáng)耦合可以歸因于車道錨點(diǎn)，它有助于在車道方向上提供輸出預(yù)測(cè)。其他方法，如[8,38]，使用從訓(xùn)練集提取的軌跡作為錨點(diǎn)或進(jìn)行分類，這可能導(dǎo)致輸出對(duì)未出現(xiàn)場(chǎng)景和具有復(fù)雜車道結(jié)構(gòu)的軌跡的泛化能力較差。此外，值得注意的是，ALAN性能被低估了，因?yàn)閿?shù)據(jù)中沒(méi)有連接的車道和沒(méi)有車道中心線的地方會(huì)導(dǎo)致壞錨點(diǎn)。但為了便于與基線比較，在此沒(méi)有刪除這些情況。

表2：軌跡預(yù)測(cè)基準(zhǔn)

消融研究： 此外，我們還對(duì)ALAN以及DAC和其他變體進(jìn)行了消融研究，如表3所示。我們首先引入超列描述子[2]來(lái)提取多尺度特征，并將其與作為輸入進(jìn)入解碼器的全局環(huán)境向量進(jìn)行比較。然后我們研究了ALAN預(yù)測(cè)的幾個(gè)變體。首先，我們添加了參考中心線作為輸入，并預(yù)測(cè)xy坐標(biāo)空間(MCL + Poly)的軌跡。這大大提高了性能。使用車道中心線作為錨點(diǎn)并預(yù)測(cè)nt空間的軌跡(MCL+LA-nt)表現(xiàn)稍差，但我們認(rèn)為這是由于網(wǎng)絡(luò)難以從基于錨點(diǎn)的輸入計(jì)算交通參與者的動(dòng)力學(xué)特征。例如，具有相同nt坐標(biāo)的兩個(gè)軌跡可以根據(jù)它們所行駛的車道具有不同的動(dòng)力學(xué)。因此，我們進(jìn)一步增加xy坐標(biāo)作為輸入，并在笛卡爾空間(MCL+LA-ntxy) 預(yù)測(cè)輔助軌跡。如表3所示，這樣的輔助預(yù)測(cè)改進(jìn)了基于主要錨點(diǎn)的輸出。

此外，我們使用輔助預(yù)測(cè)正則化錨點(diǎn)輸出，反之亦然。通常意義上，錨點(diǎn)輸出可以從輔助預(yù)測(cè)中受益，因?yàn)檩o助預(yù)測(cè)并不局限于只提供沿車道方向的軌跡。添加一個(gè)正則化步驟來(lái)匹配主軌跡和輔助軌跡，顯著提高了錨定輸出性能，如表3中MCL+LA-ntxy+Reg值所示。

表3：Nuscenes數(shù)據(jù)集上的消融研究

5.2.4量化結(jié)果

圖5顯示了來(lái)自ALAN的定性結(jié)果。一般來(lái)說(shuō)，使用車道作為錨點(diǎn)，將預(yù)測(cè)問(wèn)題轉(zhuǎn)化到nt空間有助于指導(dǎo)預(yù)測(cè)和跟蹤語(yǔ)義。當(dāng)我們預(yù)測(cè)較長(zhǎng)時(shí)間的軌跡時(shí)，所執(zhí)行的軌跡會(huì)變得復(fù)雜，而不僅僅是一個(gè)直行或轉(zhuǎn)彎動(dòng)作，而使用車道作為錨點(diǎn)可以簡(jiǎn)化問(wèn)題。

圖5：來(lái)自ALAN的預(yù)測(cè)示例。過(guò)去的軌跡用棕色表示，地面真值（GT）用黑色表示。GT的端點(diǎn)用綠點(diǎn)表示。輸入車道錨點(diǎn)用青色表示，預(yù)測(cè)軌跡用綠色表示，終點(diǎn)用三角形表示。(a)和(b)顯示了一個(gè)復(fù)雜的車道結(jié)構(gòu)的預(yù)測(cè)。基于錨點(diǎn)的預(yù)測(cè)效果更好，特別是預(yù)測(cè)較長(zhǎng)時(shí)間軌跡。由于軌跡的復(fù)雜性，錨點(diǎn)的存在有助于遵循語(yǔ)義信息。(c) 當(dāng)目標(biāo)車道在相反方向時(shí)，適當(dāng)結(jié)合動(dòng)力學(xué)信息預(yù)測(cè)u型轉(zhuǎn)彎；(d) 多交通參與者的預(yù)測(cè)場(chǎng)景。

6 結(jié)論

在本文中，我們討論了使用WTA目標(biāo)函數(shù)學(xué)習(xí)多模態(tài)輸出和使用駕駛知識(shí)對(duì)輸出預(yù)測(cè)施加約束的相關(guān)問(wèn)題。首先，我們引入了一種新的DAC方法，該方法可以學(xué)習(xí)不同的假設(shè)，從而在不存在任何偽模式的情況下捕獲數(shù)據(jù)分布。此外，我們還介紹了ALAN，它使用車道作為錨點(diǎn)提供了不同的環(huán)境感知軌跡。我們?cè)诤铣蓴?shù)據(jù)和真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)都證明了，本文的DAC方法在學(xué)習(xí)多模態(tài)輸出方面的優(yōu)越性。此外，我們還證明了使用車道錨點(diǎn)有助于提供具有強(qiáng)語(yǔ)義耦合的準(zhǔn)確預(yù)測(cè)。

本文譯自：《Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction》

文章來(lái)源：CVPR 21 (Oral)

作者：Sriram Narayanan, Ramin Moslemi, Francesco Pittaluga, Buyu Liu, Manmohan Chandraker

原文鏈接：https://arxiv.org/abs/2104.08277