基于學習的自動駕駛汽車路徑跟蹤模型預測控制
2021年7月5日 10:37 瀏覽:2317
知圈
|
進“電子電氣群”請加微13636581676,備注架構
編者按:近年來,基于車輛運動學與動力學模型的模型預測控制(MPC)理論在自動駕駛車輛控制方面得到了廣泛的應用,MPC基于預先設定的系統模型,通過滾動優化,解決設定的優化問題并求解出控制輸入。MPC的主要優點在于能夠系統地處理多個優化目標,并且可以處理輸入和輸出的約束。本文中提出了一種逆最優控制(IOC)算法用于從人類演示數據中學習成本函數,將學習得到的成本函數應用于路徑跟蹤MPC中。結果顯示,該控制器不僅可以遵循參考軌跡,還可以使側向速度、側向加速度等特征更接近人類駕駛。
摘要:
自動駕駛汽車的路徑跟蹤控制器在改善車輛的動態行為方面起著重要作用。模型預測控制 (MPC) 是最強大的控制器之一,可以處理多個優化目標,并適應執行器和車輛狀態的物理限制,以確保安全和其他所需行為。作為一種高潛力的解決方案,可以將人工演示的學習成本函數集成到 MPC 中。通過從人工演示中學習成本函數,可以避免大量參數調整,更重要的是,可以調整控制器以提供對人類更自然的所需控制動作。在本研究中,提出了一種創新的逆最優控制 (IOC) 算法,以使用從人工演示中收集的數據為控制任務學習合適的成本函數。目標是設計一種控制器,該控制器生成的運動與人類產生的運動的特定特征相匹配。這些特征包括側向加速度、側向速度和偏離車道中心。從結果中可以看出,設計的控制器能夠學習人類駕駛的所需特征并在生成適當的控制動作的同時實現它們。
關鍵詞:
自動駕駛汽車,路徑跟蹤控制器,模型預測控制,逆最優控制
模型預測控制(MPC)被認為是設計自動駕駛汽車路徑跟蹤控制器的合適框架。該技術在每個時間步解決一個優化問題,并且可以同時處理多個目標。此外,它可以適應執行器和車輛狀態的物理限制,以確保安全和其他所需的行為。為了為自動駕駛汽車制定有效的模型預測控制,應該定義適當的成本函數。成本函數的設計往往取決于設計者的經驗和精通程度。當乘客的感覺被考慮到車輛性能中時,設計成本函數會更加復雜。
從客觀的角度來看,可以通過改善自動駕駛汽車的操控行為來提高人類的舒適度和安全性[1]、[2]。這種考慮是對傳統車輛乘坐舒適性的補充,其主要取決于車輛的振動特性[3]-[5]。從主觀角度看,舒適度取決于人的感覺,難以表述為一組成本函數。作為一種高潛力的解決方案,從人工演示中學習成本函數一直是研究人員的一個有吸引力的選擇。
為了學習成本函數或成本函數的一些參數,許多研究人員提出了逆最優控制(IOC)。在這種方法中,對于未知的成本函數,專家演示通常用作最優控制問題的解決方案[6]。考慮 IOC 環境下的 MPC 問題,對于成本函數的未知參數,可以將演示輸入視為最優輸入序列。給定演示數據和參數成本函數,初步概述了參數控制的最優條件。此外,IOC 問題可以定義為一種搜索算法,用于尋找滿足最佳條件的合適參數值[7]。
從演示中估計成本函數的另一種方法是使用逆強化學習 (IRL)。在某些情況下,IOC 和 IRL 被互相定義為相同的方法。在 IRL 的背景下,使用諸如馬爾可夫決策過程 (MDP) 之類的概率方法從已證明的最佳行為中提取獎勵函數[8]、[9]。在 MDP 方法中,特別是對于強化學習 (RL) 的情況,假設成本函數是已知的。然而,如前所述,為 RL 設計合適的成本函數同樣困難。IRL 已被用于模仿學習(有時稱為學徒學習),其目標是找到一種控制策略,該策略在未知獎勵函數的情況下能表現得和演示者一樣好[9]。
許多不同類型的系統提出了IRL和IOC,例如類人機器人[10]、直升機控制[11]和特定駕駛風格的復制[12]。在[10]中,IRL被提出來尋找獎勵函數,以使用來自人工演示的數據來設計仿人機器人更自然和動態的運行行為。從模擬結果來看,學習到的獎勵函數顯示出可用于不同環境的良好泛化特性。即使優化問題是離線解決的,學習到的獎勵函數也可以很容易地集成到在線 MPC 算法中。類似地,在[13]中,IOC 被實現為類人運動控制。但是,在這種情況下,沒有考慮每個關節的運動;相反,類人機器人的位置和方向用于使用雙層優化問題來描述運動。高層控制迭代代價函數的權重,并試圖最小化測量數據與從低層控制收集的最優控制的解之間的距離。
在自動駕駛的背景下,IRL 已被提出用于預測人類意圖。例如,它用于對人類行為進行建模,推斷人類駕駛員的路線偏好[14]。類似地,在[15]中,IRL用于預測駕駛員在道路上的意圖。人類駕駛員的運動被表述為一個優化問題,并使用IRL找到獎勵函數。在[12]中,IRL也被用于在生成自動駕駛汽車跟隨的軌跡時復制個人駕駛風格。在這項工作中,最大熵IRL[14]用于解決自動駕駛的路徑規劃問題。此外,成本函數以類似于[9]的方式近似為特征的線性組合。IRL的最終目標是為成本函數的每個特征找到合適的權重,最終用于為車輛生成優化軌跡。
盡管 IOC 和 IRL 已針對上述不同應用實現,但據我們所知,這些技術尚未用于自動駕駛汽車的路徑跟蹤控制器。考慮到可以通過提高車輛的操縱性能來提高乘客的舒適度,基于人工演示數據的基于學習的 MPC 有可能適應這種措施,從而提高乘客的舒適度。在本文中,我們建議將 IOC 用于基于學習的 MPC,用于自動駕駛汽車的路徑跟蹤任務。為了實現此功能,設計了一種新穎的基于特征的 MPC 參數成本函數。此外,提出了一種創新的 IOC 算法,以使用從人工演示中收集的數據來學習 MPC 的合適成本函數參數。數據是使用集成的3D模擬環境“虛幻引擎”和 Matlab-Simulink 平臺收集的。目標是設計一個控制器,產生與人類產生的運動的特定特征相匹配的運動。這些特征包括橫向加速度、橫向速度、與車道中心的距離和偏航率。成本函數的參數是從人工演示數據中學習的。然后使用這些參數來實現自動駕駛汽車的 MPC 控制器。
本文的其余部分組織如下。在第Ⅱ節中,介紹了人工演示學習成本函數背后的理論框架。詳細解釋了MPC的制定、成本函數的定義和IOC的方法論。第Ⅲ節概述了從人工演示中收集數據的實驗,以及從收集的數據中學習成本函數所采取的步驟,以及在路徑跟蹤控制器中應用學習到的參數。在第Ⅳ節和第Ⅴ節中,展示并進一步討論了結果,并給出了研究的結論。
本工作的主要目標是使用從人工演示中收集的數據為路徑跟蹤任務找到合適的成本函數。道路路徑剖面對自動駕駛汽車的操控行為有顯著影響[16];在本工作中,對于給定的參考路徑,人工演示的軌跡被認為是最佳解決方案。此外,假設存在與人類駕駛員生成的軌跡相關聯的成本函數。目標是找到成本函數的適當參數,該參數捕獲個人人類駕駛任務的選定特征。在本節中,首先討論 MPC 控制器的公式。然后,建立了基于特征的 MPC 成本函數的設計。最后,詳細闡述了 IOC 的設計。
A. 模型預測控制
在 MPC 中,基于車輛的過渡模型計算車輛在特定范圍內的未來狀態。在每個時間步,求解非線性優化問題以生成最小化成本函數的控制動作。在優化后的控制序列中,只有第一個控制動作被發送到車輛,接下來的時間間隔內重復整個過程。MPC控制器的主要優點之一是可以處理多個目標。此外,由于它解決了約束優化問題,因此可以約束車輛的狀態(例如轉向角)以匹配物理限制。對于本工作,考慮車輛狀態六χ=[X,Y,ψ,vy, r, ay]被考慮,其中X和Y是車輛在全局坐標系中的位置,ψ是偏航角,r是偏航率,vy是縱向速度,ay是縱向加速度。對于這些車輛狀態和轉向角輸入u=δ ,車輛過渡模型可以表示為
基于學習的控制器的成本函數可以用參數形式表示并更新以提高控制器的性能,即復制人工演示。帶有參數成本函數的MPC問題可以表示為
其中,g(χk,uk)表示狀態和輸入約束,θ表示成本函數的參數向量。解決這個優化問題,找到一個優化的控制序列 U* = [uk*....uk+N*] 并且在每個時間步只將序列的第一個控制動作發送到車輛。在接下來的時間間隔內重復此過程。
B. 成本函數
改進的自動駕駛汽車路徑跟蹤控制器應適應準確和安全的路徑跟蹤,同時生成控制動作,提供對人更自然的運動。此處考慮了參數成本函數,并使用基于特征的學習技術來找到產生與人類駕駛員相似特征的參數的最佳值。對于人工演示或控制器生成的每個軌跡,以下特征用于設計參數成本函數。
a)車道中心距離:該特征表示車輛與車道中心的偏差,可以表示為
其中t為時間,χc(t)=[X, Y]是t時刻車輛在道路上的位置,p(t)=[Xref, Yref]是車道中心距離車輛位置最近的道路點,N是軌跡中的樣本數。
b)與路徑的偏離角:車輛橫擺角與路徑角的偏離由該特征表示。
c)橫向速度:另一個需要與人工演示進行比較的特征是車輛的橫向速度,它表示為
d)偏航率:對于路徑跟蹤任務,偏航率是影響乘客舒適度的重要特征。此特征可以由下式計算得到
e)橫向加速度:對乘客舒適度有顯著影響的最重要特征之一是車輛的橫向加速度。該特征計算為
其中,θ為是需要從人工演示中學習的參數或權重向量,以便使用 MPC 生成的運動與人工演示中的特征相匹配。
C. 逆最優控制
在一般最優控制問題中,目標是找到基于某些特定準則的控制動作或策略。這些準則通常使用提供選擇動作的成本的成本函數來表達。然而,設計一個合適的成本函數很困難,而且通常需要大量的時間進行調整。在 IOC 方法中,目標是基于用戶演示找到合適的成本函數,而不是找到最優策略。然后可以使用該成本函數來生成最優策略。圖1顯示了 IOC 過程的一般示意圖。IOC 和 IRL 技術可以互換使用,因為它們描述了類似的方法。
在此過程中,重要的是設計適當的成本函數,明確解決設計偏好和目標。例如,對于自動駕駛的復雜任務,調整成本函數的不同參數以獲得優選性能并不簡單。在這方面,IOC提供了一個合適的選項,可以根據從人工演示收集的數據來調整成本函數。
人工演示數據集D=
用于考慮各種駕駛場景的P條軌跡。對于人工演示,我們假設存在與人類駕駛任務相關的成本函數,因此通過為 MPC 控制器找到合適的權重,可以復制人類駕駛運動的某些特征。為了實現這一點,人類的駕駛任務使用 II-B 中討論的特征來表達。對于一組未知的成本參數,人工演示的預期特征可以表示為
其中,
是所有演示的特征向量,fd是演示軌跡的特征向量,ζk是數據集D中第k個軌跡。這里的目標是找到一組成本參數,使得學習到的控制器的預期特征與人工演示的特征相匹配。演示特征和控制器特征之間的差異可以表示為以下梯度
其中,fl是由控制器為一組固定參數值θ生成的軌跡的特征向量。使用
可以通過求解基于梯度的優化方法找到優化值θ*。然而,計算學習系統的預期特征并不簡單,尤其是對于像自動駕駛汽車這樣的高維復雜系統。當我們為自動駕駛汽車設計路徑跟蹤控制器時,我們將最可能的軌跡近似為給定參數集的非線性MPC問題的解決方案,然后使用MPC生成的軌跡計算學習控制器的預期特征。然后,基于梯度
,改變權重值并重復相同的過程直到收斂。
在本節中,解釋了從人工演示中收集的數據。此外,還討論了提出的IOC方法的實施。
A. 人工演示數據
為了實施基于學習的控制方法,使用模擬器收集人體演示數據。對于車輛,非線性動力學模型可用于有效模擬其運動[17],[18]。14自由度車輛動力學模型用于捕捉車輛的動態行為。此外,使用 3D 模擬環境“Unreal Engine”來渲染環境。車輛模型實現和環境仿真均在MATLAB-Simulink中進行。羅技G290轉向踏板系統用于在模擬環境中驅動車輛,同時通過虛幻引擎和車輛動力學模型之間的通信收集所需的數據。圖2顯示了數據收集流的軟件架構。
收集了10位人類駕駛員的數據,用于評估所提出方法的有效性。圖3顯示了硬件設置和虛幻引擎中環境渲染的快照。最初要求所有駕駛員熟悉駕駛控制器和環境,以了解他們對模擬環境的反應。行駛10分鐘后,要求駕駛員在三種特定路況下行駛,同時保持車速在30~35km/h之間。有不同類型曲線組成的選定路徑輪廓,對于每條道路,記錄了每個駕駛員的5次試驗。在三個駕駛場景中,兩個場景用于學習成本函數參數,一個場景用于測試控制器的性能。
圖3 用于人工演示的虛幻引擎中的駕駛控制器和環境渲染
B.從人工演示中學習成本函數
對于收集到的屬于駕駛員的數據集,使用以下公式計算特征值
其中,m 是每個駕駛場景的試驗次數,P 是駕駛場景的總數。對于所有駕駛場景,參考位置為車道的中心。
為了學習權重參數θ,車輛被設置為每個駕駛場景的起點。隨機選擇一組初始的權重參數(θ)數值,然后使用 MPC 控制器在所有道路上駕駛車輛。駕駛場景完成后,控制器生成的軌跡的預期特征由下式計算
基于此控制器的預期特征和人工演示,優化的梯度可以計算為
C. 軌跡跟蹤控制器
從IOC算法中找到的學習權重用于MPC的成本函數,以執行自動駕駛汽車的路徑跟蹤任務。II-A中描述的MPC公式用于模擬控制器的性能。我們之前的工作中可以找更多MPC實現的細節[19]。對于MPC控制器,使用預測范圍 Np = 5 和控制范圍 Np = 5。非線性優化問題使用“Ipopt”包和開源優化工具“CasAdi”[20]來解決。
權重參數利用兩種駕駛場景學習得到。第三個是測試駕駛場景,用于評估控制器的性能。圖4顯示了控制器和人工駕駛在訓練駕駛場景中計算特征的性能比較。圖5顯示了測試駕駛場景的相同比較??梢匀缙谟^察到,圖4中特征值更接近相應的人類演示。從圖5的結果來看,學習到的控制器顯示出適當的泛化能力,因此它可以用于其他環境。圖6描繪了人類駕駛軌跡和由學習控制器生成的用于測試駕駛場景的軌跡。從該圖中可以看出,學習到的控制器不僅能夠遵循參考軌跡,還能夠學習人類駕駛的所需特征并在生成適當的控制動作的同時實施它們。
我們在基于學習的 MPC 的初步實現的研究中做了幾個假設。首先,前向速度保持在人類演示的小范圍內(30-35km/h)。對于訓練,收集的數據未考慮速度小于30km/h的情景。類似地,為了進行權重的學習,模擬的車輛速度保持恒定在每個特定駕駛場景的人工演示的平均速度上。此外,訓練和測試場景僅包含不同曲率的路徑。我們未來的計劃是進行更嚴格的訓練,以使用這種方法評估學習控制器的泛化特性。
模型預測控制 (MPC) 是一種用于設計自動駕駛汽車路徑跟蹤控制器的有效控制技術。該技術實施了一個優化步驟,可以處理多個目標并適應執行器和車輛狀態的物理限制,以確保安全和其他所需的行為。從人工演示中學習成本函數被認為是避免對 MPC 進行大量參數調整的有吸引力的選擇。最重要的是,它使控制器能夠進行調整,以提供對人類更自然的控制動作。為了學習成本函數或成本函數的一些參數,已經提出了逆最優控制(IOC)和逆強化學習(IRL)方案。
在本文中,我們提出了一種創新的 IOC 算法,以使用從人類演示中收集的數據為控制任務學習合適的成本函數。目標是設計一個控制器,該控制器生成的運動與人類產生的運動的特定特征相匹配。這些特征包括橫向加速度、橫向速度、與車道中心的距離和偏航率。為了實現此功能,成本函數的參數是從人工演示數據中學習的。然后使用這些參數來實現用于自動駕駛車輛路徑跟蹤的 MPC 控制器。針對訓練和測試駕駛場景,展示了控制器和人類駕駛對計算特征的性能比較。正如預期的那樣,觀察到訓練場景中的特征值更接近相應的人工演示。學習到的控制器表現出適當的泛化能力,因此可以在不同的環境中使用。還觀察到,學習到的控制器不僅能夠學習人類駕駛的期望特征,而且能夠遵循參考軌跡。未來的計劃是使用實際駕駛場景進行更嚴格的訓練,并使用這種方法增強學習控制器的泛化特性。
《Learning-based Model Predictive Control for Path Tracking Control of Autonomous Vehicle》
文章來源:2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC)
作者:Mohammad Rokonuzzaman, Navid Mohajer, Saeid Nahavandi, Shady Mohamed
原文鏈接:https://ieeexplore.ieee.org/document/9283293
參考文獻
技術鄰APP
工程師必備