GRI:通用強化模仿學習,用于視覺自動駕駛


來源 |  黃浴@知乎

arXiv在2021年11月16日上傳論文“GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving“,作者來自法國Valeo公司和MINES ParisTech大學。


GRI:通用強化模仿學習,用于視覺自動駕駛的圖1

深度強化學習 (DRL)  已被證明對一些復雜的決策應用(如自動駕駛和機器人)問題有效。然而,DRL 面臨高樣本復雜性和缺乏穩定性等問題。先前的知識,如專家演示,往往可用,但利用其來減輕這些問題仍然是挑戰。該文提出了通用強化模仿(GRI),一種結合了探索和專家數據的方法,直接在任何不帶策略(off-policy)的強化學習(RL)算法實施。一個簡化的假設:專家的演示可以被看作是完美的數據,其基本策略得到不斷的高獎勵。基于此假設,GRI 引入了離線演示智體的概念。此智體發送專家數據,與在線 RL 探索智體的經驗,一起同時處理且無區分。

模仿學習(IL) ,特別是行為克 隆,旨在為給定的任務模仿專家的行為。它需要大量的標注數據,一般由人類駕駛員記錄。盡管此類數據很容易地大規模得到,但真實交通的實際安全問題,導致安全駕駛示例的嚴重偏差觀測數據,且不足以代表那些罕見的危險情況。因此,IL 代理存在分布不匹配問題,而且難以從自身錯誤中恢復。

深度強化學習 (DRL)  提供了一種替代方法,通過試錯讓智體從自身錯誤中吸取教訓,比 IL 更有力解決分布不匹配問題。在 強化學習(RL)框架中,智體自行探索其環境并收集獎勵,這是一個評估給定狀態下給定動作的優異值。智體的目標是最大化其累積獎勵。為此,需要優化動作序列,而不是作為瞬時動作序列。盡管如此,DRL 需要比 IL 多一個數量級的訓練數據才能收斂,因為在訓練期間對環境進行了廣泛且耗時的探索。

如圖即作者提出的GRI(General Reinforced Imitation):采用端到端流水線,感知模塊對駕駛智體的三臺攝像機 RGB 圖像進行編碼,決策模塊從編碼函數中推斷出動作。

GRI:通用強化模仿學習,用于視覺自動駕駛的圖2

此流水線分兩個階段進行訓練:(1) 視覺編碼器在幾個輔助任務的感知數據集上進行預訓練,包括語義分割、道路類型分類和相關紅綠燈的存在,即判斷是否有這樣的交通燈及其狀態和距離。(2) 可視編碼器固定,基于GRI的 DRL 網絡,通過離線演示智體預生成的專家數據和在線探索智體從模擬器收集的數據,來進行訓練。在任何一個給定的訓練步驟,其下一個添加到重放緩存(replay buffer)的epoch,一定概率來自演示智體,其他則來自探索代理。動作對應于作用到車輛的一對數據(轉向、油門)。

這個算法,即GRI for Autonomous Driving (GRIAD) ,是GRI方法的調整版,在模擬器CARLA運行的視覺自動駕駛(AD)。GRI 是一種方法,用重放緩存(如 SAC、DDPG、DQN 及其改進版)在任何不帶策略(off-policy) RL 算法上直接實現。GRI建立在于這樣一個假設,即專家演示可以被視為完美的數據,其基本策略將獲得持續的高獎勵,表示為演示獎勵 。實驗中,選擇其作為獎勵的最大值。

GRI的想法是在訓練階段將演示中的專業知識蒸餾送給RL智體。為此,定義兩種類型的智體:(i)在線探索智體,它是常規的RL智體,用于探索環境將經驗收集到內存緩存,以及(ii)離線演示智體,與持續演示獎勵相關的專家數據發送到內存緩存。如下是GRI的偽代碼算法:

GRI:通用強化模仿學習,用于視覺自動駕駛的圖3

基于Implicit Affordances方法(“End-to-end model-free reinforcement learning for urban driving using implicit affordances“. CVPR 2020),GRI用于視覺自動駕駛。由于這種方法分兩個階段進行訓練,因此是模塊化的架構,可獨立地優化視覺和決策子系統。

如圖是視覺子系統:

GRI:通用強化模仿學習,用于視覺自動駕駛的圖4

首先,從視覺子系統的 RGB 相機圖像中提取特征;兩個編碼器-解碼器網絡接受分割、分類和回歸任務的預訓練。分類和回歸僅在中心攝像頭圖像上執行,而所有三個圖像均被分割。訓練后,可視編碼器用作固定權重的特征提取器。對于 DRL 主干訓練,兩個編碼器輸出連接起來作為 DRL 的輸入發送到內存緩存。兩個編碼器都是采用Efficientnet-b1。分割解碼器是全卷積,分類解碼器是多個輸出的MLP。

CARLA排行榜的視覺部分已經在40萬個樣本的數據集上進行了訓練,相當于44小時的駕駛時間。該數據集使用CARLA autopilot在每個城鎮的隨機軌跡上生成。數據集的每個樣本由來自三個攝像頭的圖像和相應的GT信息組成,這些信息包括來自CARLA的分割圖,以及指示十字路口存在和汽車前方存在紅綠燈的邏輯數值。如果有紅綠燈,一個類對應于顏色和距離。軌跡已經通過隨機相機平移和旋轉進行增強。

如圖是決策子系統:

GRI:通用強化模仿學習,用于視覺自動駕駛的圖5

決策子系統將三個相機圖像的四幀連續編碼作為輸入,輸出一個動作。動作由所需的車轉向以及要油門或制動的組合來定義。在 CARLA 模擬器上生成數據的計算成本非常高。這里使用Rainbow-IQN Ape-X(“Is Deep Reinforcement Learning Really Superhuman on Atari?“,Neurips’2019 Deep Reinforcement Learning Workshop),一個分布式 DRL 主干網,來緩解這個問題。Rainbow-IQN Ape-X 基于 DQN,動作狀態必須是離散的。實驗中,在 27 個轉向和 4 個油門或制動的數值中離散化動作狀態。可分辨的動作空間包含 27 × 4 = 108 個動作。

演示數據集包含 20萬個樣本,相當于 22 小時的駕駛時間,這些樣本使用 CARLA 團隊預定義軌道上的autopilot生成( github.com/carla-simula )。來自演示數據集的每個樣本都由來自三個相機的三個圖像組成,以及專家連續動作映射到離散RL動作集的離散動作。沒有使用任何數據增強。注意的是,CARLA autopilot 會產生駕駛錯誤,例如碰撞、紅燈違規或車被卡的數百幀數據。因此,演示的10%也對應于糟糕的行動選擇。

在CARLA的實驗中,GRIAD共有12個智體,包括3個演示智體在分布式設置中運行,并將數據發送到內存緩存。由于演示智體被限制與探索智體以相同頻率發送數據,這相當于概率25%。用于探索智體的獎勵函數和Implicit Affordances方法的一樣。由于此獎勵函數已規范化為 0-1 之間范圍,因此演示獎勵數值設置為 1。

比較的方法有:

  • LBC(“Learning by cheating“. CoRL, 2019)
  • IAs(即 前面提到的implicit affordances方法)
  • Transfuser+(“Multimodal fusion transformer for end-to-end autonomous driving“. CVPR 2021)
  • World on Rails(“Learning to drive from a world on rails“. ICCV 2021)

如表是結果比較:

GRI:通用強化模仿學習,用于視覺自動駕駛的圖6

另外,為進一步驗證GRI方法,在選定的Mujoco(“Mujoco: A physics engine for model-based control“)環境中進行實驗,如圖所示:包括HalfCheetah-v2, Humanoid-v2, Ant-v2, and Walker2d-v2四個。

GRI:通用強化模仿學習,用于視覺自動駕駛的圖7

使用Chainerrl庫(“Chainerrl: A deep reinforcement learning library”)預訓練的RL智體權重生成專家數據。對每個環境,演示獎勵值選在數據集生成期間Chainerrl專家智體達到的最高值。

由于沒有在Mujoco環境中找到真正的專家數據,因此專家數據并不總是比訓練的vanilla RL網絡好多少。因此,即使有次優的專家數據,本研究也能夠評估GRI的有效性。

實驗使用GRI-SAC,即SAC(Soft actor-critic)作為DRL主干的GRI算法,并且在0%和40%之間改變演示智體的比例。結果如下圖所示:

GRI:通用強化模仿學習,用于視覺自動駕駛的圖8

這些實驗表明,至少在評估的Mujoco環境中,20%的演示智體似乎是GRI-SAC達到專家水平的最佳選擇。

最后,還研究了 DRL 主干網對評估 GRI 方法泛化的貢獻。為此,用DDPG(Deep Deterministic Policy Gradient)算法而不是SAC評估了相同任務。對于這些實驗,將演示智體的比例固定為20%。比較結果如圖所示:

GRI:通用強化模仿學習,用于視覺自動駕駛的圖9

首先觀察到,與具有20%演示智體比例的GRI-SAC類似,GRI-DDPG在所有測試環境中系統地比DDPG達到更好的結果。然而,GRI-DDPG并沒有系統地達到專家水平。雖然SAC和GRI-SAC的最終獎勵更好,但兩個主干的獎勵演變動態大致相同。結論是,GRI很容易適應,并推廣到 locomotion 任務,穩健地優于這里兩種替代方法。

這種方法的主要局限性是最初假設的結果,即演示數據總是可以與恒定的最大獎勵數值相關聯。


  • 如果演示數據不是持續最優的,例如,由于給定任務某些方面的專家性能較低,則會出現方法的第一個限制,在獎勵函數中引入噪聲。

  • 方法的第二個限制是在一些困難的環境中出現預熱階段。這種預熱階段可以看作是分布轉移的結果。

  • 方法的第三個限制是演示和探索智體收集的一些常見動作獎勵不一致。這會導致來自離線演示智體的數據與來自在線RL探索智體的經驗之間存在某種差異。



登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP

1