
發布
注冊
/
登錄視覺自動駕駛的案例
GRI:通用強化模仿學習,用于視覺自動駕駛
此流水線分兩個階段進行訓練:(1) 視覺編碼器在幾個輔助任務的感知數據集上進行預訓練,包括語義分割、道路類型分類和相關紅綠燈的存在,即判斷是否有這樣的交通燈及其狀態和距離。(2) 可視編碼器固定,基于GRI的 DRL 網絡,通過離線演示智體預生成的專家數據和在線探索智體從模擬器收集的數據,來進行訓練。在任何一個給定的訓練步驟,其下一個添加到重放緩存(replay buffer)的epoch,一定概率來自演示智體,其他則來自探索代理。動作對應于作用到車輛的一對數據(轉向、油門)。
這個算法,即GRI for Autonomous Driving (GRIAD) ,是GRI方法的調整版,在模擬器CARLA運行的視覺自動駕駛(AD)。GRI 是一種方法,用重放緩存(如 SAC、DDPG、DQN 及其改進版)在任何不帶策略(off-policy) RL 算法上直接實現。GRI建立在于這樣一個假設,即專家演示可以被視為完美的數據,其基本策略將獲得持續的高獎勵,表示為演示獎勵 。實驗中,選擇其作為獎勵的最大值。
GRI的想法是在訓練階段將演示中的專業知識蒸餾送給RL智體。為此,定義兩種類型的智體:(i)在線探索智體,它是常規的RL智體,用于探索環境將經驗收集到內存緩存,以及(ii)離線演示智體,與持續演示獎勵相關的專家數據發送到內存緩存。如下是GRI的偽代碼算法:
基于Implicit Affordances方法(“End-to-end model-free reinforcement learning for urban driving using implicit affordances“. CVPR 2020),GRI用于視覺自動駕駛。
展開 空間視覺技術接替算法視覺推動實現完全自動駕駛
基于現有成像設備,機器視覺之算法視覺實現完全自動駕駛,是一件不可能的事,邏輯:空間景物投影在圖像傳感器上生成平面顏色點陣,是失真不可靠的數據,算法再完美,數據不可靠,結果自然不可靠。空間視覺技術重塑了成像設備結構和控制方法,使其獲得完整 一 一對標的數據鏈,生成3維坐標顏色點陣,連續坐標點陣即景物輪廓,空間視覺技術重新定義的相機,使其完成從生成相片到生成場景的進化,場景實現數字孿生到平行空間飛越,實現方法從計算模擬變成實時映射。
視覺為王-小鵬以及特斯拉的自動駕駛方案
總結
本文主要是基于,硬件,軟件,功能三塊進行視覺自動駕駛方案的寬泛探討。其實很明確,自動駕駛目前應該形成了以視覺AI 為主導,算力為依托,大數據為基數的一整套工具產業鏈條。
所以自動駕駛未來的差異點可能還是會回歸品牌特征和個性的細微體驗差異,而非各種功能。
當然水平有限,權當拋磚引玉,歡迎留言互相學習探討。
參考文章
Autonomous Driving Technology for Connected Cars - 日立
Developing Autonomous Driving EVs for the China Market XPENG Motors’ Approach - 谷俊麗
展開 自動駕駛的純視覺路線靠譜嗎?
雖然還是要把自動駕駛作為宣傳手段和增值盈利的方法,但是打死也不說責任由自己來承擔。這就是為什么現在都在打擦邊球,堅決不說自己的系統是L3,而只是無限接近L3的原因。
自動駕駛系統的架構大致如下所示。分為感知、決策和控制(或執行)。其中感知部分是決定所謂自動駕駛路線的關鍵因素,相當于人類的五官,來獲取外部的信息。決策部分可以類比為人類的大腦,用來進行判斷,決定對車輛如何進行控制。而控制(執行)部分可以想象為人類的四肢——控制車輛的速度和轉向,也就是橫向和縱向的運動。
長期以來,對于自動駕駛的技術路線有多種思路。以特斯拉為首的一派覺得純視覺就足夠了。因為人類開車的時候主要靠的還是視覺(眼睛)來感知環境信息。其他派別的人有的覺得視覺加上毫米波雷達就夠了,有的覺得視覺之外還需要毫米波加上激光雷達。總之,在現在已知的感知系統中,一共只有攝像頭、毫米波雷達、激光雷達,以及傳統的超聲波雷達,但是超聲波雷達僅適用于近距離的感知(米級),可以用于泊車場景中,最常見的用途就是倒車,所以又被稱之為倒車雷達。
下圖是一個自動駕駛的感知系統的方案,集合了所有上述的幾種感知設備,可以說是武裝到了牙齒。
無論如何,視覺系統已經成為了自動駕駛的重要組成部分。然而,純靠視覺靠譜嗎?在回答這個問題之前,我們先來看看人眼的“技術參數”。
展開 
自動駕駛系統中視覺感知模塊的安全測試
車聯網領域隨著物聯網與交通運輸領域的深度融合蓬勃發展.隨著深度學習的進步,車聯網領域的自動駕駛技術得到了突破性的發展,并有演化成一場新的汽車工業革命的趨勢.無論是特斯拉、蔚來等新型車企,還是福特、寶馬等傳統車企都陸續拿到了自動駕駛路測牌照,著眼于研發深度自動駕駛技術.迅猛發展的深度自動駕駛技術正逐漸成為車聯網領域的主要支撐技術之一,正在改變未來的交通和出行方式.
視覺感知模塊是自動駕駛進行環境感知的重要組件,也是車輛進行智能決策的重要基礎.自動駕駛領域的重要企業特斯拉更是將視覺感知模塊作為其駕駛系統的唯一環境感知模塊.因此,自動駕駛系統視覺感知模塊的安全性是自動駕駛系統正常工作的關鍵.雖然視覺感知模塊的表現隨著深度視覺技術的發展穩步提升,但是其從駕駛環境中感知到的特征語義難被理解、決策過程無法解釋.如何對自動駕駛系統視覺感知模塊的安全性進行充分測試,已經成為了一個迫在眉睫、亟待解決的問題.
誠然,圍繞深度學習可解釋性方面的工作有了一定的突破,但是距離分析清楚自動駕駛視覺感知模塊的錯誤傳導機理還有較遠的距離.近年來,神經網絡的黑盒攻擊方法的進步,啟發大家提出了一些基于場景搜索的自動駕駛視覺感知模塊安全性測試技術.這些場景驅動的測試方法利用黑盒測試的思路,為駕駛系統提供盡可能多的駕駛場景數據,觀察自動駕駛系統的輸出與測試預言(TestOracle)之間的差異,進而分析自動駕駛系統視覺感知模塊的安全性.
展開 自動駕駛汽車的偽激光雷達-雙目立體視覺
來源 | 點云PCL
導讀:雙目立體視覺(Binocular Stereo Vision)是機器視覺的一種重要形式,它是基于視差原理并利用成像設備從不同的位置獲取被測物體的兩幅圖像,通過計算圖像對應點間的位置偏差,來獲取物體三維幾何信息的方法。
偽激光雷達-雙目立體相機
深度學習和計算機視覺在自動駕駛系統中已經非常流行且被廣泛應用。計算機視覺領域在過去的十年里得到了迅猛的發展,特別是在障礙物檢測方面。障礙物檢測算法,如YOLO或RetinaNet提供了二維邊界框,用邊界框給出了障礙物在圖像中的位置。
目前,大多數的目標檢測算法都是基于單目RGB攝像機的,不能返回每個障礙物的距離。為了能夠返回每個障礙物的距離,工程師們將相機與激光雷達(LiDAR,光探測和測距)傳感器進行融合,后者使用激光來返回深度信息。將計算機視覺信息和激光雷達輸出進行傳感器的融合。這種方法的問題是使用激光雷達,就會導致價格昂貴。所以經常有人使用的一個雙目攝像頭進行替代,并使用幾何信息來定義每個障礙物的距離,故可以將雙目相機獲取的數據稱之為偽激光雷達
單目與雙目的比較
雙目視覺利用幾何學來構建深度圖,并將其與目標檢測相結合以獲得三維距離。那么如何利用立體視覺實現距離估計?
展開 基于雙目視覺的自動駕駛技術
還有歐盟自主泊車項目V-Charge也采用了前向雙目視覺系統,另外自動駕駛研發系統Berta Benz也是,而且和雷達系統后融合,其中雙目匹配的障礙物檢測算法Stixel很出名。以前Bosch和Conti這些Tier-1公司也研制過雙目視覺解決方案,但沒有在市場上產生影響力,據說被砍掉了。
談到雙目系統的難點,除了立體匹配,還有標定。標定后的系統會出現“漂移”的,所以在線標定是必須具有的。單目也是一樣,因為輪胎變形和車體顛簸都會影響攝像頭外參數變化,必須在線做標定修正一些參數,比如仰角(pitch angle)和偏角(yaw angle)。
雙目在線標定就更復雜些,因為雙目匹配盡量簡化成1-D搜索,所以需要通過stereo rectification將兩個鏡頭光軸方向平行并和基線垂直。所以針對獲得的gain相比,增加的復雜度和成本,如果不劃算商家就會放棄。
最近重提雙目視覺,是因為硅谷芯片公司安霸(Ambarella)在2014年收購意大利帕爾馬大學的Vis Lab,研制了雙目的ADAS和自動駕駛芯片,去年CES之后就開始進軍車企和Tier-1。而且,安霸目前正在繼續研究提升該系統的性能。
下圖就是它在車頂安裝6對立體視覺系統的示意圖,其中它們的基線寬度可以不一樣的,相應地有效檢測距離也就不同。筆者曾坐過它的自動駕駛車,遠處可以看到200米,近處20-30米。它確實可以做在線標定,隨時調整一些雙目視覺的參數。
先說立體匹配。
匹配方法分兩種,全局法和局部法,實用的基本是局部法,因為全局法太慢。深度學習可以取代全局法,但目前還不是很成熟。
最著名的局部法就是SGM(semi-global matching),很多產品在用的方法都是基于此的改進,不少視覺芯片都采用這種算法。
展開 自動駕駛中的立體視覺
來源 | 汽車ECU開發
如今,自動駕駛的立體視覺變得越來越流行。計算機視覺領域在過去十年中發展迅猛,尤其是基于深度學習的障礙物檢測和計算機視覺領域。
YOLO 或 RetinaNet 等障礙物檢測算法提供 2D 邊界框,使用邊界框給出圖像中障礙物的位置。今天,大多數物體檢測算法都是基于單目RGB相機,無法返回每個障礙物的距離。
為了返回每個障礙物的距離,工程師們將相機與激光雷達(光探測和測距)傳感器融合,利用激光返回深度信息和傳感器融合技術融合計算機視覺和激光雷達的輸出。
這種方法的問題是使用了昂貴的激光雷達。工程師巧妙地利用對齊兩個攝像頭并使用幾何形狀來定義每個障礙物的距離:我們稱之為偽激光雷達。
圖1 單眼與立體視覺
偽激光雷達利用幾何圖形來構建深度地圖,并將其與目標檢測相結合,以獲得三維距離。
實現深度估計的五個步驟:
通過兩個攝像頭,我們可以獲得物體的距離。這是三角測量的原理,也是立體視覺背后的核心幾何。下面是它的工作原理:
1、立體校準-檢索相機的關鍵參數;
2、對極幾何-定義我們設置的三維幾何;
3、視差圖- 計算視差圖;
4、深度貼圖- 計算深度貼圖;
5、障礙物距離估計- 在 3D 中查找對象,并與深度圖匹配。
在本文中,我們將學習如何執行這 5 個步驟來構建 3D 對象檢測算法,目標是對于每個對象,我們可以估計 X、Y、Z 位置。
01.立體校準—內部和外部校準
當你在網上看任何圖片時,很可能相機已經被校準過了。每個相機都需要校準。
展開 自動駕駛多目視覺感知
來源 |
巫婆塔里的工程師@知乎
1 前言
從輸出維度的角度來看,基于視覺傳感器的感知方法可以分為
2D感知和3D感知兩種
。專欄之前的文章也分別對這兩種感知任務做了詳細的介紹。
視覺傳感器:2D感知算法
從傳感器的數量上看,視覺感知系統也分為單目系統,雙目系統,以及多目系統。2D感知任務通常采用的是單目系統,這也是計算機視覺和深度學習結合最緊密的領域。但是自動駕駛感知最終需要的是3D輸出,因此我們需要將2D的信息推廣到3D。
在
深度學習取得成功之前,通常的做法是根據目標的先驗大小以及目標處于地平面上等假設來推斷目標的深度(距離),或者采用運動信息進行深度估計(Motion Stereo)。有了深度學習的助力之后,從大數據集中學習場景線索,并進行單目深度估計成為了可行的方案。但是這種方案非常依賴于模式識別,而且很難處理數據集之外的場景(Corner Case)。比如施工路段的特殊工程車輛,由于數據庫中很少出現或者根本沒有此類樣本,視覺傳感器無法準確檢測該目標,因而也就無法判斷其距離。
雙目系統可以自然的獲得視差,從而估計障礙物的距離。
這種系統對模式識別的依賴度較小,只要能在目標上獲得穩定的關鍵點,就可以完成匹配,計算視差并估計距離。
但是,雙目系統也有以下缺點。
首先,如果關鍵點無法獲取,比如在自動駕駛中經常引發事故的白色大貨車,如果其橫在路中央,視覺傳感器在有限的視野中很難捕捉關鍵點,距離的測算就會失敗。
其次,雙目視覺系統對攝像頭之間的標定要求非常高,一般來說都需要有非常精確的在線標定功能。
展開 自動駕駛的視覺感知包括哪些內容?
來源 |
CV研習社、計算機視覺life
知圈
|
進“域控制器群”請加微13636581676,備注
域
本文針對自動駕駛行業的視覺感知做簡要介紹,從傳感器端的對比,到數據的采集標注,進而對感知算法進行分析,給出各個模塊的難點和解決方案,最后介紹感知模塊的主流框架設計。
目錄
傳感器組件
相機標定
數據標注
功能劃分
共性問題
模塊架構
視覺感知系統主要以攝像頭作為傳感器輸入,經過一系列的計算和處理,對自車周圍的環境信息做精確感知。目的在于為融合模塊提供準確豐富的信息,包括被檢測物體的類別、距離信息、速度信息、朝向信息,同時也能夠給出抽象層面的語義信息。所以道路交通的感知功能主要包括以下三個方面:
動態目標檢測(車輛、行人和非機動車)
靜態物體識別(交通標志和紅綠燈)
可行駛區域的分割(道路區域和車道線)
這三類任務如果通過一個深度神經網絡的前向傳播完成,不僅可以提高系統的檢測速度,減少計算參數,而且可以通過增加主干網絡的層數的方式提高檢測和分割精度。
展開 自動駕駛是如何仿真人眼視覺?
AEye:
采用了ANSYS VRXPERIENCE和SPEOS自動化的AEye iDAR?技術,
展示了在虛擬世界中的危險檢測能力
為了確保自動駕駛的安全性,工程師需要設計出能夠檢測、解析道路上的危險狀況并對其做出反應的系統和傳感器。日前,AEye公司在美國拉斯維加斯CES展上展出其使用ANSYS SPEOS和VRXPERIENCE進行駕駛場景檢測的能力,其使用ANSYS SPEOS對傳感器平臺的光學效應進行建模,并使用ANSYS VRXPERIENCE在逼真的虛擬環境中對其進行測試和驗證。
AEye運用仿真技術創建智能探測和測距(Intelligent Detection and Ranging, 簡稱iDAR)平臺,可模擬人眼是如何觀察道路的。iDAR 傳感器能提供更高的探測精度、更遠的探測距離,同時還能提供更加智能化的感知信息,該技術可優化自動駕駛的快速動態感知及路徑規劃,為車輛系統提供決策依據,從而提升自動駕駛車輛的安全性及性能表現,同時成本也有所下降。
AEye公司的iDAR技術將模仿人眼是如何觀察道路的
通常,工程師必須使用物理原型來測試和驗證其傳感器系統,而這些物理原型不僅非常耗時,而且成本高昂。借助iDAR平臺幾天內就可以對傳感器系統進行數百萬英里的虛擬測試,iDAR模擬了人眼視覺效果,專注于并預測潛在的駕駛危險,可動態追蹤對象與目標物,幫助自動駕駛系統評估道路狀況,并對車輛周邊的整體環境進行掃描和判斷。
這種系統化的方法非常重要,因為無法在道路上對自動駕駛系統可能遇到的每種潛在情境進行測試。
展開 
為何全視覺方案無法實現真正的自動駕駛
總結
從如上表的總結中不難看出,對于激光雷達所能解決的自動駕駛邊緣場景是不言而喻的,純視覺派的特斯拉方案在未來自動駕駛設計過程中是無法保證其性能和效果的。相應的提升方案肯定是結合視覺的雷達融合方案。
當然本章重點還是介紹了毫米波雷達的感知原理及性能,未來如果是大域控方案的實施策略時,難免不會考慮利用毫米波輸入的原始點云數據進行綜合處理。這一過程類似于激光雷達的點云處理,這又涉及多方面的因素。如傳輸帶寬,點云建模模型以及域控制器綜合處理算法。在縱向感知方面,毫米波最強;橫向方面,激光最強。豐田和本田的方案,都是激光作為獨立感知,結果再跟攝像頭融合,最后得出最終目標。
展開 為何全視覺方案無法實現真正的自動駕駛
作者 |
Aimee
出品 |
焉知
當前,主流的自動駕駛Tier1和主機廠都趨向于設計更加先進的傳感器架構將傳感器的探測能力提升到最大值。
其中,不乏有類似特斯拉、小鵬這樣趨向于推進視覺感知架構設計的主機廠,也不乏有類似博世、大陸這類傳統趨向于推進雷達感知為主的供應商。也有在傳感器架構中趨向于設計全傳感冗余方案的主機廠,如蔚來、waymo、百度等不差錢的主機廠。
從量產的角度出發
,我們在設計傳感架構時更多的是追求所謂的性價比,也即用最少的傳感器設計最優的系統架構。
什么是最優?需要滿足如下三個條件:
1)確保傳感器的探測能力能夠覆蓋整個車端實體及周邊環境,盡量不會出現感知盲區;
2)確保設計最高級自動駕駛系統時,需要充分考慮系統在某些失效情況下,其傳感器能夠也能做相應的降級處理;
3)整個傳感器布置盡量不要出項重復或探測能力的過冗余,這可能導致系統的整個經費較高,無法滿足高性價比的要求。
前段時間特斯拉宣布后續將會朝著全視覺方案方向發展的策略,由于當前特斯拉的方案在某種程度上
仍舊
采用了雷達目標的探測情況。全視覺方案旨在通過視覺探測逐漸替代有雷達探測所帶來的諸如距離、速度、加速度等實體目標中的優勢。但是,筆者認為全視覺方案在如下一些極端的場景中是無法滿足對于感知探測能力的KPI指標的。
展開 基于立體視覺的自動駕駛三維目標檢測,精度可媲美激光雷達!
來源 |
AI修煉之路
介紹
三維目標檢測是自動駕駛和虛擬現實中重要的場景理解任務。考慮到激光雷達成本昂貴,本文提出一個基于立體視覺的3D目標檢測方法。針對目標深度估計是影響三維目標檢測性能的關鍵因素,提出了一種基于「實例深度感知」、「視差自適應」和「匹配代價調整」的三維包圍盒中心深度預測模塊。此外,我們的模型是一個「端到端」的學習框架,不需要多個階段或后處理算法。我們在KITTI基準上進行了詳細的實驗,與現有的基于圖像的方法相比,取得了顯著的改進。
代碼開源:https://github.com/swords123/IDA-3D
一、引言
在本工作中,我們提出了一種基于立體視覺的三維目標檢測方法,該方法在訓練過程中不依賴于激光雷達數據作為輸入或監督,而只使用帶有相應標注的三維邊界盒的RGB圖像作為訓練數據。
首先利用立體區域提議網絡(RPN)從背景中提取目標,消除其對三維目標檢測的干擾。由于對象實例的深度估計是影響三維對象檢測性能的關鍵因素,因此我們設計了一個獨立的 「實例深度感知(IDA)」 模塊來預測對象三維邊界盒的中心深度。
不像以前基于立體的方法計算圖像之間每個像素的對應關系,我們測量每個實例的對應關系,把更多關注放在對象的全局空間信息。
為了減小對遠處目標深度估計的誤差,我們根據目標的位置「自適應地調整代價體中的視差等級的范圍」,并將視差等級的均勻量化轉換為非均勻量化。「匹配代價也被重新加權」,通過懲罰對對象實例不是唯一的深度級別,并提升具有高概率的深度級別,從而使深度估計更具鑒別性。所提出的體系結構的概述如圖1所示。
展開 RoadMap:一種用于自動駕駛視覺定位的輕質語義地圖(ICRA2021)
在本文中,我們提出了一個輕量級的定位解決方案,它依賴于低成本的相機和緊湊的視覺語義地圖。該地圖很容易由傳感器豐富的車輛以眾包的方式產生和更新。具體來說,該地圖由幾個語義元素組成,如車道線、人行橫道、地面標志和路面上的停車線。我們介紹了車載地圖、云上維護和用戶端定位的整個框架。地圖數據是在車輛上收集和預處理的。然后,眾包的數據被上傳到云服務器。來自多個車輛的海量數據在云端被合并,以便及時更新語義地圖。最后,語義地圖被壓縮并分發到生產汽車上,這些汽車使用該地圖進行定位。我們在現實世界的實驗中驗證了所提出的地圖的性能,并將其與其他算法進行比較。語義地圖的平均大小為36kb/km。我們強調,這個框架是一個可靠和實用的自主駕駛的定位解決方案。
Main contributions:
我們提出了一個新穎的框架,用于自主駕駛任務中的輕量級定位,該框架包含車輛建圖、云上地圖維護和用戶端定位。
我們提出了一個新穎的想法,即使用富含傳感器的車輛(如機器人出租車),使低成本的生產汽車受益,含有傳感器的車輛每天收集數據并自動更新地圖。
我們進行真實世界的實驗測試,以驗證所提出的系統的實用性。
System Overview
該系統由三部分組成。第一部分是本地端建圖。使用配備有前視攝像頭、RTK-GPS和基本導航傳感器(IMU和輪速計)的車輛。這些車輛被廣泛用于機器人出租車的應用,每天收集大量的實時數據。通過分割網絡從前視圖像中提取語義特征。然后,語義特征被投射到基于優化的車輛位姿的世界坐標系中。在車輛上建立一個本地語義圖。這個本地地圖被上傳到一個云地圖服務器。
第二部分是云上建圖。云服務器收集來自多個車輛的本地地圖,本地地圖被合并成一個全局地圖。然后通過輪廓提取對全局地圖進行壓縮。
展開