聯結主義AI技術在Tesla Vision技術體系中的地位和未來


來源 | 車右智能


CVPR2021的自動駕駛workshop之后,Tesla自動駕駛部門技術總監AndrejKarpathy的技術主題演講流傳很廣,畢竟這是Autopilot完全走出Radar,步入純視覺的重要時間節點。小編看了原稿,也看了不少技術解讀,感覺在公眾認知的傳播層面,還是有很多信息沒真正理解出來。
不兜圈子,直接進入正題。
 
當下風頭最勁、所謂基于“聯結主義/Connectionism”的AI技術——即現實中往往由GPU所實現的深度神經網絡,其技術上的根基還是來源于數據和訓練兩個方面,缺一不可。作為Tesla Autopilot系統的核心團隊總監,Karpathy首當其沖的責任是應該在保有一定結構、規律和規章制度保障的道路環境下(小編:即由人類設計和營造的道路交通系統),提供足夠可靠(小編:“足夠可靠”本身是一個在量值上的模糊詞匯,這里就不展開探討了)的認知模塊。這是在自動駕駛技術范疇內,一個基礎中的基礎問題。這就決定了Karpathy的工作重點必然是需要在全球范圍內的道路環境下,盡可能完成大范圍、高質量的道路環境和道路參與目標的數據搜集、清洗、標注過程,并通過在商業上合理的技術手段完成認知模塊的模型訓練和部署。
 
我們可以確定的信息是,不僅僅是Tesla,全球范圍內真正可以提供達到商業標準的(輔助)自動駕駛系統的主機廠家中,沒有任何一家可以在當下這個階段提供完整的、類人的端到端自動駕駛系統。所謂的端到端系統,即從感知傳感器到車輛操控機構(方向盤和油門剎車)之間,利用聯結主義構造完整的端到端神經網絡,在經過足夠數據的訓練之后,端到端的神經網絡可以在傳感器數據和操控機構之間找到合規的駕駛規律。端到端系統往往面臨過高的不確定性和風險,這同樣是由數據的豐富度和訓練方法的完善程度受到各種限制的客觀現實所決定的。當然,我們不能確定的信息是,在Tesla的Autopilot團隊內部,Karpathy是所有的模塊一把抓,還是僅僅負責核心的認知模塊?但這并不影響我們后續的分析和論述。
 
所以對于Tesla和Karpathy也好,對于其它自動駕駛系統研發廠商來說也罷,將聯結主義的代表技術——深度神經網絡,限定在認知模塊范圍內(小編:或者同時出現在預測模塊、路徑規劃模塊內…比如Waymo的著名的預測和規劃系統ChauffeurNet),并通過額外由人類駕駛員經驗提純的、基于規則的限定,將其和預測、規劃、控制模塊等復合在一根決策鏈條上,在當下都是一種更安全的選擇。這里面的差別只是存在于Tesla更加激進的傳感器方案的選擇——他們只希望在車身上保留單一性質的視覺傳感器和必要的超聲波(泊車時使用),從而實現在間接推動自動駕駛技術的成熟,和自動駕駛車輛的商業銷售,保持共同前進,互惠互利。而其他自動駕駛研發方或者主機廠商,往往選擇了技術上更加復雜、但商業上更為穩妥的“復雜傳感器”體系。但如果我們是從聯結主義/Connectionism的角度看過去,不論是數據獲取手段還是模型訓練方法,他們在本質上和Tesla并無差別。
 
這種“形而下”的對于人腦神經元工作方式的拙劣模仿,在當前的技術水平下,已經是機器認知技術的最佳選擇了,我們并沒有第二種選擇。深度學習扛旗者Geoffrey Hinton曾經以以下問題為例,來說明深度神經網絡學習機制的重要性和不可替代性:
                           
聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖1
圖一【Tesla FSD beta v9-36.png】來自:
https://www.youtube.com/watch?v=VsnQf7exv5I截圖;
 
從符號主義/Symbolism第一代Symbolic AI技術開始,從業者花了無數精力和50年的時間試圖使用AI應用解決對于圖片內容進行匹配的、合適的文字描述,但無論如何窮盡符號邏輯,專家們始終無法提供合適的和完備的Program code去描述百萬級的像素和主題描述文本之間的對應關系,效果始終平平……直到聯結主義者嘗試用深度神經網絡對圖片的像素進行向量化,效果卻出奇地驚人。
 
聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖2
圖二【Tesla FSD beta v9-37.png】來自:
https://www.youtube.com/watch?v=VsnQf7exv5I截圖;
 
截至2015年,李飛飛團隊利用CNN(卷積神經網絡)在ImageNet-2012開放數據集上的識別和分類效果,已經達到和人類一致的準確率,即5%的錯誤識別率。(小編:現在的CNN水平已經進化到只有更低的錯誤率)在人工智能領域,這是劃時代的大事件,相當于聯結主義對于符號主義的轉折之戰,各種技術公司,包括自動駕駛的早期開拓者,第一次看到這種可能,我們可以使用類人眼睛的視覺傳感器,一次性來獲取比電磁波類傳感器豐富得多的道路環境數據,何樂而不為呢?我想這就是Tesla和Elon Musk對于視覺傳感器路線的癡迷,也是Musk決定大膽啟用和依賴Karpathy的具體原因。
 
當然,深度神經網絡的大規模部署不可能是解決一切問題的良藥。就在小編寫這篇文章的同時,蔚來NOP輔助駕駛的致命車禍依然在驚悚大家的眼球。隨著出貨量的上揚,Tesla在自動駕駛系統上所面臨的問題最終在每一家新銳主機廠都會遇到。從道義上講(小編:人類定義的道義準則相當苛刻)無謂的犧牲和財產損失鱗次櫛比…….不僅僅Tesla、蔚來,所有相關從業者重大的使命即在于此:必須發瘋快跑永不停歇,不管你使用什么樣的傳感器和多少種傳感器,這都不是核心問題,只有找到足夠豐富的有效數據和足夠強大的訓練方法,才能在抵達全自動駕駛之前將損失降到人類的道德準則可以接受的地步。
 
從這個角度看,Tesla的Autopilot策略從一開始就是殘酷地“務實”,直到進入今天的Tesla Vision完全視覺階段,幾乎沒有直接考慮來自外界的事故壓力(小編:至少我沒看到過Telsa因為事故而做過任何技術妥協,能看到的都是早期致死事故之后放棄和Mobileye的技術合作轉而單干、后續頂著壓力拋棄毫米波雷達的逆風而動)。不斷降低單車成本、盡可能提升數據獲取手段和訓練方法,Karpathy就是給Elon Musk高高在上的理想,落在實地上的技術推手。所以Karpathy的責任,不僅是要跑贏對于輔助自動駕駛系統濫用而造成的事故率,還要跑贏Elon Musk的野心和雄心。
 
聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖3
圖三【Tesla FSD beta v9-38.png】來自:
https://www.youtube.com/watch?v=NSDTZQdo6H8&t=977s截圖;
 
對于自動駕駛的認知模型來說,數據集的定義并非越大越好,在規模、數據清潔度和數據多樣性三個方面同時滿足需求的數據,對于多數廠家來說可能并不多(小編:或者說數據集的質量并不高)。按照Karpathy的標準,需要保證在單一視覺傳感器camera輸入而不損失系統可靠性的要求下,必須要對Tesla龐大的現行車隊進行精細的數據挖掘,從而保證在以上三個維度上同時滿足需求的數據集建立,這是Autopilot在放棄mmRadar之后仍能進入FSD的保障。
 
首當其沖的是,如何對Tesla Fleet上報的龐大數據進行標記?(小編:現行車隊具備完整和合規的傳感器配置的,Tesla的規模至少在100-150萬輛,這也許是Tesla幸福的煩惱吧)
 
聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖4
圖四【Tesla FSD beta v9-39.png】來自:
https://www.youtube.com/watch?v=NSDTZQdo6H8&t=977s截圖;
 
完全依賴人工的數據標記方法不論從成本還是更新周期上,都是不可接受的。因此借助離線部署的、專門用于對象數據標記的神經網絡,是降低成本、加快標記速度的一個解決手段(小編:應該是Dojo平臺的一部分)。根據Karpathy描述說,離線部署的標記網絡規模可以很大,因為屬于輔助工具性質,不需要考慮直接部署在車輛本體,因此網絡規模可以很大,從而提升標記的準確性。也可以采用ensembles部署方式,設計各自獨立存在的標記子網絡分別對目標數據(video clip)做標記識別之后,再進行整合,從而實現盡可能不遺漏數據中的目標物體標記。
 
同時正因為是離線系統,所以在執行目標物體標記時,標記網絡可以做到不僅知道歷史和當下信息,還可以掌握video clip內目標上下文的“未來”信息,因此理論上有更好的把握實現對于目標物體的標記。與此同時,還可以利用輔助異構傳感器(比如毫米波雷達)的上報數據,作為現實標記參考;再加上對于極端罕見場景的專門人類團隊的審核……這一系列手段,確保了Tesla在技術上有機會實現對于大量候選video clip的準確標記,為后續上車的關鍵識別模塊的訓練提供足夠clean的訓練數據集。
 
聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖5
圖五【Tesla FSD beta v9-40.png】來自:
https://www.youtube.com/watch?v=NSDTZQdo6H8&t=977s截圖;
 
借由龐大的Tesla Fleet,一些極端的corner case場景,甚至很難在仿真平臺上模擬的極限場景,Karpathy和他的團隊卻不難發現、觸發上報,并最終在標記后擁有這一切。上述的三個場景中,從上到下第一行,分別是narrow camera、main camera和fisheye camera所捕捉到的陽光直射鏡頭方向的目標識別和跟蹤場景;第二行是前車突然暴起煙塵遮擋目標識別和跟蹤場景;第三行是雪天積雪干擾下的目標識別和跟蹤場景。
 
在離線標記net的協助下,我們可以明確看到對于corner case的目標識別和跟蹤,標記完整、完善和準確(小編:顏色框在視頻片段中始終清晰存在,并具備連貫的速度、位置和加速度屬性),并貫穿每一個video clip始末。之前普遍的公眾印象是,Waymo才是更重視數字仿真平臺建設的自動駕駛廠家,而Elon Musk本人在公開場合下曾經說過,“仿真如同自己給自己布置家庭作業,不可能對自己造成真正的考核壓力。”類似的話語主旨其實是對自己在真實場景下對于數據予取予求的強烈自信。所以,雖然Tesla依然仰仗在Dojo平臺上部署仿真平臺,但這里的“仿真平臺”其本質的訓練數據并非設計出來的數字化虛擬環境要素,而完全來自于真實環境。所以不難理解其真實性、考核的可靠性,在理論上就是凌駕于傳統的數字仿真平臺的,這是Musk傲嬌的底氣。
 
聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖6
圖六【Tesla FSD beta v9-41.png】來自:
https://www.youtube.com/watch?v=NSDTZQdo6H8&t=977s截圖;
 
上圖所示的Trigger/觸發器的概念和公眾中耳熟能詳的“shadow mode”是密切相關的。但在這個上下文中,我們對于Trigger的理解應該更加靈活一些。Karpathy當下的主旨還是要在識別模塊范圍內推行Tesla Vision能力的建立,因此大量符合“Diversity/多樣性”原則的關鍵場景視頻數據,對于Tesla Vision下的識別模塊能力的快速建立和訓練就非常關鍵了。因此上圖中所羅列出來的部分Trigger的核心主旨同樣是捕捉最關鍵的場景數據,我們挑幾個來做細致分析:(小編:需要注意的是,Trigger本身并不會對接后續的預測和規劃模塊,Trigger獨特而獨立的目標就只有一個,將符合Trigger定義的video clip及時上報給Dojo)

1 Radar Vision mismatch;當車載Autopilot的識別模塊發現雷達數據和視覺數據不匹配時(可能有個閾值范圍),將會觸發對上下文一定時間內數據的保存,并選擇合適時機上報Dojo(小編:比如連接WiFi的時刻)

如下圖所示,目標物體2D框頂部為視覺識別的距離數據,而底部為Radar返回的距離數據(還有速度數據)。可以看到二者測量結果有出入是個常態,這是傳感器屬性差別和測距方法原理差異所決定的。因此在閾值范圍外的場景將會得到額外的關注,注意這只針對具備Radar傳感器的Tesla車輛上報有效。

聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖7
圖七【Tesla FSD beta v9-42.png】來自:@greentheonly推特截圖;
 
2 Bounding box jitter;bounding box,不論是2D還是3D框,都是深度神經網絡對于場景和目標識別的首要目標之一。快速抖動的bounding box,意味著主車視野角度對于外界目標的識別發生嚴重的不確定、不連貫識別的現象。主要發生在,動車對于靜止車輛的識別、目標車輛過于龐大等條件下,造成主車測量結果的跳躍和跟蹤效果的不確定。類似場景的價值,還是體現在視覺系統對于各種極限條件下的目標識別誤差的問題,尤其是位置誤差。因此大規模搜集類似場景和離線準確標記,有助于提升Tesla Vision的可靠性。實際上,在全新的FSD Beta9.0版本上,我們已經觀察到了非常明顯的bounding box jitter現象的優化。
 
3 Detection in main camera but not in narrowcamera;Tesla的攝像頭硬件配置并不高(1.2M像素),因此在narrow camera中丟失客觀存在的目標物體的可能性是存在的。李斌在蔚來ET7發布會上強調8M像素的前視攝像系統的必要性,即用意在此。但提升后端深度神經網絡在Narrow camera成像平面上的敏感度和預測準確度,同樣可以實現視覺能力的提升。因此相關數據的搜集就特別重要。
 
4 Driver didn’t break but tracker thinks CIPVis rapidly decelerating;當人類司機沒有踩剎車,但后臺系統認知模塊中的Tracker進程發現CIPV(前向距離主車最近的車輛實體)在快速減速時,本Trigger被激活。此種極限場景產生的原因有兩種,要么是視覺測距發生問題即CIPV并未劇烈減速;要么是人類司機決策錯誤即追尾事故前兆。兩種極限情況下的數據都是有高價值的,相關video clips經過標注和校準之后,可用于視覺測距模型的訓練,或者對于罕見的追尾場景中前向CIPV的識別能力提升。蔚來ES8近期的致命事故就是發生于高速下對于道路內靜止工程車輛的尾部撞擊。小編估計,一個是毫米波雷達對于靜止目標的誤識率一貫較高,從而在融合算法中被置于次要地位;另一個是視覺識別可能對于一些罕見的異性工程車輛尾部的訓練水平較低,從而造成誤識別或者漏識別。從這個角度看,放棄異構傳感器架構和融合算法,堅持用大量corner case數據來訓練視覺傳感器能力,長遠看,未見得就不是一件更好更可靠的技術選擇。
 
5 driver enters/exits tunnel;隧道場景;當車輛駛入和駛離隧道時,對于視覺識別系統干擾因素最大的是光照條件的驟然變化。當車輛可以判斷自己駛入和駛離隧道時,主動對于相關場景的video clips進行記錄和保存,尤其是視覺信息中包含前車和對向車輛,完成標記動作之后可以用于訓練識別模塊中的track/跟蹤功能;
 
6 stop and go traffic;繁忙路段的走停跟車場景;跟車條件下,對于前車影像和車距、速度和加速度的判別,包括準確度和可靠性,將會導致實際的跟車效率,客觀上也會預防第三方車輛加塞。這些關鍵場景下的關鍵識別數據將會對于識別模塊的訓練和成熟有關鍵作用。
 
221個trigers等等,不逐一解釋了。最終還是回到這幅大家都比較熟悉的Data engine框架,所有triggers所觸發記錄和上報的video clips,所對應的位置在左側中部“Inaccuracy”位置。當然實際意義不僅僅是“Inaccuracy”,還包含預定義Triggers所觸發的數據上報。Inaccuracy所上報的場景,實際上可以被拿來做直接的“單元測試”,以確定當前模型對于該場景的具體響應。
 
聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖8
圖八【Tesla FSD beta v9-43.png】來自:
https://www.youtube.com/watch?v=NSDTZQdo6H8&t=977s截圖;
 
此處Karpathy帶給我們的一個關鍵信息是,在過去的四個月內,Tesla的Data Engine模型一共循環了7次,即有7次優化后的Tesla Vision模型被批量部署到了FSD Beta的測試車隊上(2000輛),并完成了7次的迭代。良好的表現最終讓Tesla決定大規模在商用車隊中推廣Vision技術。
 
Hinton曾經提到過,當下通行的深度神經網絡往往在兩個時間尺度下工作,一快一慢。快的是成型的深度神經網絡對待輸入的響應,這個響應速度是可以做到類比人類的(小編:實際的腦科技術進步展示了人腦內部神經元激活和去激活之間傳遞能量的速度其實也并不快,如果傳遞介質發生在一種微小的無髓鞘管內部時,其速度也就是每秒二十幾米的水平)。而慢的是深度神經網絡在學習周期、參數調整周期內的慢,往往取決于數據多寡和人類為其設計的訓練、更新的制度……Hinton說人類腦神經元其實是可以在多個時間尺度下工作的,即便是參數重新訓練、部署最終收斂的流程,也可以被壓縮到很小的尺度上去完成,這提供給我們一個新思路。
 
聯結主義AI技術在Tesla Vision技術體系中的地位和未來的圖9
圖九【Tesla FSD beta v9-44.png】來自:
https://www.youtube.com/watch?v=VsnQf7exv5I截圖;
 
Tesla Vision能力的形成,在Tesla Data engine的循環周期中,四個月7次完整的過程,并最終收斂和商用。小編想這是針對美國單一市場的、小規模車隊需求的時間尺度。世界上應該沒有第二家可以做到類似水平吧?蔚來在發布ET7的時候,李斌曾經提到ET7的機載計算機(自動駕駛功能主用)將會部署專門的計算資源,執行所謂的“本地數據清洗——訓練——和單車部署”部署,從而加速單車范圍內的模型實現快速迭代。這是非常好的思路…….也是吻合Geoffrey Hinton思路的實現方式。
 
關于“聯結主義”對于自動駕駛的貢獻和未來的潛力,小編想用Elon Musk在去年國內智能SAIC上的講話來結束今天的話題。他提到一點非常令人印象深刻,“只要神經網絡規模足夠大、層數足夠深、其所遇見的數據足夠多,誰會預料到它是否會在某個時刻催生意識呢?”

備注:封面插圖來自于互聯網,參考URL:
https://www.pcmag.com/news/tesla-is-d eveloping-a-self-driving-system-that-only-uses-cameras。

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP