特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點

作者 |  趙行
來源 |  車東西

不靠激光雷達(dá)和高精地圖,特斯拉的底氣都在這里。


在剛剛過去的國慶節(jié),特斯拉舉辦了第二屆AI Day活動,在活動上除了展示了其人形機(jī)器人Optimus的原型機(jī)、自研的Dojo超算,還重點介紹了其自動駕駛FSD的更多細(xì)節(jié)。

其自動駕駛相關(guān)負(fù)責(zé)人非常深入的介紹了特斯拉在感知、規(guī)劃、矢量地圖、自動標(biāo)注、仿真和基礎(chǔ)設(shè)施等方面的布局,非常全面的展示了特斯拉FSD算法進(jìn)展。

發(fā)布會結(jié)束后,也引起了國內(nèi)眾多自動駕駛相關(guān)專家學(xué)者的關(guān)注。清華大學(xué)清華大學(xué)交叉信息研究院助理教授,博士生導(dǎo)師趙行博士也非常細(xì)致的梳理的特斯拉AI Day上展示的一些關(guān)鍵技術(shù)和進(jìn)展。

趙行2015年在MIT聯(lián)合開發(fā)了第一門自動駕駛課程,后被推廣到全世界十余所高校進(jìn)行應(yīng)用教學(xué),并在2015年獲得ICCP最佳論文獎。其在2019年博士畢業(yè)于麻省理工學(xué)院。博士期間師從MIT AI+決策系主任Antonio Torralba教授,主要研究方向為計算機(jī)視覺,多模態(tài)和多傳感器的機(jī)器學(xué)習(xí)。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖1▲清華大學(xué)清華大學(xué)交叉信息研究院助理教授,博士生導(dǎo)師趙行博士

也是在2019年,趙行加入Waymo擔(dān)任研究科學(xué)家,提出了自動駕駛行為預(yù)測中一系列框架型的工作,為行業(yè)大多數(shù)公司所使用或借鑒。其本人也入選2020年福布斯中國U30科學(xué)精英榜。

2021年加入清華大學(xué)擔(dān)任助理教授,研究涵蓋自動駕駛的整個算法棧,以及多模態(tài)和多傳感器的機(jī)器學(xué)習(xí)。在自動駕駛方面,提出了“以視覺為中心的自動駕駛VCAD”方案,被業(yè)界廣泛采納,并落地應(yīng)用。目前在清華大學(xué)組建和指導(dǎo)MARS Lab課題組,主要研究興趣為自動駕駛,多模態(tài)學(xué)習(xí)和計算機(jī)視覺。在國際頂級期刊和會議發(fā)表論文共計40余篇,Google Scholar引用共計8000余次。研究工作曾被BBC,NBC, 麻省理工科技評論等多家主流科技媒體報道。

可以說,趙行博士對于自動駕駛方面有非常深入的研究,對于特斯拉AI Day上展示的技術(shù)也有非常深刻的認(rèn)知。在獲得了趙行博士的同意后,我們轉(zhuǎn)載了其關(guān)于特斯拉AI Day活動的分析文章。

以下為趙行博士原文,為方便理解,車東西做了一些編輯:

9月30日(美國時間)的Tesla AI Day,特斯拉發(fā)布了初版的Optimus機(jī)器人,自動駕駛FSD的更多細(xì)節(jié)也慢慢浮現(xiàn)在大眾的眼前。我整理了Tesla FSD算法方面值得重點關(guān)注的進(jìn)展與大家分享。

Ashok在一開場就講到,特斯拉是一個典型的AI公司,過去一年訓(xùn)練了75000個神經(jīng)網(wǎng)絡(luò),意味著每8分鐘就要出一個新的模型,共有281個模型用到了特斯拉的車上。接下來我們分幾個方面來解讀特斯拉FSD的算法和模型進(jìn)展。

1、感知 Occupancy Network

2、規(guī)劃 Interactive Planning

3、矢量地圖 Lanes Network

4、自動標(biāo)注 Autolabeling

5、仿真 Simulation

6、基礎(chǔ)設(shè)施 Infrastructure


特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖2


感知 Occupancy Network

特斯拉今年在感知方面的一個重點技術(shù)就是Occupancy Network (占據(jù)網(wǎng)絡(luò))。研究機(jī)器人技術(shù)的同學(xué)肯定對occupancy grid不會陌生,occupancy表示空間中每個3D體素(voxel)是否被占據(jù),可以是0/1二元表示,也可以是[0, 1]之間的一個概率值。

為什么估計occupancy對自動駕駛感知很重要呢?因為在行駛中,除了常見障礙物如車輛、行人,我們可以通過3D物體檢測的方式來估計他們的位置和大小,還有更多長尾的障礙物也會對行駛產(chǎn)生重要影響。例如:1.可變形的障礙物,如兩節(jié)的掛車,不適合用3D bounding box來表示;2.異形障礙物,如翻倒的車輛,3D姿態(tài)估計會失效;3.不在已知類別中的障礙物,如路上的石子、垃圾等,無法進(jìn)行分類。因此,我們希望能找到一種更好的表達(dá)來描述這些長尾障礙物,完整估計3D空間中每一個位置的占據(jù)情況(occupancy),甚至是語義(semantics)和運動情況(flow)。
特斯拉用下圖的具體例子來展現(xiàn)Occupancy Network的強(qiáng)大。不同于3D的框,occupancy這種表征對物體沒有過多的幾何假設(shè),因此可以建模任意形狀的物體和任意形式的物體運動。圖中展示了一個兩節(jié)的公交車正在啟動的場景,藍(lán)色表示運動的體素,紅色表示靜止的體素,Occupancy Network精確地估計出了公交車的第一節(jié)已經(jīng)開始運動,而第二節(jié)還處于靜止?fàn)顟B(tài)。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖3▲對正在啟動的兩節(jié)公交車的occupancy估計,藍(lán)色表示運動的體素,紅色表示靜止的體素

Occupancy Network的模型結(jié)構(gòu)如下圖所示。首先模型利用RegNet和BiFPN從多相機(jī)獲取特征,這個結(jié)構(gòu)跟去年的AI day分享的網(wǎng)絡(luò)結(jié)構(gòu)一致,說明backbone變化不大。然后模型通過帶3D空間位置的spatial query對2D圖像特征進(jìn)行基于attention的多相機(jī)融合。如何實現(xiàn)3D spatial query和2D特征圖之間的聯(lián)系呢?具體融合的方式圖中沒有細(xì)講,但有很多公開的論文可以參考。我認(rèn)為最有可能采取的是兩種方案之一,第一種叫做3D-to-2D query,即根據(jù)每個相機(jī)的內(nèi)外參將3D spatial query投影到2D特征圖上,提取對應(yīng)位置的特征。該方法在DETR3D[1]中提出,BEVFormer[2]和PolarFormer[3]也采取了該思想。第二種是利用positional embedding來進(jìn)行隱式的映射,即將2D特征圖的每個位置加上合理的positional embedding,如相機(jī)內(nèi)外參、像素坐標(biāo)等,然后讓模型自己學(xué)習(xí)2D到3D特征的對應(yīng)關(guān)系,該方法在論文PETR中提出[4]。再接下來模型進(jìn)行時序融合,實現(xiàn)的方法是根據(jù)已知的自車位置和姿態(tài)變化,將3D特征空間進(jìn)行拼接。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖4▲Occupancy Network結(jié)構(gòu)

特征融合后,一個基于deconvolution的解碼器會解碼出每個3D空間位置的occupancy,semantics以及flow。發(fā)布會中強(qiáng)調(diào),由于這個網(wǎng)絡(luò)的輸出是稠密(dense)的,輸出的分辨率會受到內(nèi)存的限制。我相信這也是所有做圖像分割的同學(xué)們遇到的一大頭疼的問題,更何況這里做的是3D分割,但自動駕駛對于分辨率度的要求卻很高(~10cm)。因此,受到神經(jīng)隱式表示(neural implicit representation)的啟發(fā),模型的最后額外設(shè)計了一個隱式queryable MLP decoder,輸入任意坐標(biāo)值(x,y,z),可解碼出該空間位置的信息,即occupancy,semantics,flow。該方法打破了模型分辨率的限制,我認(rèn)為是設(shè)計上的一個亮點。
學(xué)術(shù)界在視覺occupancy方面的工作不多,我關(guān)注到的最相關(guān)的一篇論文是CVPR2022上的MonoScene[5],從單目重建三維體素并且估計出被遮擋的部分,感興趣的可以去精讀。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖5


規(guī)劃 Interactive Planning


規(guī)劃是自動駕駛的另一個重要模塊,特斯拉這次主要強(qiáng)調(diào)了在復(fù)雜路口對交互(interaction)進(jìn)行建模。為什么交互建模如此重要呢?因為其他車輛、行人的未來行為都有一定的不確定性,一個聰明的規(guī)劃模塊要在線進(jìn)行多種自車和他車交互的預(yù)測,并且對每一種交互帶來的風(fēng)險進(jìn)行評估,并最終決定采取何種策略。
特斯拉把他們采用的規(guī)劃模型叫做交互搜索(Interaction Search),它主要由三個主要步驟組成:樹搜索,神經(jīng)網(wǎng)絡(luò)軌跡規(guī)劃和軌跡打分。
1、樹搜索是軌跡規(guī)劃常用的算法,可以有效地發(fā)現(xiàn)各種交互情形找到最優(yōu)解,但用搜索的方法來解決軌跡規(guī)劃問題遇到的最大困難是搜索空間過大。例如,在一個復(fù)雜路口可能有20輛與自車相關(guān),可以組合成超過100種交互方式,而每種交互方式都可能有幾十種時空軌跡作為候選。因此特斯拉并沒有采用軌跡搜索的方法,而是用神經(jīng)網(wǎng)絡(luò)來給一段時間后可能到達(dá)的目標(biāo)位置(goal)進(jìn)行打分,得到少量較優(yōu)的目標(biāo)。
2、在確定目標(biāo)以后,我們需要確定一條到達(dá)目標(biāo)的軌跡。傳統(tǒng)的規(guī)劃方法往往使用優(yōu)化來解決該問題,解優(yōu)化并不難,每次優(yōu)化大約花費1到5毫秒,但是當(dāng)前面步驟樹搜索的給出的候選目標(biāo)比較多的時候,時間成本我們也無法負(fù)擔(dān)。因此特斯拉提出使用另一個神經(jīng)網(wǎng)絡(luò)來進(jìn)行軌跡規(guī)劃,從而對多個候選目標(biāo)實現(xiàn)高度并行規(guī)劃。訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)的軌跡標(biāo)簽有兩種來源:第一種是人類真實開車的軌跡,但是我們知道人開的軌跡可能只是多種較優(yōu)方案中的一種,因此第二種來源是通過離線優(yōu)化算法產(chǎn)生的其他的軌跡解。
3、在得到一系列可行軌跡后,我們要選擇一個最優(yōu)方案。這里采取的方案是對得到的軌跡進(jìn)行打分,打分的方案集合了人為制定的風(fēng)險指標(biāo),舒適指標(biāo),還包括了一個神經(jīng)網(wǎng)絡(luò)的打分器。
通過以上三個步驟的解耦,特斯拉實現(xiàn)了一個高效的且考慮了交互的軌跡規(guī)劃模塊。基于神經(jīng)網(wǎng)絡(luò)的軌跡規(guī)劃可以參考的論文并不多,我有發(fā)表過一篇與該方法比較相關(guān)的論文TNT[5],同樣地將軌跡預(yù)測問題分解為以上三個步驟進(jìn)行解決:目標(biāo)打分,軌跡規(guī)劃,軌跡打分。感興趣的讀者可以前往查閱細(xì)節(jié)。此外,我們課題組也在一直探究行為交互和規(guī)劃相關(guān)的問題,也歡迎大家關(guān)注我們最新的工作InterSim[6]。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖6▲Interaction Search規(guī)劃模型結(jié)構(gòu)

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖7


矢量地圖 Lanes Network

個人覺得本次AI Day上另一大技術(shù)亮點是在線矢量地圖構(gòu)建模型Lanes Network。有關(guān)注去年AI Day的同學(xué)們可能記得,特斯拉在BEV空間中對地圖進(jìn)行了完整的在線分割和識別。那么為什么還要做Lanes Network呢?因為分割得到的像素級別的車道不足夠用于軌跡規(guī)劃,我們還需要得到車道線的拓?fù)浣Y(jié)構(gòu),才能知道我們的車可以從一條車道變換到另一條車道。
我們先來看看什么是矢量地圖,如圖所示,特斯拉的矢量地圖由一系列藍(lán)色的車道中心線centerline和一些關(guān)鍵點(連接點connection,分叉點fork, 并道點merge)組成,并且通過graph的形式表現(xiàn)了他們的連接關(guān)系。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖8▲矢量地圖,圓點為車道線關(guān)鍵點,藍(lán)色為車道中心線

Lanes Network在模型結(jié)構(gòu)上,是感知網(wǎng)絡(luò)backbone基礎(chǔ)上的一個decoder。相比解碼出每個體素的occupancy和語義,解碼出一系列稀疏的、帶連接關(guān)系的車道線更為困難,因為輸出的數(shù)量不固定,此外輸出量之間還有邏輯關(guān)系。
特斯拉參考了自然語言模型中的Transformer decoder,以序列的方式自回歸地輸出結(jié)果。具體實現(xiàn)上來說,我們首先要選取一個生成順序(如從左到右,從上到下),對空間進(jìn)行離散化(tokenization)。然后我們就可以用Lanes Network進(jìn)行一系列離散token的預(yù)測。如圖所示,網(wǎng)絡(luò)會先預(yù)測一個節(jié)點的粗略位置的(index:18),精確位置(index:31),然后預(yù)測該節(jié)點的語義("Start",即車道線的起點),最后預(yù)測連接特性,如分叉/并道/曲率參數(shù)等。網(wǎng)絡(luò)會以這樣自回歸的方式將所有的車道線節(jié)點進(jìn)行生成。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖9▲Lanes Network網(wǎng)絡(luò)結(jié)構(gòu)

我們要注意到,自回歸的序列生成并不是語言Transformer模型的專利。我們課題組在過去幾年中也有兩篇生成矢量地圖的相關(guān)論文,HDMapGen[7]和VectorMapNet[8]。HDMapGen采用帶注意力的圖神經(jīng)網(wǎng)絡(luò)(GAT)自回歸地生成矢量地圖的關(guān)鍵點,和特斯拉的方案有異曲同工之妙。而VectorMapNet采用了Detection Transformer(DETR)來解決該問題,即用集合預(yù)測(set prediction)的方案來更快速地生成矢量地圖。后續(xù)我們會有更詳細(xì)的解讀文章放出,也歡迎大家關(guān)注。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖10▲HDMapGen[7] 矢量地圖生成結(jié)果

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖11▲VectorMapNet[8] 矢量地圖生成結(jié)果

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖12


自動標(biāo)注 Autolabeling

自動標(biāo)注也是特斯拉在去年AI Day就講解過的一種技術(shù),今年的自動標(biāo)注著重講解了Lanes Network的自動標(biāo)注。特斯拉的車每天就能產(chǎn)生500000條駕駛旅程(trip),利用好這些駕駛數(shù)據(jù)能夠更好地幫助進(jìn)行車道線的預(yù)測。
特斯拉的自動車道線標(biāo)注有三個步驟:
1、通過視覺慣性里程計(visual inertial odometry)技術(shù),對所有的旅程進(jìn)行高精度軌跡估計。
2、多車多旅程的地圖重建,是該方案中的最關(guān)鍵步驟。該步驟的基本動機(jī)是,不同的車輛對同一個地點可能有不同空間角度和時間的觀測,因此將這些信息進(jìn)行聚合能更好地進(jìn)行地圖重建。該步驟的技術(shù)點包括地圖間的幾何匹配和結(jié)果聯(lián)合優(yōu)化。
3、對新旅程進(jìn)行車道自動標(biāo)注。當(dāng)我們有了高精度的離線地圖重建結(jié)果后,當(dāng)有新的旅程發(fā)生時,我們就可以進(jìn)行一個簡單的幾何匹配,得到新旅程車道線的偽真值(pseudolabel)。這種獲取偽真值的方式有時候(在夜晚、雨霧天中)甚至?xí)?yōu)于人工標(biāo)注。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖13▲Lanes Network自動標(biāo)注。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖14


仿真 Simulation

視覺圖像的仿真是近年來計算機(jī)視覺方面的熱門方向。在自動駕駛中,視覺仿真的主要目的,是有針對性地生成一些少見場景,從而免掉到真實路測中去碰運氣的必要。例如,特斯拉常年頭疼的路中央橫著大卡車的場景。但是視覺仿真并不是一個簡單的問題,對于一個復(fù)雜的路口(舊金山的Market Street),利用傳統(tǒng)建模渲染的方案需要設(shè)計師2周的時間。而特斯拉通過AI化的方案,現(xiàn)在只需要5分鐘。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖15▲視覺仿真重建的路口。

具體來說,視覺仿真的先決條件是要準(zhǔn)備自動標(biāo)注的真實世界道路信息 ,和豐富的圖形素材庫。然后依次進(jìn)行以下步驟:
1、路面生成:根據(jù)路沿進(jìn)行路面的填充,包括路面坡度、材料等細(xì)節(jié)信息。
2、車道線生成:將車道線信息在路面上進(jìn)行繪制。
3、植物和樓房生成:在路間和路旁隨機(jī)生成和渲染植物和房屋。生成植物和樓房的目的不僅僅是為了視覺的美觀,它也同時仿真了真實世界中這些物體引起的遮擋效應(yīng)。
4、其他道路元素生成:如信號燈,路牌,并且導(dǎo)入車道和連接關(guān)系。
5、加入車輛和行人等動態(tài)元素。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖16


基礎(chǔ)設(shè)施 Infrastructure

最后,我們簡單說說特斯拉這一系列軟件技術(shù)的基礎(chǔ),就是強(qiáng)大的基礎(chǔ)設(shè)施。特斯拉的超算中心擁有14000個GPU,共30PB的數(shù)據(jù)緩存,每天都有500000個新的視頻流入這些超級計算機(jī)。為了更高效地處理這些數(shù)據(jù)額,特斯拉專門開發(fā)了加速的視頻解碼庫,以及加速讀寫中間特征的文件格式.smol file format。此外,特斯拉還自研了超算中心的芯片Dojo,我們在這里不做講解。

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖17▲視頻模型訓(xùn)練的超算中心

特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點的圖18


總  結(jié)

隨著近兩年特斯拉AI Day的內(nèi)容發(fā)布,我們慢慢看清了特斯拉在自動(輔助)駕駛方向上的技術(shù)版圖,同時我們也看到特斯拉自己也在不停地自我迭代,例如從2D感知,BEV感知,到Occupancy Network。自動駕駛是一個萬里長征,是什么在支撐特斯拉技術(shù)的演進(jìn)呢?我想是三點:視覺算法帶來的全場景理解能力,強(qiáng)大算力支持的模型迭代速度,海量數(shù)據(jù)帶來的泛化性。這不就是深度學(xué)習(xí)時代的三大支柱嗎?
目前,趙行博士的課題組也在做和特斯拉類似的事情,在過去兩年做了一系列視覺為主自動駕駛的工作,簡稱VCAD,Vision-Centric Autonomous Driving(https://vcad-ai.github.io/)。
視覺為中心的自動駕駛VCAD (Vision-Centric Autonomous Driving)是其課題組提出的一個自動駕駛感知技術(shù)范式,同時是一個開源開放的研究課題。這個技術(shù)范式的特點是,主要利用車載的環(huán)視相機(jī)來實現(xiàn)自動駕駛對環(huán)境的感知和認(rèn)知,選擇性地融合其他傳感器作為安全性輔助。
相比過分依賴激光雷達(dá)和高精度地圖的自動駕駛感知技術(shù),以視覺為中心的技術(shù)有更好的泛化能力,各種規(guī)格和價位的車都可以使用。現(xiàn)階段,趙行博士的課題組正在招生。
參考文獻(xiàn)

[1] Wang, Y., Guizilini, V.C., Zhang, T., Wang, Y., Zhao, H. and Solomon, J., 2022, January. Detr3d: 3d object detection from multi-view images via 3d-to-2d queries. In Conference on Robot Learning (pp. 180-191). PMLR.

[2] Li, Z., Wang, W., Li, H., Xie, E., Sima, C., Lu, T., Yu, Q. and Dai, J., 2022. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. arXiv preprint arXiv:2203.17270.

[3] Jiang, Y., Zhang, L., Miao, Z., Zhu, X., Gao, J., Hu, W. and Jiang, Y.G., 2022. PolarFormer: Multi-camera 3D Object Detection with Polar Transformers. arXiv preprint arXiv:2206.15398.

[4] Liu, Y., Wang, T., Zhang, X. and Sun, J., 2022. Petr: Position embedding transformation for multi-view 3d object detection. arXiv preprint arXiv:2203.05625.

[5] Cao, A.Q. and de Charette, R., 2022. MonoScene: Monocular 3D Semantic Scene Completion. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 3991-4001).

[6] Zhao, H., Gao, J., Lan, T., Sun, C., Sapp, B., Varadarajan, B., Shen, Y., Shen, Y., Chai, Y., Schmid, C. and Li, C., 2020. Tnt: Target-driven trajectory prediction. In Conference on Robot Learning 2020, arXiv:2008.08294

[7] InterSim, https://tsinghua-mars-lab.github.io/InterSim/

[8] Mi, L., Zhao, H., Nash, C., Jin, X., Gao, J., Sun, C., Schmid, C., Shavit, N., Chai, Y. and Anguelov, D., 2021. HDMapGen: A hierarchical graph generative model of high definition maps. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4227-4236).

[9] Liu, Y., Wang, Y., Wang, Y. and Zhao, H., 2022. VectorMapNet: End-to-end Vectorized HD Map Learning. arXiv preprint arXiv:2206.08920.

登錄后免費查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項目客服
  • 培訓(xùn)客服
  • 平臺客服

TOP

1