特斯拉與毫末智行自動(dòng)駕駛方案對(duì)比分析

駕駛哥

2022年5月7日 10:29

說說汽車界最近比較火的兩個(gè)方案吧，一個(gè)來自于特斯拉，采用純視覺方案，另一個(gè)來自于咱們國(guó)內(nèi)的毫末智行，采用視覺+激光雷達(dá)的方案。兩個(gè)方案里都提到了將多傳感器的數(shù)據(jù)（多個(gè)攝像頭和激光雷達(dá)）由各自傳感器的坐標(biāo)變換到統(tǒng)一的BEV坐標(biāo)，再進(jìn)行特征融合。這其實(shí)屬于多傳感器融合中的前融合范疇，個(gè)人覺得也是多傳感器融合未來的發(fā)展方向。

特斯拉的純視覺方案

Tesla在2021年的AI Day上展示了一個(gè)純視覺的FSD（Full Self Driving）系統(tǒng)。雖然說只能算是L2級(jí)別（駕駛員必須做好隨時(shí)接管車輛的準(zhǔn)備），但如果只是橫向?qū)Ρ萀2級(jí)的自動(dòng)駕駛系統(tǒng)，F(xiàn)SD的表現(xiàn)還是不錯(cuò)的。此外，這個(gè)純視覺的方案集成了近年來深度學(xué)習(xí)領(lǐng)域的很多成功經(jīng)驗(yàn)，在多攝像頭融合方面很有特點(diǎn)，個(gè)人覺得至少在技術(shù)方面還是值得研究一下。

Tesla FSD系統(tǒng)的多攝像頭配置

這里再稍微跑個(gè)題，說一下Tesla AI和Vision方向的負(fù)責(zé)人，Andrej Karpathy。這位小哥1986年出生，2015年在斯坦福大學(xué)獲得博士學(xué)位，師從計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)界的大牛李飛飛教授，研究方向是自然語言處理和計(jì)算機(jī)視覺的交叉任務(wù)以及深度神經(jīng)網(wǎng)絡(luò)在其中的應(yīng)用。馬斯克2016年將這位青年才俊召入麾下，之后讓其負(fù)責(zé)Tesla的AI部門，是FSD這個(gè)純視覺系統(tǒng)在算法方面的總設(shè)計(jì)師。

Andrej在AI Day上的報(bào)告中首先提到，五年前Tesla的視覺系統(tǒng)是先獲得單張圖像上的檢測(cè)結(jié)果，然后將其映射到向量空間（Vector Space）。這個(gè)“向量空間”是報(bào)告中的核心概念之一，我理解其實(shí)它就是環(huán)境中的各種目標(biāo)在世界坐標(biāo)系中的表示空間。比如對(duì)于物體檢測(cè)任務(wù)，目標(biāo)在3D空間中的位置，大小，朝向，速度等描述特性組成了一個(gè)向量，所有目標(biāo)的描述向量組成的空間就是向量空間。視覺感知系統(tǒng)的任務(wù)就是將圖像空間中的信息轉(zhuǎn)化為向量空間中的信息。這可以通過兩種方法來實(shí)現(xiàn)：一是先在圖像空間中完成所有的感知任務(wù)，然后將結(jié)果映射到向量空間，最后融合多攝像頭的結(jié)果；二是先將圖像特征轉(zhuǎn)換到向量空間，然后融合來自多個(gè)攝像頭的特征，最后在向量空間中完成所有的感知任務(wù)。

Andrej舉了兩個(gè)例子，說明為什么第一種方法是不合適的。首先，由于透視投影，圖像中看起來不錯(cuò)的感知結(jié)果在向量空間中精度很差，尤其是遠(yuǎn)距離的區(qū)域。如下圖所示，車道線（藍(lán)色）和道路邊緣（紅色）在投影到向量空間后位置非常不準(zhǔn)，無法用支持自動(dòng)駕駛的應(yīng)用。

圖像空間的感知結(jié)果（上）及其在向量空間中的投影（下）

其次，在多目系統(tǒng)中，由于視野的限制，單個(gè)攝像頭可能無法看到完整的目標(biāo)。比如在下圖的例子中，一輛大貨車出現(xiàn)在了一些攝像頭的視野中，但是很多攝像頭都只看到了目標(biāo)的一部分，因此無法根據(jù)殘缺的信息做出正確的檢測(cè)，因此后續(xù)的融合效果也就無法保證。這其實(shí)是多傳感器決策層融合的一個(gè)一般性問題。

單攝像頭受限的視野

綜合以上分析，圖像空間感知+決策層融合并不是一個(gè)很好的方案。直接在向量空間中完成融合和感知可以有效地解決以上問題，這也是FSD感知系統(tǒng)的核心思路。為了實(shí)現(xiàn)這個(gè)思路，需要解決兩個(gè)重要的問題：一個(gè)是如何將特征從圖像空間變換到特征空間，另一個(gè)是如何得到向量空間中的標(biāo)注數(shù)據(jù)。

特征的空間變換

對(duì)于特征的空間變換問題，一般性的做法就是利用攝像頭的標(biāo)定信息將圖像像素映射到世界坐標(biāo)系。但這是個(gè)病態(tài)問題，需要有一定的約束，自動(dòng)駕駛應(yīng)用中通常采用的是地平面約束，也就是目標(biāo)位于地面，而且地面是水平的。這個(gè)約束太強(qiáng)了，在很多場(chǎng)景下無法滿足。

Tesla的解決方案中核心的有三點(diǎn)。 首先，通過Transformer和Self-Attention的方式建立圖像空間到向量空間的對(duì)應(yīng)關(guān)系，這里向量空間的位置編碼起到了很重要的作用。具體實(shí)現(xiàn)細(xì)節(jié)這里就不展開說了，以后有時(shí)間再單開一篇文章詳細(xì)的介紹。簡(jiǎn)單來理解的話，向量空間中每一個(gè)位置的特征都可以看作圖像所有位置特征的加權(quán)組合，當(dāng)然對(duì)應(yīng)位置的權(quán)重肯定大一些。但是這個(gè)加權(quán)組合的過程通過Self-Attention和空間編碼來自動(dòng)的實(shí)現(xiàn)，不需要手工設(shè)計(jì)，完全根據(jù)需要完成的任務(wù)來進(jìn)行端對(duì)端的學(xué)習(xí)。

其次，在量產(chǎn)應(yīng)用中，每一輛車上攝像頭的標(biāo)定信息都不盡相同，導(dǎo)致輸入數(shù)據(jù)與預(yù)訓(xùn)練的模型不一致。因此這些標(biāo)定信息需要作為額外的輸入提供給神經(jīng)網(wǎng)絡(luò)。簡(jiǎn)單的做法可以將每個(gè)攝像頭的標(biāo)定信息拼接起來，通過MLP編碼后再輸入給神經(jīng)網(wǎng)絡(luò)。但是，一個(gè)更好的做法是將來自不同攝像頭的圖像通過標(biāo)定信息進(jìn)行校正，使不同車輛上對(duì)應(yīng)的攝像頭都輸出一致的圖像。

最后，視頻（多幀）輸入被用來提取時(shí)序信息，以增加輸出結(jié)果的穩(wěn)定性，更好的處理遮擋場(chǎng)景，并且預(yù)測(cè)目標(biāo)的運(yùn)動(dòng)。這部分還有一個(gè)額外的輸入就是車輛自身的運(yùn)動(dòng)信息（可以通過IMU獲得），以支持神經(jīng)網(wǎng)絡(luò)對(duì)齊不同時(shí)間點(diǎn)的特征圖。時(shí)序信息的處理可以采用3D卷積，Transformer或者RNN。FSD的方案中采用的是RNN，以我個(gè)人的經(jīng)驗(yàn)來看，這確實(shí)也是目前在準(zhǔn)確度和計(jì)算量之間平衡度最好的方案。

通過以上這些算法上的改進(jìn)，F(xiàn)SD在向量空間中的輸出質(zhì)量有了很大的提升。在下面的對(duì)比圖中，下方左側(cè)是來自圖像空間感知+決策層融合方案的輸出，而下方右側(cè)上述特征空間變換+向量空間感知融合的方案。

圖像空間感知（左下） vs. 向量空間感知（右下）

向量空間中的標(biāo)注

既然是深度學(xué)習(xí)算法，那么數(shù)據(jù)和標(biāo)注自然就是關(guān)鍵環(huán)節(jié)。圖像空間中的標(biāo)注非常直觀，但是系統(tǒng)最終需要的是在向量空間中的標(biāo)注。Tesla的做法是利用來自多個(gè)攝像頭的圖像重建3D場(chǎng)景，并在3D場(chǎng)景下進(jìn)行標(biāo)注。標(biāo)注者只需要在3D場(chǎng)景中進(jìn)行一次標(biāo)注，就可以實(shí)時(shí)的看到標(biāo)注結(jié)果在各個(gè)圖像中的映射，從而進(jìn)行相應(yīng)的調(diào)整。

3D空間中的標(biāo)注

人工標(biāo)注只是整個(gè)標(biāo)注系統(tǒng)的一部分，為了更快更好的獲得標(biāo)注， 還需要借助自動(dòng)標(biāo)注和模擬器 。自動(dòng)標(biāo)注系統(tǒng)首先基于單攝像頭的圖像生成標(biāo)注結(jié)果，然后通過各種空間和時(shí)間的線索將這些結(jié)果整合起來。形象來說就是各個(gè)攝像頭湊在一起討論出一個(gè)一致的標(biāo)注結(jié)果。除了多個(gè)攝像頭的配合，在路上行駛的多臺(tái)Tesla車輛也可以對(duì)同一個(gè)場(chǎng)景的標(biāo)注進(jìn)行融合改進(jìn)。當(dāng)然這里還需要GPS和IMU傳感器來獲得車輛的位置和姿態(tài)，從而將不同車輛的輸出結(jié)果進(jìn)行空間對(duì)齊。自動(dòng)標(biāo)注可以解決標(biāo)注的效率問題，但是對(duì)于一些罕見的場(chǎng)景，比如報(bào)告中所演示的在高速公路上奔跑的行人，還需要借助模擬器來生成虛擬數(shù)據(jù)。以上所有這些技術(shù)組合起來，才構(gòu)成了Tesla完整的數(shù)據(jù)收集和標(biāo)注系統(tǒng)。

毫末智行的視覺+激光雷達(dá)方案

幾乎是在同期，毫末智行也提出將Transformer引入到其數(shù)據(jù)智能體系MANA中，并逐步應(yīng)用到實(shí)際的道路感知問題，比如障礙物檢測(cè)、車道線檢測(cè)、可行駛區(qū)域分割、交通標(biāo)志檢測(cè)等等。從這一點(diǎn)上就可以看出，量產(chǎn)車企在有了超大數(shù)據(jù)集作為支撐以后，其技術(shù)路線的趨同性。在自動(dòng)駕駛技術(shù)百花齊放的時(shí)代，選擇一條正確的賽道，確立自身技術(shù)的優(yōu)勢(shì)，無論對(duì)于特斯拉還是毫末智行來說都是極其重要的。

在自動(dòng)駕駛技術(shù)的發(fā)展中，一直就對(duì)采用何種傳感器存在爭(zhēng)論。目前爭(zhēng)論的焦點(diǎn)在于是走純視覺路線還是激光雷達(dá)路線。根據(jù)第一性原則，特斯拉采用純視覺方案，這也是基于其百萬量級(jí)的車隊(duì)和百億公里級(jí)別的真實(shí)路況數(shù)據(jù)做出的選擇。采用激光雷達(dá)，主要有兩方面的考慮。第一，數(shù)據(jù)規(guī)模方面的差距其他自動(dòng)駕駛公司很難填補(bǔ)，要獲得競(jìng)爭(zhēng)優(yōu)勢(shì)就必須增加傳感器的感知能力。目前半固態(tài)的激光雷達(dá)成本已經(jīng)降低到幾百美元的級(jí)別，基本可以滿足量產(chǎn)車型的需求。第二，從目前的技術(shù)發(fā)展來看，基于純視覺的技術(shù)可以滿足L2/L2+級(jí)別的應(yīng)用，但是對(duì)L3/4級(jí)的應(yīng)用（比如RoboTaxi）來說，激光雷達(dá)還是必不可少的。

在這種背景下，誰能夠既擁有海量數(shù)據(jù)，又能同時(shí)支持視覺和激光雷達(dá)兩種傳感器，那么無疑會(huì)在競(jìng)爭(zhēng)中占據(jù)先發(fā)的優(yōu)勢(shì)。根據(jù)毫末智行CEO顧維灝的在AI Day上的介紹，MANA系統(tǒng)采用Transformer在底層融合視覺和激光雷達(dá)數(shù)據(jù)，進(jìn)而實(shí)現(xiàn)空間，時(shí)間，傳感器三位一體的深層次感知。

視覺感知模塊

相機(jī)獲取原始數(shù)據(jù)之后，要經(jīng)過ISP（Image Signal Process）數(shù)字處理過程后，才能提供給后端的神經(jīng)網(wǎng)絡(luò)使用。ISP的功能一般來說是為了獲得更好的視覺效果，但是神經(jīng)網(wǎng)絡(luò)其實(shí)并不需要真正的”看到”數(shù)據(jù)，視覺效果只是為人類設(shè)計(jì)的。因此，將ISP作為神經(jīng)網(wǎng)絡(luò)的一層，讓神經(jīng)網(wǎng)絡(luò)根據(jù)后端的任務(wù)來決定ISP的參數(shù)，并對(duì)相機(jī)進(jìn)行校準(zhǔn)，這有利于最大程度上保留原始的圖像信息，也保證采集到的圖像與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練圖像在參數(shù)上盡可能的一致。

處理過后的圖像數(shù)據(jù)被送入主干網(wǎng)絡(luò)（Backbone）。毫末采用的DarkNet類似于多層的卷積殘差網(wǎng)絡(luò)（ResNet），這也是業(yè)界最常用的主干網(wǎng)絡(luò)結(jié)構(gòu)。主干網(wǎng)絡(luò)輸出的特征再送到不同的頭（Head）來完成不同的任務(wù)。這里的任務(wù)分為三大類：全局任務(wù)（Global Task），道路任務(wù)（Road Tasks）和目標(biāo)任務(wù)（Object Tasks）。不同的任務(wù)共用主干網(wǎng)絡(luò)的特征，每個(gè)任務(wù)自己擁有獨(dú)立的Neck網(wǎng)絡(luò)，用來提取針對(duì)不同任務(wù)的特征。這與特斯拉HydraNet的思路是基本一致的。但是，MANA感知系統(tǒng)的特點(diǎn)在于為全局任務(wù)設(shè)計(jì)了一個(gè)提取全局信息的Neck網(wǎng)絡(luò)（Global Context Pooling）。這一點(diǎn)其實(shí)是非常重要的，因?yàn)槿秩蝿?wù)（比如可行駛道路的檢測(cè)）非常依賴于對(duì)場(chǎng)景的理解，而對(duì)場(chǎng)景的理解又依賴于全局信息的提取。

MANA系統(tǒng)的視覺和激光雷達(dá)感知模塊

激光雷達(dá)感知模塊

激光雷達(dá)感知采用的是PointPillar算法，這也是業(yè)界常用的一個(gè)基于點(diǎn)云的三維物體檢測(cè)算法。這個(gè)算法的特點(diǎn)在于將三維信息投影到二維（俯視視圖），在二維數(shù)據(jù)上進(jìn)行類似于視覺任務(wù)中的特征提取和物體檢測(cè)。這種做法的優(yōu)點(diǎn)在于避免了計(jì)算量非常大的三維卷積操作，因此算法的整體速度非常快。PointPillar也是在點(diǎn)云物體檢測(cè)領(lǐng)域第一個(gè)能夠達(dá)到實(shí)時(shí)處理要求的算法。

在MANA之前的版本中，視覺數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)是分別處理的，融合過程在各自輸出結(jié)果的層面上完成，也就是后融合。這樣做可以盡可能的保證兩個(gè)系統(tǒng)之間的獨(dú)立性，并為彼此提供安全冗余。但是，后融合也導(dǎo)致神經(jīng)網(wǎng)絡(luò)無法充分利用兩個(gè)異構(gòu)傳感器之間數(shù)據(jù)的互補(bǔ)性，來學(xué)習(xí)最有價(jià)值的特征。

融合感知模塊

前文提到了一個(gè)三位一體融合的概念，這也是MANA感知系統(tǒng)區(qū)別于其他感知系統(tǒng)的關(guān)鍵之處。正如顧維灝在AI Day上所介紹的，目前大部分的感知系統(tǒng)都存在“時(shí)間上的感知不連續(xù)、空間上的感知碎片化“問題。

MANA系統(tǒng)的融合感知模塊

空間上的不連續(xù)是由多個(gè)同構(gòu)或異構(gòu)傳感器所在的不同空間坐標(biāo)系導(dǎo)致的。對(duì)于同構(gòu)傳感器（比如多個(gè)攝像頭）來說，由于安裝位置和角度不同，導(dǎo)致其可視范圍（FOV）也不盡相同。每個(gè)傳感器的FOV都是有限的，需要把多個(gè)傳感器的數(shù)據(jù)融合在一起，才可以得到車身周圍360度的感知能力，這對(duì)于L2以上級(jí)別的自動(dòng)駕駛系統(tǒng)來說是非常重要的。異構(gòu)傳感器（比如攝像頭和激光雷達(dá)），由于數(shù)據(jù)采集的方式不同，不同傳感器得到的數(shù)據(jù)信息和形式都有很大差別。攝像頭采集到的是圖像數(shù)據(jù)，具有豐富的紋理和語義信息，適合用于物體分類和場(chǎng)景理解；而激光雷達(dá)采集到的是點(diǎn)云數(shù)據(jù)，其空間位置信息非常精確，適合用于感知物體的三維信息和檢測(cè)障礙物。如果系統(tǒng)對(duì)每個(gè)傳感器進(jìn)行單獨(dú)處理，并在處理結(jié)果上進(jìn)行后融合，那么就無法利用多個(gè)傳感器的數(shù)據(jù)中包含的互補(bǔ)信息。

時(shí)間上的不連續(xù)是由于系統(tǒng)按照幀為單位進(jìn)行處理，而兩幀之間的時(shí)間間隔可能會(huì)有幾十毫秒。系統(tǒng)更多地關(guān)注單幀的處理結(jié)果，將時(shí)間上的融合作為后處理的步驟，比如采用單獨(dú)的物體跟蹤模塊來單幀的物體檢測(cè)結(jié)果串聯(lián)起來。這也是一種后融合策略，因此無法充分利用時(shí)序上的有用信息。

那么如何解決這兩個(gè)問題呢？答案是用Transformer做空間和時(shí)間上的前融合。

先說空間前融合。 與Transformer在一般的視覺任務(wù)（比如圖像分類和物體檢測(cè)）中扮演的角色不同，Transformer在空間前融合中的主要作用并不是提取特征，而是進(jìn)行坐標(biāo)系的變換。這與特斯拉做采用的技術(shù)有異曲同工之處，但是毫末進(jìn)一步增加了激光雷達(dá)，進(jìn)行多傳感器（跨模態(tài)）的前融合，也就是Cross-Domain Association模塊。前文介紹了Transformer的基本工作原理，簡(jiǎn)單來說就是計(jì)算輸入數(shù)據(jù)各個(gè)元素之間的相關(guān)性，利用該相關(guān)性進(jìn)行特征提取。坐標(biāo)系轉(zhuǎn)換也可以形式化為類似的流程。比如說需要將來自多個(gè)攝像頭的圖像轉(zhuǎn)換到與激光雷達(dá)點(diǎn)云一致的三維空間坐標(biāo)系，那么系統(tǒng)需要做的是找到三維坐標(biāo)系中每個(gè)點(diǎn)與圖像像素的對(duì)應(yīng)關(guān)系。傳統(tǒng)的基于幾何變換的方法會(huì)將三維坐標(biāo)系中的一個(gè)點(diǎn)映射到圖像坐標(biāo)系中的一個(gè)點(diǎn)，并利用該圖像點(diǎn)周圍一個(gè)小的鄰域（比如3x3像素）來計(jì)算三維點(diǎn)的像素值。而Transformer則會(huì)建立三維點(diǎn)到每個(gè)圖像點(diǎn)的聯(lián)系，并通過自注意力機(jī)制（也就是相關(guān)性計(jì)算）來決定哪些圖像點(diǎn)會(huì)被用來進(jìn)行三維點(diǎn)的像素值。如下圖所示，Transformer首先編碼圖像特征，然后將其解碼到三維空間，而坐標(biāo)系變換已經(jīng)被嵌入到了自注意力的計(jì)算過程中。這種思路打破的傳統(tǒng)方法中對(duì)鄰域的約束，算法可以看到場(chǎng)景中更大的范圍，通過對(duì)場(chǎng)景的理解來進(jìn)行坐標(biāo)變換。同時(shí)，坐標(biāo)變換的過程在神經(jīng)網(wǎng)絡(luò)中進(jìn)行，可以由后端所接的具體任務(wù)來自動(dòng)調(diào)整變換的參數(shù)。因此，這個(gè)變換過程是完全由數(shù)據(jù)驅(qū)動(dòng)的，也是任務(wù)相關(guān)的。在擁有超大數(shù)據(jù)集的前提下，基于Transformer來進(jìn)行空間坐標(biāo)系變換是完全可行的。

采用Transformer進(jìn)行圖像坐標(biāo)系到三維空間坐標(biāo)系的轉(zhuǎn)換

再來說一下時(shí)間上的前融合。 這個(gè)比空間上的前融合更容易理解一些，因?yàn)門ransformer在設(shè)計(jì)之初就是為了處理時(shí)序數(shù)據(jù)的。Feature Queue就是空間融合模塊在時(shí)序上的輸出，可以理解為一個(gè)句子中的多個(gè)單詞，這樣就可以自然的采用Transformer來提取時(shí)序特征。相比特斯拉采用RNN來進(jìn)行時(shí)序融合的方案，Transformer的方案特征提取能力更強(qiáng)，但是在運(yùn)行效率上會(huì)低一些。毫末的方案中也提到了RNN，相信目前也在進(jìn)行兩種方案的對(duì)比，甚至是進(jìn)行某種程度的結(jié)合，以充分利用兩者的優(yōu)勢(shì)。除此之外，由于激光雷達(dá)的加持，毫末采用了SLAM跟蹤以及光流算法，可以快速的完成自身定位和場(chǎng)景感知，更好的保證時(shí)序上的連貫性。

認(rèn)知模塊

除了感知模塊以外，毫末在認(rèn)知模塊，也就是路徑規(guī)劃部分也有一些特別的設(shè)計(jì)。顧維灝在AI Day上介紹到，認(rèn)知模塊與感知模塊最大的不同在于，認(rèn)知模塊沒有確定的“尺子“來衡量其性能的優(yōu)劣，而且認(rèn)知模塊需要考慮的因素比較多，比如安全，舒適和高效，這無疑也增加了認(rèn)知模塊設(shè)計(jì)的難度。針對(duì)這些問題，毫末的解決方案是場(chǎng)景數(shù)字化和大規(guī)模強(qiáng)化學(xué)習(xí)。

場(chǎng)景數(shù)字化，就是將行駛道路上的不同場(chǎng)景進(jìn)行參數(shù)化的表示。參數(shù)化的好處在于可以對(duì)場(chǎng)景進(jìn)行有效地分類，從而進(jìn)行差異化的處理。按照不同的粒度，場(chǎng)景參數(shù)分為宏觀和微觀兩種。宏觀的場(chǎng)景參數(shù)包括天氣，光照，路況等，而微觀的場(chǎng)景參數(shù)則刻畫了自車的行駛速度，與周圍障礙物的關(guān)系等等。

MANA系統(tǒng)中的宏觀場(chǎng)景聚類

MANA系統(tǒng)中的微觀場(chǎng)景（例子是跟車場(chǎng)景）

在將各種場(chǎng)景數(shù)字化了以后，就可以采用人工智能的算法來進(jìn)行學(xué)習(xí)。一般情況下，強(qiáng)化學(xué)習(xí)是完成這個(gè)任務(wù)的一個(gè)比較好的選擇。強(qiáng)化學(xué)習(xí)就是著名的AlphaGo中采用的方法。但是與圍棋不同，自動(dòng)駕駛?cè)蝿?wù)的評(píng)價(jià)標(biāo)準(zhǔn)不是輸和贏，而是駕駛的合理性和安全性。如何對(duì)每一次的駕駛行為進(jìn)行正確的評(píng)價(jià)，是認(rèn)知系統(tǒng)中強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)的關(guān)鍵。毫末采取的策略是模擬人類司機(jī)的行為，這也是最快速有效的方法。當(dāng)然，只有幾個(gè)司機(jī)的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的，采用這種策略的基礎(chǔ)也是海量的人工駕駛數(shù)據(jù)。

登錄后免費(fèi)查看全文

立即登錄