視覺為王-小鵬以及特斯拉的自動駕駛方案

駕駛哥

2022年3月8日 10:12

小鵬在自動駕駛方面，賺夠了眼球，也贏得了智能汽車的口號，從其小鵬P7對于泊車功能，記憶泊車以及分享停車路線各方面的一些應用創新，到現在P5基本上算市場上真的買得到帶激光雷達，而且P5可以升級多層記憶泊車，未來還以升級城市NGP可謂立好了自動駕駛標桿的flage，讓人不自覺豎起大拇指。

另外其實特斯拉算是視覺AI主導應用在自動駕駛的主機廠發起者，當然如果深究供應商可能還是mobileye。小鵬算是國內跟進者，小鵬剛出現的時候，特斯拉還就其自動駕駛軟件與其有過對簿公堂，所以我相信不少人跟我一樣好奇這種視覺主導自動駕駛方案以及小鵬和特斯拉的差異點。

例如

小鵬和特斯拉到底有多少個攝像頭，為什么小鵬要比特斯拉多四個攝像頭?這些攝像頭之間的差異是什么？
為什么P7擋風玻璃下面四個攝像頭，而P5卻只有三個了？
為啥特斯拉用1.2M的攝像頭，攝像頭分辨率就是算力的累計
小鵬P5的兩個激光雷達到底有啥用（同理可以推到G9）？城市NGP?多層記憶泊車？

希望通過類似的問題去了解

怎么簡單的去理解AI 圖像技術
自動駕駛的未來以及差異點會在哪里？

關于硬件

智能駕駛當前應用傳感器主要分為以下四類：

超聲波傳感器 ，這是當前最普遍用于泊車的傳感器，就是大家一般在前后保看到的圓圈一樣的，一般是8-12個，用于泊車檢測旁邊是否有障礙物，這個當前非常傳統，成本也非常低了十幾塊一個。

毫米波雷達 ，這個也是當前比較普遍的，用于ACC巡航前面運動物體探測，另外還有放置在后保險杠兩側做類似盲區檢測，后碰撞預警等。

激光雷達 ，這幾年中國資金密集投資地方，由于其高精度，受環境影響較小是當前自動駕駛非常熱門的一個傳感器。

攝像頭 ，其實也是一個非常傳統的零部件特別是手機應用特別多，而基于視覺AI的自動駕駛發展，讓它在汽車上大放異彩，這也是當前手機和互聯網公司相繼殺入汽車行業的一個重要原因，畢竟你手機人臉識別，手機的美顏，抖音的變臉合拍。本質上都和自動駕駛使用的算法類似。汽車上當前使用攝像頭按照位置以及作用大抵分以下幾個。

- 環視攝像頭， 就是整車前后左右四個魚眼攝像頭用來拍攝車輛周邊環境的，這個在國內應用特別廣360環視，以及基于這個技術搞出來的透明底盤等等，基于環視攝像頭的自動泊車在過去幾年非常長的火，當前除了外資合資品牌，基本國內主機廠都配備基于環視的自動泊車輔助，因為在老外眼中自動泊車和輔助是雞肋，我自己來停，第一沒有這個使用習慣，第二鮮有這樣的使用場景。

- 前視攝像頭， 側視攝像頭，后視鏡攝像頭，這種配置基本就是當前智能駕駛用于捕獲環境的攝像頭，前視一般三個，按照檢測距離遠，中，近三個攝像頭；側視的話一般一邊兩個前后方向各一個；后視用來拍攝后部環境，他們的設計原則就是確保行車時車輛環境360度無死角捕捉到，行車方向看的越遠越好。

- 駕駛艙內攝像頭， 布置在駕駛艙內用于監控駕駛艙內情況，用于監控駕駛員情況以及拓展未來更多的智能座艙功能例如駕駛員身份識別。

小鵬汽車的傳感器從P7-P5有變化，其實小鵬G3到P7再到P5，小鵬的傳感器都有一定的變化，當然主要是針對高配的車輛。特斯拉的傳感器比較固定而且中高低配都鮮有變化主要體現其真的基于軟件賺錢的想法。

首先攝像頭，來一一看小鵬和特斯拉攝像頭們

環視攝像頭 ，首先特斯拉是沒有泊車輔助的環視攝像頭的，它借用其他攝像頭來幫助呈現后視等，而國人喜歡搞環視也借助環視搞搞創新。這里我們就可以想到我們媒體老師咔咔一頓測自動泊車發現小鵬以及很多自主品牌車輛都能夠停旁邊空曠的停車位，而我們智能特斯拉只能用超聲波傳感器方案停有車在旁邊的車位，當然聽說特斯拉在測試靠視覺找車位了。

正前方的攝像頭 ，小鵬P7的攝像頭為4個，P5為3個，有消息稱都為2M像素，而特斯拉同樣前置攝像頭3個，總共8個攝像頭，根據system plus的信息它們基于安森美半導體在 2015 年發布的相同的 1.2 M像素圖像傳感器。它們既不是新的也不是高分辨率的，價格低廉，所以特斯拉真心是想多賺硬件的錢。

為什么小鵬P7為四個前置攝像頭，而到了P5卻是3個，其實很明顯P7上多的可能就是基于mobileye來實現AEB等功能的攝像頭模塊，可能P7當時自己的三攝開發沒有信息，到了P5可能解決了取消了，省錢了。

小鵬前置攝像頭2M像素，幀率15/60fps，按HFOV（Horizon Field of View）分為:

HFOV 28：窄視角的前向攝像頭，用于AEB（自動緊急剎車）、ACC（自適應巡航）和前向碰撞預警，按圖來看，這個攝像頭可用于關注150m以上的路面情況；可能是1828*948的分辨率，15fps，用于遠距離的感知；
HFOV 52：主前向攝像頭，用于交通信號燈檢測（會看紅綠燈）、AEB、ACC、前向碰撞預警和車道感知；
HFOV 100：寬視角的前向攝像頭，用于交通信號燈檢測（會看紅綠燈、應該是輔助主前向攝像頭的）、雨量檢測（自動雨刮要靠它）和防加塞（看的角度更廣），猜測應該是60fps的攝像頭

特斯拉前置攝像頭分辨率為 1280×960 1.2Mp。它提供了一個長達 250 米的前方圖像捕捉系統。

側向的攝像頭， 小鵬的分別安裝在左右車身，都是HFOV 100，應該都是1M像素，但是側前方向的攝像頭是60fps，側后方是30fps。這四個攝像頭其實已經可用完成360度覆蓋了，他們的視場還有一點點的重疊。前視側邊攝像頭，用于防加塞和側向車輛的檢測（另一張PPT里直接說就是防加塞攝像頭），分辨率457*237，較低的分辨率可用于獲得更快的響應速度；后視側邊攝像頭，用于ALC（自動變道）、開門預警和盲區檢測。

特斯拉在B柱上布置了側向前視攝像頭，側向后視和小鵬一致。

后向的攝像頭 ，小鵬和特斯拉都在牌照燈位置布置了后視攝像頭，小鵬是一個HFOV 52，應該與前向的主攝像頭一致，2M像素，幀率30fps，用于ALC、盲區檢測和追尾預警。

視覺方案對于環境感知的目的是360度覆蓋，同時注意側重點，例如前視顯然需要長距離。下面為小鵬和特斯拉視覺FOV圖。

特斯拉和小鵬的前視FOV基本一樣，拋開視覺距離不一樣，當然從圖上看特斯拉的前視要遠些，但向后的視覺FOV有些差異，可能為兩家的方案差異點。

小鵬的尾部攝像頭視線長，但窄，而特斯拉采用兩個側向攝像頭覆蓋后視場景，而尾部攝像頭視線短，但寬。這里可以看出特斯拉的尾部攝像頭主要是用作倒車或者泊車影像，而小鵬完全不用管，因為它有另外一套泊車環視攝像頭。

但總的來講視覺360度覆蓋就為汽車自動駕駛AI 視覺處理提供了基礎。

關于軟件

自動駕駛如果了解其軟件工具鏈主要是操作系統，中間件，應用層等組成。而自動駕駛當前大家差異化的地方就是AI 算法模型以及應用。

視覺主導，肯定是基于攝像頭的圖片處理軟件技術，當前的AI算法主要一個重要的應用就是目標物識別，行為預測。拿特斯拉來講其采用CNN用來識別目標，RNN用來不斷根據運動學狀態以及感知結果更新這個地圖和環境，帶有時域特征。這兩個詞聽起來挺高深哈，但是其實也不是什么新技術，我們手機里面都用過。

CNN 提取特征信息-例如識別人臉然后戴上各種裝飾，他第一步需要識別你的人頭在哪里，你的頭，鼻子然后確定好了位置才能進行各種裝飾，自動駕駛中同樣用來識別路面上車輛，行人，自行車，路牌等等。

RNN-具有一種自然的方式來獲取圖像（即視頻）的時間序列并產生最先進的時間預測結果，所以他可以利用上下文信息來預測未來運動例如我們常用的靜態動圖。（不好意思，對于RNN 應用在靜態動圖上Pirate Jack沒有十足的把握，但好像在哪里看過，如果有真行家歡迎指正）。

那么怎么去理解這個AI算法呢？卷積神經網絡 – CNN 解決的第一個問題就是“將復雜問題簡化”，把大量參數降維成少量參數，再做處理。

他能夠有效的將大數據量的圖片降維成小數據量，有效的保留圖片特征，符合圖片處理的原則， 更重要的是：我們在大部分場景下，降維并不會影響結果。比如1000像素的圖片縮小成200像素，并不影響肉眼認出來圖片中是一只貓還是一只狗，機器也是如此。

其實AI算法之類并不是什么最新的東西，建議讀下深度學習三巨頭之一卷積神經網絡之父楊立昆的《科學之路》，AI 算法發展坎坷，其實幾十年之前就在研究和商用，中途幾經周折發展緩慢。

到了現在AI 這么火主要得益于當前互聯網大數據的積累,所以可想而知未來AI技術，對于數據的重要性，對于網絡安全的重要性。

另外一個軟件是路徑規劃。

而當前算法主要是應用層面，所以各家都在宣稱自己算法的時候，其實本質沒有多大的變化，主要是基于自己數據進行訓練模型不同，另外一點是傳感器的融合，目前鮮有前融合的方案，前融合就是把所有的以上講到的傳感器信息先集合統一處理，當前主要采用后融合，例如視覺處理輸出結論，雷達輸出結論，激光雷達輸出結論，然后根據各個傳感器的優缺點進行不同的權重處理。這種方式說的好一點就是冗余。

關于功能

自動駕駛功能，根據容易程度可以劃分為應對三種場景的功能，然后各家不論分的多細，其實都是基于這些場景的微分類和拓展。

低速場景-泊車 ，當前最原始的泊車主要依賴超聲波傳感器，目前都在利用基于魚眼攝像頭為主導的視覺融合方案，尋找車位和輔助泊車，而小鵬利用前置攝像頭的Visual simultaneous localization and mapping (SLAM) 大多數視覺 SLAM 系統的工作方式是通過連續的相機幀跟蹤設定點以三角測量它們的 3D 位置，同時使用這些信息來近似相機姿態。基本上，這些系統的目標是為了導航的目的，將他們的周圍環境與他們自己的位置相關聯。

高速場景 -高速或者高架等封閉道路巡航。這一塊也是當前拓展相對成熟的行業，主要基于高精地圖實施自動進出匝道，以及在封閉道路進行巡航。

這部分主要是規避了，一些復雜的交通參與者，和封閉港口，礦山場景類似。

城市道路-復雜場景 。大家可以看每家自動駕駛的規劃，最終的難點都在這一塊，這里主要是城市道路，情況復雜擁擠而且速度中等，高速都有所覆蓋。最大的難點是cut in插車以及各類鬼探頭，這就可以理解為什么小鵬P5以及G9在前保左右各裝一個激光雷達，其主要就是采用更加準確而且受環境干擾較小的激光雷達來探測前進中可能出現的cut in 以及鬼探頭。

總結

本文主要是基于，硬件，軟件，功能三塊進行視覺自動駕駛方案的寬泛探討。其實很明確，自動駕駛目前應該形成了以視覺AI 為主導，算力為依托，大數據為基數的一整套工具產業鏈條。

所以自動駕駛未來的差異點可能還是會回歸品牌特征和個性的細微體驗差異，而非各種功能。

當然水平有限，權當拋磚引玉，歡迎留言互相學習探討。

參考文章