一張圖,看特斯拉 AI Day 的秘密

一張圖,看特斯拉 AI Day 的秘密的圖1


前一陣,馬斯克發(fā)推特宣布了特斯拉「AI Day」將會在北美時間 8 月 19 日正式舉行。根據(jù)之前他的推特所說,發(fā)布會將會介紹特斯拉在人工智能領(lǐng)域的軟件和硬件進(jìn)展,尤其在(神經(jīng)網(wǎng)絡(luò))的訓(xùn)練和預(yù)測推理方面;這次活動的主要目的是招攬相關(guān)人才。

 

一張圖,看特斯拉 AI Day 的秘密的圖2

 

這種做法非常的特斯拉,就像 2019 年的「Autonomous Day」和 2020 年的「Battery Day」一樣,估計「AI Day」整個發(fā)布會將會涉及大量的軟件、硬件的技術(shù)細(xì)節(jié),以此來向外界「秀肌肉」。

 

而這種技術(shù)「秀肌肉」正是特斯拉招攬頂尖人才的獨(dú)特方式。從某種程度上講,特斯拉在召開類似的發(fā)布會時,面向的群體更多的是行業(yè)領(lǐng)域的專業(yè)人士;用極具野心的規(guī)劃方向和顛覆行業(yè)的研發(fā)成果,去吸引那些因此感到心潮澎湃的人才。

 

特斯拉的 AI 硬件負(fù)責(zé)人 Peter Bannon 曾在接受采訪時說:「你知道有很多人想要來特斯拉工作的根本原因,僅僅是因為他們想要從事于(FSD)的研發(fā)和相關(guān)工作。」事實上,美國近幾年在統(tǒng)計工程類專業(yè)學(xué)生最想去的公司排名中,特斯拉和 SpaceX 經(jīng)常交替排名第一,其實也佐證了 Peter 所說的這一現(xiàn)象。

 

一張圖,看特斯拉 AI Day 的秘密的圖3

(圖/Universum)

 

盡管此次一如既往的并未泄露什么「AI Day」的信息,但僅通過上面那一張預(yù)熱圖,就讓不少從事 AI 領(lǐng)域的人為止興奮不已。

 


一張圖,看特斯拉 AI Day 的秘密的圖4


神秘的 Dojo 計算機(jī)芯片

 

在「AI Day」發(fā)布會的邀請函上,放著一張夸張的芯片圖。

 

從圖上估測,該芯片才用了非常規(guī)的封裝形式,有多層結(jié)構(gòu)組成具體有:


  • 第一層和第五層銅質(zhì)結(jié)構(gòu)是水冷散熱模塊;

  • 紅色圈出的第二層結(jié)構(gòu)由 5*5 陣列共 25 個芯片組成;

  • 第三層為 25 個陣列核心的 BGA 封裝基板;

  • 第四層和第七層應(yīng)該只是物理承載結(jié)構(gòu)附帶一些導(dǎo)熱屬性;

  • 藍(lán)色圈出的第六層應(yīng)該是功率模塊,以及上面豎著的黑色長條,很可能是穿過散熱與芯片進(jìn)行高速通信的互聯(lián)模塊。


一張圖,看特斯拉 AI Day 的秘密的圖5

 

從第二層結(jié)構(gòu)的圓形邊角,以及擁有 25 個芯片結(jié)構(gòu)來看,非常像 Cerebras 公司的 WSE 超大處理器,即才特斯拉可能采用了 TSMC(臺積電)的 InFO-SoW(集成扇出系統(tǒng))設(shè)計。

 

一張圖,看特斯拉 AI Day 的秘密的圖6

 

所謂 InFo-SoW 設(shè)計,簡單理解來說就是原本一個晶圓(Wafer)能夠「切割」出很多個芯片,做成很多個 CPU/GPU 等類型的芯片(根據(jù)設(shè)計不同,光刻時決定芯片類型),而 InFo-SoW 則是所有的芯片都來自于同一個晶圓,不但不進(jìn)行切割,反而是直接講整個晶圓做成一個超大芯片,實現(xiàn) system on wafer 的設(shè)計。

 

一張圖,看特斯拉 AI Day 的秘密的圖7


這么做的好處有三個:極低的通訊延遲和超大的通訊帶寬、能效的提升。

 

簡單來說,由于 C2C(芯片與芯片之間)的物理距離極短,加上通訊結(jié)構(gòu)可以直接在晶圓上布置,使得所有內(nèi)核都能使用統(tǒng)一的 2D 網(wǎng)狀結(jié)構(gòu)互連,實現(xiàn)了 C2C 通信的超低延遲和高帶寬;以及由于結(jié)構(gòu)優(yōu)勢實現(xiàn)了較低的 PDN 阻抗,實現(xiàn)了能效的提升。


此外,由于是陣列多個小芯片組成,可以通過冗余設(shè)計來避免“良品率”問題,以及實現(xiàn)小芯片處理的靈活性。

 

舉個形象的例子,特斯拉前一陣公布的超級電腦,一共用了 5760 個 Nvida A100 80GB 的 GPU,那么在這些芯片之間,需要海量的物理結(jié)構(gòu)進(jìn)行連接以實現(xiàn)通訊,不僅耗費(fèi)大量成本,且由于連接結(jié)構(gòu)的帶寬限制成為「木桶短板」,導(dǎo)致整體效率較低,并且還有分散的龐大散熱問題。

 

一張圖,看特斯拉 AI Day 的秘密的圖8


這里拿 Cerabraas 的 WSE-2 作為參考對比,一個芯片的核心數(shù)是 Nvdia A100 的 123 倍,芯片緩存為 1000 倍,緩存帶寬為 12733 倍,F(xiàn)abric 結(jié)構(gòu)帶寬則為 45833 倍。

 

一張圖,看特斯拉 AI Day 的秘密的圖9

 

這樣級別的性能怪獸其主要目的,就是為了 AI 的數(shù)據(jù)處理和訓(xùn)練。其一代芯片 WSE,已經(jīng)有多個重量級用戶在使用,比如美國阿貢國家實驗室、勞倫斯利弗莫爾國家實驗室、匹茲堡超級計算中心、愛丁堡大學(xué)的超級計算中心、葛蘭素史克、東京電子器件等。

 

一張圖,看特斯拉 AI Day 的秘密的圖10


全球制藥巨頭葛蘭素史克的高級副總裁 Kim Branson 稱贊到,WSE 的超強(qiáng)性能將訓(xùn)練時間減少到之前的 1/80。而在美國最大的科學(xué)與工程研究室阿貢國家實驗室,WSE 芯片被用于癌癥研究,將癌癥模型的實驗周轉(zhuǎn)時間減少到 1/300 還少。

 

所以不難推斷出,「AI Day」邀請函上面放出的這張圖,應(yīng)該就是馬斯克所謂的 Dojo 超級計算機(jī)的自研芯片。并且頗有意思的是,發(fā)布會的時間是 2021 年 8 月 19 日,而就在剛好一年前的 2020 年 8 月 19 日,馬斯克發(fā)了一條推特說:「Dojo V1.0 還未完成,估計還需要一年的時間。不僅僅是芯片本身的研發(fā)難度,能效和冷卻問題也非常的難。」

 

一張圖,看特斯拉 AI Day 的秘密的圖11


之所以說冷卻問題難,是因為根據(jù)標(biāo)準(zhǔn)晶圓一塊是 300 mm 來看,那么特斯拉這塊 Dojo 芯片設(shè)計單個芯片應(yīng)該與 RTX 3090 差不多,至少每個芯片有 280 億 - 320 億個左右的晶體管,單個芯片功耗可達(dá) 250 - 300 W 左右,整體功耗約在 6250 W - 7500 W 左右;并且臺積電也曾說 InFo-SoW 設(shè)計的最高功耗約為 7000 W,同樣印證了這一點(diǎn)。

 

幾個月后,他又補(bǔ)充道:「Dojo 采用我們自研的芯片和為神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的計算架構(gòu),而非 GPU 集群。盡管可能是不準(zhǔn)確的,但是我認(rèn)為 Dojo 將會是世界上最棒的超算。」


并且,馬斯克在 2021 年 Q1 財報時也曾說:Dojo 是一臺為神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的超級計算機(jī)。我們認(rèn)為以視頻數(shù)據(jù)處理速度而言,Dojo 將會是全世界效率最高的。

 

一張圖,看特斯拉 AI Day 的秘密的圖12


其實馬斯克早在 2019 年「Autonomous Day」就提到過 Dojo,稱 Dojo 是能夠利用海量的視頻(級別)數(shù)據(jù),做「無人監(jiān)管」的標(biāo)注和訓(xùn)練的超級計算機(jī)。

 

并且如果認(rèn)真了解過 2019 年「Autonomous Day」發(fā)布會,就會發(fā)現(xiàn),特斯拉推出 Dojo 超算以及自研芯片,是必然且在規(guī)劃中的事,是特斯拉不得不去做的事。

 

換句話說,不是特斯拉想要成為人工智能巨頭,而是被逼無奈只能如此。



一張圖,看特斯拉 AI Day 的秘密的圖13


為什么要做 Dojo?

 


其實這個問題馬斯克曾在推特中回復(fù)過,大致意思為:「只有解決了真實世界的 AI 問題,才能解決自動駕駛問題……除非擁有很強(qiáng)的 AI 能力以及超強(qiáng)算力,否則根本沒辦法……自動駕駛行業(yè)大家都很清楚,無數(shù)的邊緣場景只能通過真實世界的視覺 AI 來解決,因為整個世界的道路就是按照人類的認(rèn)知來建立的……一旦擁有了解決上述問題的 AI 芯片,其他的就只能算是錦上添花。」

 

一張圖,看特斯拉 AI Day 的秘密的圖14
一張圖,看特斯拉 AI Day 的秘密的圖15


其實馬斯克已經(jīng)講的很清楚了,便于理解我來補(bǔ)充一些知識。

 

自動駕駛目前需要解決的難題,其實最核心和最困難的就是「感知」,換句話說系統(tǒng)對周圍駕駛環(huán)境的感知能力越強(qiáng),其自動駕駛的綜合能力就越強(qiáng);也就是從這里,行業(yè)里分成了兩大流派:一個是以特斯拉和 Mobileye(同時也有 Lidar 方案)為首的純視覺方案;另外是其他所有相關(guān)公司,想盡可能加入更多的傳感器融合方案。

 

這里暫且不去討論究竟哪條路徑是正確的,因為很有可能未來實現(xiàn)殊同同歸的結(jié)果。

 

但是,無論是哪條路徑,都需要對海量的數(shù)據(jù)進(jìn)行深度學(xué)習(xí),也就是對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,才有可能實現(xiàn)所謂完全自動駕駛,而且這是唯一途徑。

 

原因很簡單,自動駕駛的問題,可以理解為處理可能遇到的各種駕駛場景以及做出的操作,那么這個基本是「無限」的;如果用有限的編程方式,那么永遠(yuǎn)無法解決所有可能遇到的問題,或者說以人類的能力,根本無法覆蓋那么多種變化的情況。

 

早期的各種自動駕駛系統(tǒng),由于沒有別的途徑,只能用這樣的「死板」方式去研發(fā)軟件,所以其能力非常有限,只能應(yīng)付相對穩(wěn)定和條件限制較多的場景。

 

而如果想要實現(xiàn)識別各類型的場景,那么就需要這個「軟件」不斷自我適應(yīng)和「進(jìn)化」,這就是利用神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)的原因了。

 

神經(jīng)網(wǎng)絡(luò)可以簡單理解為通過「仿生學(xué)」模擬人類大腦皮層的神經(jīng)元「溝通學(xué)習(xí)」的方式進(jìn)行處理數(shù)據(jù),用來實現(xiàn)「類人」的學(xué)習(xí)東西的方式。然而,概念很美好,現(xiàn)實很殘酷。

 

一張圖,看特斯拉 AI Day 的秘密的圖16

 

1943 年 Warren McCulloch 和 Walter Pitts 曾寫過論文講述人工神經(jīng)網(wǎng)絡(luò)該如何工作,并且利用電路造了一個簡單的模型。后來經(jīng)過諸多人的努力和研究發(fā)展,直到 1998 年,斯坦福大學(xué)的 Bernard Widrow 和 Marcian Hoff 才打造出了第一套用于解決實際問題的人工神經(jīng)網(wǎng)絡(luò)。

 

一張圖,看特斯拉 AI Day 的秘密的圖17

 

1956 年,達(dá)特茅斯夏季會議上各路大牛提出了 AI 定義,大大推動了 AI 和人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,也被廣泛人為是 AI 元年。當(dāng)時人們信心滿滿,認(rèn)為不用 20 年就能打造出跟人腦差不多一樣的 AI 系統(tǒng)。結(jié)果在不斷研究中發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)的算法太過復(fù)雜,從而無從下手。于是放棄了當(dāng)初「大而全」的目標(biāo)形式,轉(zhuǎn)為以執(zhí)行單一目標(biāo)為方向。

 

一張圖,看特斯拉 AI Day 的秘密的圖18

 

這其中除了因為對人類大腦的認(rèn)識非常膚淺(到現(xiàn)在也沒有進(jìn)步多少),以及人工神經(jīng)網(wǎng)絡(luò)架構(gòu)的局限和軟件算法的局限之外,更多的就是算力問題,也就是受到半導(dǎo)體行業(yè)發(fā)展的限制。

 

李開復(fù)博士在做他的語音識別功能博士論文時,哪怕在當(dāng)時他所采用語音數(shù)據(jù)庫算非常大的,其實也不過僅有 100 MB,卻花費(fèi)了他導(dǎo)師近 10 萬美刀,在 1988 年相當(dāng)于兩套房子的價格。而如今動輒幾個 PB 的數(shù)據(jù)量,算力成為了限制很多 AI 發(fā)展的瓶頸。

 

這里補(bǔ)充一個知識:不同的處理器芯片所具備的能力各不相同

 例如 CPU 更多的通用計算,可以理解為總指揮,負(fù)責(zé)邏輯上更線性的計算和判斷;而 GPU 則是專職于圖像處理的芯片,能夠同時吞吐較大的數(shù)據(jù)量和進(jìn)行矩陣計算,加之已經(jīng)是成熟的量產(chǎn)產(chǎn)品,所以被大量應(yīng)用于 AI 學(xué)習(xí)。  


而 NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理器)則是從設(shè)計層面就專職為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)優(yōu)化的,像谷歌的 TPU 和特斯拉的 FSD 芯片都屬于 NPU 序列,這類芯片扔掉了類似 GPU 中不需要的功能,僅為神經(jīng)網(wǎng)絡(luò)所需要的數(shù)據(jù)處理形式服務(wù),其速度和能效要高很多。

但是,這里還需要區(qū)分 ASIC(Application Specific Integrated Circuit,專用集成電路)芯片和 FPGA(Field Programmable Gate Array,可編程邏輯門陣列)芯片,其中 ASIC 芯片就是生產(chǎn)后,其運(yùn)行邏輯和功能就固定了,不能修改,為某項任務(wù)(軟件)而生,能效極高;而 FPGA 則是可以通過軟件改變其運(yùn)行邏輯,為半定制的芯片,可以通過軟件對其進(jìn)行修改,適合進(jìn)行訓(xùn)練和優(yōu)化所用,能效相比 ASIC 芯片低一些。像 TPU 和 FSD 都屬于 ASIC 芯片,而特斯拉此次發(fā)布的 Dojo 芯片就屬于 FPGA 序列。


回過頭來,市場上既沒有符合需求的車載芯片可用,也沒有符合需求的超算來更好的利用這些數(shù)據(jù),特斯拉想要實現(xiàn)這一切,在當(dāng)時只有自己去做軟件和硬件,當(dāng)年特斯拉在 2016 年立項做 FSD 芯片時,谷歌的專屬 AI 芯片 TPU 才剛剛問世,而車載的 AI 芯片幾乎沒有能用的。

 

所以,當(dāng)年很可能 FSD 和 Dojo 的立項時間不會差太遠(yuǎn),只是由于考慮到能耗和需求問題,Dojo 等到 7 nm 的技術(shù)相對成熟后,才開始逐步推進(jìn)。

 

從另一個維度上去理解 Dojo 的必然性,是從神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的計算量級上去理解。在 2019 年「Autonomous Day」發(fā)布會上,特斯拉其實已經(jīng)明示了會去掉雷達(dá),走向純視覺,且是視頻級別的數(shù)據(jù)進(jìn)行直接處理。

 

舉個簡單的例子,一張 1080p 的圖像,以最簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如果不利用激活函數(shù)(tanh、ReLU)進(jìn)行數(shù)據(jù)「優(yōu)化」,其運(yùn)算量大概需要 4 萬多億次;即便采用激活函數(shù)優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)處理,其運(yùn)算量也將達(dá)到 1.3 億多次;而如果以視頻形式處理,一秒按 24 幀計算,也有 24 張圖像,綜合算下來其運(yùn)算量是驚人的。


一張圖,看特斯拉 AI Day 的秘密的圖19

 

值得注意的是,自動駕駛收集的數(shù)據(jù)中 95% 左右都是無效數(shù)據(jù),也就是對神經(jīng)網(wǎng)絡(luò)訓(xùn)練壓根沒用,簡單理解來說就是你每天做幾乎相同的卷子,是得不到任何提升的。


所以即便特斯拉的車輛僅在特定觸發(fā)條件下才會收集部分?jǐn)?shù)據(jù),但得到的數(shù)據(jù)量依然非常龐大,需要 Dojo 這樣為特斯拉自身軟件優(yōu)化過的定制超算,才能大大提高效率。

 

此外,前文提到過「無監(jiān)督訓(xùn)練」也是 Dojo 的另一個核心目的,用于大幅度提高訓(xùn)練效率。

 

在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,其實海量的研究人員都是「調(diào)參俠」,簡單理解也就是通過不斷調(diào)「權(quán)重」來讓神經(jīng)網(wǎng)絡(luò)判斷越來越準(zhǔn)確,或者是通過人工標(biāo)注各種「正確答案」,讓其學(xué)習(xí)。這就會導(dǎo)致「人」成為了效率的短板,從而致使整個過程的訓(xùn)練速度大幅降低。而如果實現(xiàn)「無監(jiān)督訓(xùn)練」,也就是系統(tǒng)自己通過海量數(shù)據(jù)和以前「學(xué)習(xí)」的結(jié)果進(jìn)行自動標(biāo)注和調(diào)整,那么其效率將會是量子級別的提升。

 

舉個簡單的例子,谷歌的 Alpha Go 擊敗世界圍棋大師相信很多人都知道,也是一個人工智能在特定領(lǐng)域擊敗人類的標(biāo)志事件。作為對比,Alpha Go 經(jīng)過人工參與調(diào)整和標(biāo)注的訓(xùn)練結(jié)果,經(jīng)歷了幾年時間擊敗了全球高手。而作為無監(jiān)督訓(xùn)練的范例 Alpha Zero,僅用三天時間自己與自己對弈,就擊敗了 Alpha Go Lee,在 21 天打到了 Alpha Master 的水平,并在 40 天超越了所有的舊版本。

 

總結(jié)起來,如果特斯拉完成了 Dojo 的打造,那么就能夠以驚人的效率用海量的數(shù)據(jù)進(jìn)行訓(xùn)練,解決各種「邊緣場景」的問題,加快自動駕駛系統(tǒng)的成熟和完善;更關(guān)鍵的是,特斯拉對其軟硬件的垂直整合度非常高,不僅不受制于別人,而且能夠以此作為服務(wù),給外界提供深度學(xué)習(xí)的訓(xùn)練業(yè)務(wù)。

 

一張圖,看特斯拉 AI Day 的秘密的圖20


馬斯克曾表示,一旦相對完善了 Dojo,將會開放 Dojo 作為服務(wù)給外界提供訓(xùn)練業(yè)務(wù),并且 Dojo 能夠承接幾乎所有的機(jī)器學(xué)習(xí)任務(wù)。


一張圖,看特斯拉 AI Day 的秘密的圖21

 

這也是為什么馬斯克敢說,未來特斯拉將會是最大的幾家人工智能公司之一。

 

會有 One More Thing 嗎?

 

此次特斯拉的「AI Day」,不出意料的話會把 Dojo 芯片作為最重點(diǎn)的內(nèi)容進(jìn)行軟硬件的介紹;當(dāng)然也會覆蓋 FSD Beta 相關(guān)的進(jìn)展介紹,但就目前的信息來看,還極有可能會推出新的基于 7 nm 技術(shù)的 HW 4.0 硬件。

 

畢竟在 2019 年「Autonomous Day」時,馬斯克就說過 HW 4.0 的研發(fā)已經(jīng)進(jìn)行了一半,所以此次發(fā)布會,也很有可能借此機(jī)會發(fā)布新的車載芯片硬件。

 

總之,此次特斯拉「AI Day」發(fā)布會,很有可能再次在汽車行業(yè)甚至是 AI 領(lǐng)域掀起一波浪潮,至于到底會不會有更多的驚喜,那就到等那天才能揭曉了。


登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項目客服
  • 培訓(xùn)客服
  • 平臺客服

TOP