一張圖，看特斯拉 AI Day 的秘密

駕駛哥

2021年8月23日 09:25

前一陣，馬斯克發(fā)推特宣布了特斯拉「AI Day」將會在北美時間 8 月 19 日正式舉行。根據(jù)之前他的推特所說，發(fā)布會將會介紹特斯拉在人工智能領(lǐng)域的軟件和硬件進(jìn)展，尤其在（神經(jīng)網(wǎng)絡(luò)）的訓(xùn)練和預(yù)測推理方面；這次活動的主要目的是招攬相關(guān)人才。

一張圖，看特斯拉 AI Day 的秘密的圖2

這種做法非常的特斯拉，就像 2019 年的「Autonomous Day」和 2020 年的「Battery Day」一樣，估計「AI Day」整個發(fā)布會將會涉及大量的軟件、硬件的技術(shù)細(xì)節(jié)，以此來向外界「秀肌肉」。

而這種技術(shù)「秀肌肉」正是特斯拉招攬頂尖人才的獨(dú)特方式。從某種程度上講，特斯拉在召開類似的發(fā)布會時，面向的群體更多的是行業(yè)領(lǐng)域的專業(yè)人士；用極具野心的規(guī)劃方向和顛覆行業(yè)的研發(fā)成果，去吸引那些因此感到心潮澎湃的人才。

特斯拉的 AI 硬件負(fù)責(zé)人 Peter Bannon 曾在接受采訪時說：「你知道有很多人想要來特斯拉工作的根本原因，僅僅是因為他們想要從事于（FSD）的研發(fā)和相關(guān)工作。」事實上，美國近幾年在統(tǒng)計工程類專業(yè)學(xué)生最想去的公司排名中，特斯拉和 SpaceX 經(jīng)常交替排名第一，其實也佐證了 Peter 所說的這一現(xiàn)象。

（圖/Universum）

盡管此次一如既往的并未泄露什么「AI Day」的信息，但僅通過上面那一張預(yù)熱圖，就讓不少從事 AI 領(lǐng)域的人為止興奮不已。

一張圖，看特斯拉 AI Day 的秘密的圖4

神秘的 Dojo 計算機(jī)芯片

在「AI Day」發(fā)布會的邀請函上，放著一張夸張的芯片圖。

從圖上估測，該芯片才用了非常規(guī)的封裝形式，有多層結(jié)構(gòu)組成具體有：

第一層和第五層銅質(zhì)結(jié)構(gòu)是水冷散熱模塊；
紅色圈出的第二層結(jié)構(gòu)由 5*5 陣列共 25 個芯片組成；
第三層為 25 個陣列核心的 BGA 封裝基板；
第四層和第七層應(yīng)該只是物理承載結(jié)構(gòu)附帶一些導(dǎo)熱屬性；
藍(lán)色圈出的第六層應(yīng)該是功率模塊，以及上面豎著的黑色長條，很可能是穿過散熱與芯片進(jìn)行高速通信的互聯(lián)模塊。

從第二層結(jié)構(gòu)的圓形邊角，以及擁有 25 個芯片結(jié)構(gòu)來看，非常像 Cerebras 公司的 WSE 超大處理器，即才特斯拉可能采用了 TSMC（臺積電）的 InFO-SoW（集成扇出系統(tǒng)）設(shè)計。

所謂 InFo-SoW 設(shè)計，簡單理解來說就是原本一個晶圓（Wafer）能夠「切割」出很多個芯片，做成很多個 CPU/GPU 等類型的芯片（根據(jù)設(shè)計不同，光刻時決定芯片類型），而 InFo-SoW 則是所有的芯片都來自于同一個晶圓，不但不進(jìn)行切割，反而是直接講整個晶圓做成一個超大芯片，實現(xiàn) system on wafer 的設(shè)計。

這么做的好處有三個：極低的通訊延遲和超大的通訊帶寬、能效的提升。

簡單來說，由于 C2C（芯片與芯片之間）的物理距離極短，加上通訊結(jié)構(gòu)可以直接在晶圓上布置，使得所有內(nèi)核都能使用統(tǒng)一的 2D 網(wǎng)狀結(jié)構(gòu)互連，實現(xiàn)了 C2C 通信的超低延遲和高帶寬；以及由于結(jié)構(gòu)優(yōu)勢實現(xiàn)了較低的 PDN 阻抗，實現(xiàn)了能效的提升。

此外，由于是陣列多個小芯片組成，可以通過冗余設(shè)計來避免“良品率”問題，以及實現(xiàn)小芯片處理的靈活性。

舉個形象的例子，特斯拉前一陣公布的超級電腦，一共用了 5760 個 Nvida A100 80GB 的 GPU，那么在這些芯片之間，需要海量的物理結(jié)構(gòu)進(jìn)行連接以實現(xiàn)通訊，不僅耗費(fèi)大量成本，且由于連接結(jié)構(gòu)的帶寬限制成為「木桶短板」，導(dǎo)致整體效率較低，并且還有分散的龐大散熱問題。

這里拿 Cerabraas 的 WSE-2 作為參考對比，一個芯片的核心數(shù)是 Nvdia A100 的 123 倍，芯片緩存為 1000 倍，緩存帶寬為 12733 倍，F(xiàn)abric 結(jié)構(gòu)帶寬則為 45833 倍。

這樣級別的性能怪獸其主要目的，就是為了 AI 的數(shù)據(jù)處理和訓(xùn)練。其一代芯片 WSE，已經(jīng)有多個重量級用戶在使用，比如美國阿貢國家實驗室、勞倫斯利弗莫爾國家實驗室、匹茲堡超級計算中心、愛丁堡大學(xué)的超級計算中心、葛蘭素史克、東京電子器件等。

全球制藥巨頭葛蘭素史克的高級副總裁 Kim Branson 稱贊到，WSE 的超強(qiáng)性能將訓(xùn)練時間減少到之前的 1/80。而在美國最大的科學(xué)與工程研究室阿貢國家實驗室，WSE 芯片被用于癌癥研究，將癌癥模型的實驗周轉(zhuǎn)時間減少到 1/300 還少。

所以不難推斷出，「AI Day」邀請函上面放出的這張圖，應(yīng)該就是馬斯克所謂的 Dojo 超級計算機(jī)的自研芯片。并且頗有意思的是，發(fā)布會的時間是 2021 年 8 月 19 日，而就在剛好一年前的 2020 年 8 月 19 日，馬斯克發(fā)了一條推特說：「Dojo V1.0 還未完成，估計還需要一年的時間。不僅僅是芯片本身的研發(fā)難度，能效和冷卻問題也非常的難。」

之所以說冷卻問題難，是因為根據(jù)標(biāo)準(zhǔn)晶圓一塊是 300 mm 來看，那么特斯拉這塊 Dojo 芯片設(shè)計單個芯片應(yīng)該與 RTX 3090 差不多，至少每個芯片有 280 億 - 320 億個左右的晶體管，單個芯片功耗可達(dá) 250 - 300 W 左右，整體功耗約在 6250 W - 7500 W 左右；并且臺積電也曾說 InFo-SoW 設(shè)計的最高功耗約為 7000 W，同樣印證了這一點(diǎn)。

幾個月后，他又補(bǔ)充道：「Dojo 采用我們自研的芯片和為神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的計算架構(gòu)，而非 GPU 集群。盡管可能是不準(zhǔn)確的，但是我認(rèn)為 Dojo 將會是世界上最棒的超算。」

并且，馬斯克在 2021 年 Q1 財報時也曾說：Dojo 是一臺為神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的超級計算機(jī)。我們認(rèn)為以視頻數(shù)據(jù)處理速度而言，Dojo 將會是全世界效率最高的。

其實馬斯克早在 2019 年「Autonomous Day」就提到過 Dojo，稱 Dojo 是能夠利用海量的視頻（級別）數(shù)據(jù)，做「無人監(jiān)管」的標(biāo)注和訓(xùn)練的超級計算機(jī)。

并且如果認(rèn)真了解過 2019 年「Autonomous Day」發(fā)布會，就會發(fā)現(xiàn)，特斯拉推出 Dojo 超算以及自研芯片，是必然且在規(guī)劃中的事，是特斯拉不得不去做的事。

換句話說，不是特斯拉想要成為人工智能巨頭，而是被逼無奈只能如此。

一張圖，看特斯拉 AI Day 的秘密的圖13

為什么要做 Dojo？

其實這個問題馬斯克曾在推特中回復(fù)過，大致意思為：「只有解決了真實世界的 AI 問題，才能解決自動駕駛問題……除非擁有很強(qiáng)的 AI 能力以及超強(qiáng)算力，否則根本沒辦法……自動駕駛行業(yè)大家都很清楚，無數(shù)的邊緣場景只能通過真實世界的視覺 AI 來解決，因為整個世界的道路就是按照人類的認(rèn)知來建立的……一旦擁有了解決上述問題的 AI 芯片，其他的就只能算是錦上添花。」

其實馬斯克已經(jīng)講的很清楚了，便于理解我來補(bǔ)充一些知識。

自動駕駛目前需要解決的難題，其實最核心和最困難的就是「感知」，換句話說系統(tǒng)對周圍駕駛環(huán)境的感知能力越強(qiáng)，其自動駕駛的綜合能力就越強(qiáng)；也就是從這里，行業(yè)里分成了兩大流派：一個是以特斯拉和 Mobileye（同時也有 Lidar 方案）為首的純視覺方案；另外是其他所有相關(guān)公司，想盡可能加入更多的傳感器融合方案。

這里暫且不去討論究竟哪條路徑是正確的，因為很有可能未來實現(xiàn)殊同同歸的結(jié)果。

但是，無論是哪條路徑，都需要對海量的數(shù)據(jù)進(jìn)行深度學(xué)習(xí)，也就是對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，才有可能實現(xiàn)所謂完全自動駕駛，而且這是唯一途徑。

原因很簡單，自動駕駛的問題，可以理解為處理可能遇到的各種駕駛場景以及做出的操作，那么這個基本是「無限」的；如果用有限的編程方式，那么永遠(yuǎn)無法解決所有可能遇到的問題，或者說以人類的能力，根本無法覆蓋那么多種變化的情況。

早期的各種自動駕駛系統(tǒng)，由于沒有別的途徑，只能用這樣的「死板」方式去研發(fā)軟件，所以其能力非常有限，只能應(yīng)付相對穩(wěn)定和條件限制較多的場景。

而如果想要實現(xiàn)識別各類型的場景，那么就需要這個「軟件」不斷自我適應(yīng)和「進(jìn)化」，這就是利用神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)的原因了。

神經(jīng)網(wǎng)絡(luò)可以簡單理解為通過「仿生學(xué)」模擬人類大腦皮層的神經(jīng)元「溝通學(xué)習(xí)」的方式進(jìn)行處理數(shù)據(jù)，用來實現(xiàn)「類人」的學(xué)習(xí)東西的方式。然而，概念很美好，現(xiàn)實很殘酷。

1943 年 Warren McCulloch 和 Walter Pitts 曾寫過論文講述人工神經(jīng)網(wǎng)絡(luò)該如何工作，并且利用電路造了一個簡單的模型。后來經(jīng)過諸多人的努力和研究發(fā)展，直到 1998 年，斯坦福大學(xué)的 Bernard Widrow 和 Marcian Hoff 才打造出了第一套用于解決實際問題的人工神經(jīng)網(wǎng)絡(luò)。

1956 年，達(dá)特茅斯夏季會議上各路大牛提出了 AI 定義，大大推動了 AI 和人工神經(jīng)網(wǎng)絡(luò)的發(fā)展，也被廣泛人為是 AI 元年。當(dāng)時人們信心滿滿，認(rèn)為不用 20 年就能打造出跟人腦差不多一樣的 AI 系統(tǒng)。結(jié)果在不斷研究中發(fā)現(xiàn)，深度神經(jīng)網(wǎng)絡(luò)的算法太過復(fù)雜，從而無從下手。于是放棄了當(dāng)初「大而全」的目標(biāo)形式，轉(zhuǎn)為以執(zhí)行單一目標(biāo)為方向。

這其中除了因為對人類大腦的認(rèn)識非常膚淺（到現(xiàn)在也沒有進(jìn)步多少），以及人工神經(jīng)網(wǎng)絡(luò)架構(gòu)的局限和軟件算法的局限之外，更多的就是算力問題，也就是受到半導(dǎo)體行業(yè)發(fā)展的限制。

李開復(fù)博士在做他的語音識別功能博士論文時，哪怕在當(dāng)時他所采用語音數(shù)據(jù)庫算非常大的，其實也不過僅有 100 MB，卻花費(fèi)了他導(dǎo)師近 10 萬美刀，在 1988 年相當(dāng)于兩套房子的價格。而如今動輒幾個 PB 的數(shù)據(jù)量，算力成為了限制很多 AI 發(fā)展的瓶頸。

這里補(bǔ)充一個知識：不同的處理器芯片所具備的能力各不相同。

例如 CPU 更多的通用計算，可以理解為總指揮，負(fù)責(zé)邏輯上更線性的計算和判斷；而 GPU 則是專職于圖像處理的芯片，能夠同時吞吐較大的數(shù)據(jù)量和進(jìn)行矩陣計算，加之已經(jīng)是成熟的量產(chǎn)產(chǎn)品，所以被大量應(yīng)用于 AI 學(xué)習(xí)。

而 NPU（Neural Processing Unit，神經(jīng)網(wǎng)絡(luò)處理器）則是從設(shè)計層面就專職為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)優(yōu)化的，像谷歌的 TPU 和特斯拉的 FSD 芯片都屬于 NPU 序列，這類芯片扔掉了類似 GPU 中不需要的功能，僅為神經(jīng)網(wǎng)絡(luò)所需要的數(shù)據(jù)處理形式服務(wù)，其速度和能效要高很多。

但是，這里還需要區(qū)分 ASIC（Application Specific Integrated Circuit，專用集成電路）芯片和 FPGA（Field Programmable Gate Array，可編程邏輯門陣列）芯片，其中 ASIC 芯片就是生產(chǎn)后，其運(yùn)行邏輯和功能就固定了，不能修改，為某項任務(wù)（軟件）而生，能效極高；而 FPGA 則是可以通過軟件改變其運(yùn)行邏輯，為半定制的芯片，可以通過軟件對其進(jìn)行修改，適合進(jìn)行訓(xùn)練和優(yōu)化所用，能效相比 ASIC 芯片低一些。像 TPU 和 FSD 都屬于 ASIC 芯片，而特斯拉此次發(fā)布的 Dojo 芯片就屬于 FPGA 序列。

回過頭來，市場上既沒有符合需求的車載芯片可用，也沒有符合需求的超算來更好的利用這些數(shù)據(jù)，特斯拉想要實現(xiàn)這一切，在當(dāng)時只有自己去做軟件和硬件，當(dāng)年特斯拉在 2016 年立項做 FSD 芯片時，谷歌的專屬 AI 芯片 TPU 才剛剛問世，而車載的 AI 芯片幾乎沒有能用的。

所以，當(dāng)年很可能 FSD 和 Dojo 的立項時間不會差太遠(yuǎn)，只是由于考慮到能耗和需求問題，Dojo 等到 7 nm 的技術(shù)相對成熟后，才開始逐步推進(jìn)。

從另一個維度上去理解 Dojo 的必然性，是從神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的計算量級上去理解。在 2019 年「Autonomous Day」發(fā)布會上，特斯拉其實已經(jīng)明示了會去掉雷達(dá)，走向純視覺，且是視頻級別的數(shù)據(jù)進(jìn)行直接處理。

舉個簡單的例子，一張 1080p 的圖像，以最簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如果不利用激活函數(shù)（tanh、ReLU）進(jìn)行數(shù)據(jù)「優(yōu)化」，其運(yùn)算量大概需要 4 萬多億次；即便采用激活函數(shù)優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)處理，其運(yùn)算量也將達(dá)到 1.3 億多次；而如果以視頻形式處理，一秒按 24 幀計算，也有 24 張圖像，綜合算下來其運(yùn)算量是驚人的。

值得注意的是，自動駕駛收集的數(shù)據(jù)中 95% 左右都是無效數(shù)據(jù)，也就是對神經(jīng)網(wǎng)絡(luò)訓(xùn)練壓根沒用，簡單理解來說就是你每天做幾乎相同的卷子，是得不到任何提升的。

所以即便特斯拉的車輛僅在特定觸發(fā)條件下才會收集部分?jǐn)?shù)據(jù)，但得到的數(shù)據(jù)量依然非常龐大，需要 Dojo 這樣為特斯拉自身軟件優(yōu)化過的定制超算，才能大大提高效率。

此外，前文提到過「無監(jiān)督訓(xùn)練」也是 Dojo 的另一個核心目的，用于大幅度提高訓(xùn)練效率。

在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中，其實海量的研究人員都是「調(diào)參俠」，簡單理解也就是通過不斷調(diào)「權(quán)重」來讓神經(jīng)網(wǎng)絡(luò)判斷越來越準(zhǔn)確，或者是通過人工標(biāo)注各種「正確答案」，讓其學(xué)習(xí)。這就會導(dǎo)致「人」成為了效率的短板，從而致使整個過程的訓(xùn)練速度大幅降低。而如果實現(xiàn)「無監(jiān)督訓(xùn)練」，也就是系統(tǒng)自己通過海量數(shù)據(jù)和以前「學(xué)習(xí)」的結(jié)果進(jìn)行自動標(biāo)注和調(diào)整，那么其效率將會是量子級別的提升。

舉個簡單的例子，谷歌的 Alpha Go 擊敗世界圍棋大師相信很多人都知道，也是一個人工智能在特定領(lǐng)域擊敗人類的標(biāo)志事件。作為對比，Alpha Go 經(jīng)過人工參與調(diào)整和標(biāo)注的訓(xùn)練結(jié)果，經(jīng)歷了幾年時間擊敗了全球高手。而作為無監(jiān)督訓(xùn)練的范例 Alpha Zero，僅用三天時間自己與自己對弈，就擊敗了 Alpha Go Lee，在 21 天打到了 Alpha Master 的水平，并在 40 天超越了所有的舊版本。

總結(jié)起來，如果特斯拉完成了 Dojo 的打造，那么就能夠以驚人的效率用海量的數(shù)據(jù)進(jìn)行訓(xùn)練，解決各種「邊緣場景」的問題，加快自動駕駛系統(tǒng)的成熟和完善；更關(guān)鍵的是，特斯拉對其軟硬件的垂直整合度非常高，不僅不受制于別人，而且能夠以此作為服務(wù)，給外界提供深度學(xué)習(xí)的訓(xùn)練業(yè)務(wù)。

馬斯克曾表示，一旦相對完善了 Dojo，將會開放 Dojo 作為服務(wù)給外界提供訓(xùn)練業(yè)務(wù)，并且 Dojo 能夠承接幾乎所有的機(jī)器學(xué)習(xí)任務(wù)。

這也是為什么馬斯克敢說，未來特斯拉將會是最大的幾家人工智能公司之一。

會有 One More Thing 嗎？

此次特斯拉的「AI Day」，不出意料的話會把 Dojo 芯片作為最重點(diǎn)的內(nèi)容進(jìn)行軟硬件的介紹；當(dāng)然也會覆蓋 FSD Beta 相關(guān)的進(jìn)展介紹，但就目前的信息來看，還極有可能會推出新的基于 7 nm 技術(shù)的 HW 4.0 硬件。

畢竟在 2019 年「Autonomous Day」時，馬斯克就說過 HW 4.0 的研發(fā)已經(jīng)進(jìn)行了一半，所以此次發(fā)布會，也很有可能借此機(jī)會發(fā)布新的車載芯片硬件。

總之，此次特斯拉「AI Day」發(fā)布會，很有可能再次在汽車行業(yè)甚至是 AI 領(lǐng)域掀起一波浪潮，至于到底會不會有更多的驚喜，那就到等那天才能揭曉了。

登錄后免費(fèi)查看全文

立即登錄