站在巨人肩上，Arm第一代AI處理器究竟如何？

sheshou6453

2018年8月24日 11:49

在過(guò)去的幾年中，多家芯片初創(chuàng)公司一直致力于尋找新的方法來(lái)有效地訓(xùn)練和執(zhí)行神經(jīng)網(wǎng)絡(luò)，但是否值得為每一個(gè)創(chuàng)意而重造輪子，這是值得商榷的。

在本周舉行的、一年一度的Hot Chips會(huì)議上，移動(dòng)芯片IP供應(yīng)商Arm也展示了他們的第一代機(jī)器學(xué)習(xí)處理器，在今年晚些時(shí)候，合作伙伴也則可以用上這些IP。

這個(gè)最先被名為“Trillium”的架構(gòu)由一些熟悉的元素與Arm邏輯核心捆綁在一起，對(duì)于那些對(duì)Nvidia Volta GPU提供的TensorCore、深鑒提供的壓縮技術(shù)、擁有可編程特性的FPGA和低功耗的DSP感興趣的人來(lái)說(shuō)，這可能意味著很多。換句話說(shuō)，Arm可能剛剛“拼湊”出了世界上最好的AI處理器，對(duì)于那些芯片制造商來(lái)說(shuō)，這可能會(huì)是很大的麻煩。

正如Arm的技術(shù)總監(jiān)兼杰出工程師Ian Bratt本周在Hot Chips上告訴我們的那樣，作為首次涉足AI處理器初哥，Arm的設(shè)計(jì)目的是盡可能拓寬產(chǎn)品的應(yīng)用范圍，以便能夠滿足服務(wù)器端AI的市場(chǎng)需求，同時(shí)也可以為汽車和物聯(lián)網(wǎng)這些小型設(shè)備提供服務(wù)。

“在第一代機(jī)器學(xué)習(xí)處理器的開(kāi)發(fā)過(guò)程中，我們走了一些彎路，那就是我們將舊框架帶入了一個(gè)新問(wèn)題。我們可以看到GPU，CPU和DSP如何被用于機(jī)器學(xué)習(xí)，但我們開(kāi)始看到我們?nèi)绾文軌蚋黠@地利用每一項(xiàng)技術(shù)。”

如下所示，Arm的機(jī)器學(xué)習(xí)架構(gòu)并沒(méi)有什么特別之處，但值得注意的是他們從硬件，壓縮和編譯器中最成功的創(chuàng)新中汲取的東西。

站在巨人肩上，Arm第一代AI處理器究竟如何？的圖1

構(gòu)建塊是計(jì)算引擎，每個(gè)（總共16個(gè)）是64 KB的SRAM片。MAC引擎（與Nvidia的TensorCore不同）是執(zhí)行卷積的地方，可編程層引擎處理層之間的大部分必要的混排（shuffling）。該架構(gòu)具有DMA引擎，用于與外部存儲(chǔ)器接口通信。Arm自己的Cortex技術(shù)則充當(dāng)控制引擎。

Bratt通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)處理器芯片中最重要的內(nèi)容的理解來(lái)打破各種架構(gòu)特征。保持這些設(shè)備包括靜態(tài)調(diào)度功能，高效卷積，帶寬減少機(jī)制以及可編程性和靈活性在內(nèi)的的多個(gè)“面向未來(lái)”的關(guān)鍵特性。

我們可能很容易忽略第一個(gè)元素——靜態(tài)調(diào)度的價(jià)值 - 但正如Bratt所解釋的那樣，這是芯片整體性能和效率的關(guān)鍵部分。

在推理期間，存儲(chǔ)器訪問(wèn)模式是完全靜態(tài)可分析的，并且可以容易地理解和映射，但是許多設(shè)備沒(méi)有利用這一點(diǎn)。CPU具有復(fù)雜的高速緩存層次結(jié)構(gòu)，用于圍繞非確定性存儲(chǔ)器訪問(wèn)進(jìn)行優(yōu)化。但對(duì)于確定性神經(jīng)網(wǎng)絡(luò)，它可以提前將所有內(nèi)容放在內(nèi)存中，然后編譯器可以獲取神經(jīng)元并為不同的組件創(chuàng)建命令流（由Arm控制處理器編排）并命中（hit）寄存器以控制這些組件。這個(gè)問(wèn)題的簡(jiǎn)短答案是不需要緩存。另一個(gè)隱藏的效率是流量控制被大大簡(jiǎn)化，意味著更少的能量消耗和更可預(yù)測(cè)的性能。

處理卷積的效率更高。下圖的SRAM突出顯示了編譯器為輸入要素圖和壓縮模型權(quán)重分配一部分資源的方式。每個(gè)計(jì)算引擎都將使用跨計(jì)算引擎交叉的不同特征映射。

站在巨人肩上，Arm第一代AI處理器究竟如何？的圖2

Arm的MAC引擎可以做8個(gè)16×16點(diǎn)（dot ）的產(chǎn)品。我們之前已經(jīng)討論了為什么這很重要，但是在這些操作中有很多zeroes可以在MAC引擎中檢測(cè)和調(diào)整以避免消耗功耗。

站在巨人肩上，Arm第一代AI處理器究竟如何？的圖3

Arm還具有所謂的可編程層引擎，它使用Cortex CPU技術(shù)來(lái)支持非卷積運(yùn)算符以及向量和神經(jīng)網(wǎng)絡(luò)擴(kuò)展。

使用機(jī)器學(xué)習(xí)處理器特征映射壓縮技術(shù)可以獲得更高的效率，這些技術(shù)聽(tīng)起來(lái)類似于DeePhi為CNN壓縮所做的工作。

Bratt表示，Arm的機(jī)器學(xué)習(xí)業(yè)務(wù)部門擁有150名員工，隨著機(jī)器學(xué)習(xí)需求的不斷增長(zhǎng)，這一數(shù)字也在不斷增長(zhǎng)，而他們也正在將其整合到現(xiàn)有的工作流程和設(shè)置中。他說(shuō)，這樣做的目標(biāo)是讓這項(xiàng)工作跨越一系列細(xì)分市場(chǎng)。他表示，為用戶提供一個(gè)擁有所有所需功能的通用平臺(tái)并不簡(jiǎn)單。

消除高速緩存，改善壓縮，使用混合精度算法，并將精簡(jiǎn)的SRAM片上的計(jì)算結(jié)合在一起并將其移植到密集點(diǎn)（dot）產(chǎn)品引擎上，這些操作都使得Arm的IP在市場(chǎng)上引人側(cè)目，并且可以針對(duì)關(guān)鍵工作負(fù)載進(jìn)一步細(xì)化。

與某些AI特定處理器相比，增加高帶寬內(nèi)存（或HMC）可能使其更容易被識(shí)別（ recognizable ），但是被授權(quán)者可以更好地了解它在系統(tǒng)中如何協(xié)同工作。Arm工程師真正從生態(tài)系統(tǒng)中汲取了最佳的AI處理器技術(shù)，并與開(kāi)源軟件掛鉤，吸引客戶的興趣。

站在巨人肩上，Arm第一代AI處理器究竟如何？的圖4

上面的直方圖顯示了Inception V3上的8X8塊，突出了無(wú)損壓縮結(jié)果。采用零/非零濾波方法，顯著減少了神經(jīng)網(wǎng)絡(luò)的大小。weight compression結(jié)果保留在內(nèi)部SRAM中，并且修剪技術(shù)也保持在那里直到被需要。

Arm正在人家智能市場(chǎng)露出其獠牙。

來(lái)源：本文由公眾號(hào) 半導(dǎo)體行業(yè)觀察（ID：icbank）摘譯自「nextplatform」

登錄后免費(fèi)查看全文

立即登錄