站在巨人肩上,Arm第一代AI處理器究竟如何?
在過(guò)去的幾年中,多家芯片初創(chuàng)公司一直致力于尋找新的方法來(lái)有效地訓(xùn)練和執(zhí)行神經(jīng)網(wǎng)絡(luò),但是否值得為每一個(gè)創(chuàng)意而重造輪子,這是值得商榷的。
在本周舉行的、一年一度的Hot Chips會(huì)議上,移動(dòng)芯片IP供應(yīng)商Arm也展示了他們的第一代機(jī)器學(xué)習(xí)處理器,在今年晚些時(shí)候,合作伙伴也則可以用上這些IP。
這個(gè)最先被名為“Trillium”的架構(gòu)由一些熟悉的元素與Arm邏輯核心捆綁在一起,對(duì)于那些對(duì)Nvidia Volta GPU提供的TensorCore、深鑒提供的壓縮技術(shù)、擁有可編程特性的FPGA和低功耗的DSP感興趣的人來(lái)說(shuō),這可能意味著很多。換句話說(shuō),Arm可能剛剛“拼湊”出了世界上最好的AI處理器,對(duì)于那些芯片制造商來(lái)說(shuō),這可能會(huì)是很大的麻煩。
正如Arm的技術(shù)總監(jiān)兼杰出工程師Ian Bratt本周在Hot Chips上告訴我們的那樣,作為首次涉足AI處理器初哥,Arm的設(shè)計(jì)目的是盡可能拓寬產(chǎn)品的應(yīng)用范圍,以便能夠滿足服務(wù)器端AI的市場(chǎng)需求,同時(shí)也可以為汽車和物聯(lián)網(wǎng)這些小型設(shè)備提供服務(wù)。
“在第一代機(jī)器學(xué)習(xí)處理器的開(kāi)發(fā)過(guò)程中,我們走了一些彎路,那就是我們將舊框架帶入了一個(gè)新問(wèn)題。我們可以看到GPU,CPU和DSP如何被用于機(jī)器學(xué)習(xí),但我們開(kāi)始看到我們?nèi)绾文軌蚋黠@地利用每一項(xiàng)技術(shù)。”
如下所示,Arm的機(jī)器學(xué)習(xí)架構(gòu)并沒(méi)有什么特別之處,但值得注意的是他們從硬件,壓縮和編譯器中最成功的創(chuàng)新中汲取的東西。
構(gòu)建塊是計(jì)算引擎,每個(gè)(總共16個(gè))是64 KB的SRAM片。MAC引擎(與Nvidia的TensorCore不同)是執(zhí)行卷積的地方,可編程層引擎處理層之間的大部分必要的混排(shuffling)。該架構(gòu)具有DMA引擎,用于與外部存儲(chǔ)器接口通信。Arm自己的Cortex技術(shù)則充當(dāng)控制引擎。
Bratt通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)處理器芯片中最重要的內(nèi)容的理解來(lái)打破各種架構(gòu)特征。保持這些設(shè)備包括靜態(tài)調(diào)度功能,高效卷積,帶寬減少機(jī)制以及可編程性和靈活性在內(nèi)的的多個(gè)“面向未來(lái)”的關(guān)鍵特性。
我們可能很容易忽略第一個(gè)元素——靜態(tài)調(diào)度的價(jià)值 - 但正如Bratt所解釋的那樣,這是芯片整體性能和效率的關(guān)鍵部分。
在推理期間,存儲(chǔ)器訪問(wèn)模式是完全靜態(tài)可分析的,并且可以容易地理解和映射,但是許多設(shè)備沒(méi)有利用這一點(diǎn)。CPU具有復(fù)雜的高速緩存層次結(jié)構(gòu),用于圍繞非確定性存儲(chǔ)器訪問(wèn)進(jìn)行優(yōu)化。但對(duì)于確定性神經(jīng)網(wǎng)絡(luò),它可以提前將所有內(nèi)容放在內(nèi)存中,然后編譯器可以獲取神經(jīng)元并為不同的組件創(chuàng)建命令流(由Arm控制處理器編排)并命中(hit)寄存器以控制這些組件。這個(gè)問(wèn)題的簡(jiǎn)短答案是不需要緩存。另一個(gè)隱藏的效率是流量控制被大大簡(jiǎn)化,意味著更少的能量消耗和更可預(yù)測(cè)的性能。
處理卷積的效率更高。下圖的SRAM突出顯示了編譯器為輸入要素圖和壓縮模型權(quán)重分配一部分資源的方式。每個(gè)計(jì)算引擎都將使用跨計(jì)算引擎交叉的不同特征映射。
Arm的MAC引擎可以做8個(gè)16×16點(diǎn)(dot )的產(chǎn)品。我們之前已經(jīng)討論了為什么這很重要,但是在這些操作中有很多zeroes可以在MAC引擎中檢測(cè)和調(diào)整以避免消耗功耗。
Arm還具有所謂的可編程層引擎,它使用Cortex CPU技術(shù)來(lái)支持非卷積運(yùn)算符以及向量和神經(jīng)網(wǎng)絡(luò)擴(kuò)展。
使用機(jī)器學(xué)習(xí)處理器特征映射壓縮技術(shù)可以獲得更高的效率,這些技術(shù)聽(tīng)起來(lái)類似于DeePhi為CNN壓縮所做的工作。
Bratt表示,Arm的機(jī)器學(xué)習(xí)業(yè)務(wù)部門擁有150名員工,隨著機(jī)器學(xué)習(xí)需求的不斷增長(zhǎng),這一數(shù)字也在不斷增長(zhǎng),而他們也正在將其整合到現(xiàn)有的工作流程和設(shè)置中。他說(shuō),這樣做的目標(biāo)是讓這項(xiàng)工作跨越一系列細(xì)分市場(chǎng)。他表示,為用戶提供一個(gè)擁有所有所需功能的通用平臺(tái)并不簡(jiǎn)單。
消除高速緩存,改善壓縮,使用混合精度算法,并將精簡(jiǎn)的SRAM片上的計(jì)算結(jié)合在一起并將其移植到密集點(diǎn)(dot)產(chǎn)品引擎上,這些操作都使得Arm的IP在市場(chǎng)上引人側(cè)目,并且可以針對(duì)關(guān)鍵工作負(fù)載進(jìn)一步細(xì)化。
與某些AI特定處理器相比,增加高帶寬內(nèi)存(或HMC)可能使其更容易被識(shí)別( recognizable ),但是被授權(quán)者可以更好地了解它在系統(tǒng)中如何協(xié)同工作。Arm工程師真正從生態(tài)系統(tǒng)中汲取了最佳的AI處理器技術(shù),并與開(kāi)源軟件掛鉤,吸引客戶的興趣。
上面的直方圖顯示了Inception V3上的8X8塊,突出了無(wú)損壓縮結(jié)果。采用零/非零濾波方法,顯著減少了神經(jīng)網(wǎng)絡(luò)的大小。weight compression結(jié)果保留在內(nèi)部SRAM中,并且修剪技術(shù)也保持在那里直到被需要。
Arm正在人家智能市場(chǎng)露出其獠牙。
來(lái)源:本文由 公眾號(hào) 半導(dǎo)體行業(yè)觀察(ID:icbank)摘譯自「nextplatform」
工程師必備
- 項(xiàng)目客服
- 培訓(xùn)客服
- 平臺(tái)客服
TOP




















