為什么內存計算會顛覆 AI SoC 開發?

不斷追求更高性能功耗的人工智能 (AI) 算法,推動了特定硬件設計技術的發展,包括用于片上系統 (SoC) 設計的內存計算。最開始,內存計算主要公開出現在期望顛覆行業現狀的半導體初創企業中,但現在,許多行業龍頭也開始底層使用內存計算技術。


使用內存計算的創新設計將顛覆 AI SoC 的格局。首先,我們來看一下初創企業打算使用內存計算來顛覆的AI SoC現狀。自 2015 年以來,很多公司和風投開始大舉投資專門用于 AI 的新型 SoC,促使 AI 硬件取得巨大的飛躍。在最近 5 年,投資開始加速,推動了行業龍頭在 AI 硬件設計方面取得了諸多改進。Intel 的 x86 處理器增加了新的指令,甚至還增加了一個單獨的 NPU 引擎。Nvidia 添加了特定的 Tensor 內核,放棄了 GDDR,轉而實現 HBM 技術以增加內存帶寬。Google 開發了專門用于 AI 算法的特定 ASIC TPU(Tensor 處理單元,圖 1)。但是,即使這些架構不斷改進,投資者仍然希望初創企業能夠開發出具有顛覆性的 AI 技術。


為什么內存計算會顛覆 AI SoC 開發?的圖1

圖 1:Intel、Nvidia 和 Google 正在引入新的硬件架構,以提高 AI 應用的性能功耗比


為什么 AI 計算的顛覆如此有趣?

大舉投資 AI 硬件的三大主要原因如下:1) 產生的數據量呈指數級增長,而 AI 是解決復雜性問題的關鍵技術;2) 使用現有架構(尤其是邊緣)運行 AI 算法的功耗和時間成本仍然過高;3) AI 計算引擎的并行化達到芯片尺寸極限,促使這些系統擴展為多個芯片,而這種擴展僅在云或邊緣云數據中心領域較為實用。


這些新的挑戰共同推動了設計人員不斷探索全新的創新型硬件架構。內存計算被視為最有前景的硬件創新之一,因為它可以提供多數量級的改進。


AI 計算顛覆路徑

初創企業和領先的半導體供應商正在尋找實現 AI 計算加速的潛在途徑。


  • 新型 AI 模型:新型神經網絡被頻頻推出。例如,Google 專注于發布模型的龐大研究團隊推出了 EfficiencyNet。Advanced Brain Research 公司發布了 LMU,Lightelligence 與麻省理工學院合作運行了高效統一神經網絡(Efficient Unitary Neural Network,EUNN)。

  • 集成光子學:一些初創企業正在開發新的集成光子學技術,并將其作為另一種顛覆方式。

  • 壓縮、修剪和其他技術:使用壓縮、修剪及其他技術,讓特定的 AI 功能可在小型高效處理器上運行,例如以低于 100MHz 的頻率運行的 DesignWare? ARC? EM 處理器 IP。

  • 擴展計算系統:行業龍頭已經已經全面生產通過多個晶片、主板或系統來擴展計算系統的解決方案,來應對AI 最復雜、最耗費成本的挑戰。


各企業都在尋求或已經實現這些提高性能的方法。內存計算設計可以建立在這些方法的基礎上,通過多次改進,以及其他開發技術來提高效率。


什么是內存計算?

內存計算是將內存設計在硬件處理元件旁邊或內部的方式。內存計算會利用寄存器文件,處理器內的內存,或者會將 SRAM 或新內存技術的陣列轉換為寄存器文件或計算引擎本身。對于半導體而言,內存計算的基本要素可能會大幅降低 AI 成本,縮短計算時間和降低功耗。


用于內存計算的軟件和硬件

內存計算兼具硬件和軟件元素,其可能會引發一些混淆。從軟件的角度來看,內存計算是指在本地存儲中運行的處理分析。實際上,軟件充分利用了離計算較近的內存?!皟却妗睆挠布慕嵌葋碚f可能有點模糊,可以指本地系統中的 DRAM、SRAM、NAND 閃存和其他類型的內存,而不是通過聯網軟件基礎架構獲取數據的內存。優化軟件以利用更多本地內存為行業進步帶來巨大機遇,工程師團隊將需要繼續在系統層面關注這些創新。然而對于硬件優化而言,內存計算提供了位級創新,能夠更加逼真地模擬人腦,效率達到現行計算的 1000 多倍。


內存計算、近內存計算和模擬計算

內存計算不僅僅是 AI 算法的神奇解決方案,它已經達成各種實現,而且還在通過逐步創新得以發展。寄存器文件和緩存的實現已有數十年之久,近內存計算是在實現改進后取得的進步,并在過去幾年中在新的 SoC 中得到了實現。

AI 算法需要的系數和乘積累加 (MAC) 即便沒有數十億個,也有數百萬個。為了有效地執行所有這些 MAC,現在在 SoC 中設計了用于一系列 MAC 的自定義本地 SRAM,其唯一用途是執行 AI 模型數學,即矩陣/張量數學。為一組 MAC 集成專門的本地 SRAM 以執行 AI 模型數學就是近內存計算的概念。在近內存計算中,本地 SRAM 經過優化,旨在存儲指定 MAC 單元所需的權重和激活值。

在開發內存計算的過程中,下一個進展自然是模擬計算。模擬計算能夠實現更多并行,并且能夠更加逼真地模擬人腦的效率。模擬系統并行運行 MAC 和內存,就系統效率的提升幅度而言,甚至遠遠超過僅靠近內存計算方式得到的效率提升。傳統的 SRAM 可以作為內存模擬計算實現的基礎,新思科技已針對這一用途提供定制服務。


內存技術解決內存計算挑戰

與傳統的 SRAM 相比,MRAM、ReRAM 等新型內存技術可提供更高的密度和非易失性。SRAM 的改進可提高計算和片上內存的利用率。利用率是 AI SoC 設計人員面臨的最關鍵的設計挑戰之一(圖 2)。SoC 設計人員需要專為 AI 數據移動和計算(無論采用任何技術均可)而設計內存子系統。


為什么內存計算會顛覆 AI SoC 開發?的圖2

圖 2:AI SoC 具有極其密集的計算和數據移動,這會影響延遲、面積和性能

帶有內存系統的 AI SoC 設計面臨的關鍵挑戰與需要存儲的 MAC 和系數的數量有關。對于 ResNet-50 而言,需要超過 23M 的權重,可計算為 35 億 MAC 和 105B 的內存訪問。并非所有處理都是同時運行的,因此最大激活值的大小可能是內存子系統的關鍵瓶頸??刂乒こ處熤?,將瓶頸設計作為執行成本最為昂貴的功能,從而提高效率。因此,設計需要確保其內存計算架構能夠有效地處理最大的激活系數層。

滿足這些要求需要大量的片上內存和多層的密集計算。目前正在開發內存設計的獨特技術,以消減延遲、系數體量以及必須在 SoC 周圍處理的數據量。


用于內存計算的 DesignWare IP 解決方案

新思科技為客戶提供廣泛的 IP 選項,用于實現內存計算。針對密度或漏電功耗進行優化的內存編譯器用于為近內存實現開發本地 SRAM,有時,此類實現可以實例化 1000 多個 MAC。MAC 可以利用新思科技基礎內核的一組原始數學函數,其中包括點積(一種常見的 AI 函數)等靈活函數。

此外,新思科技 DesignWare 多端口內存 IP 支持多達 8 個輸入或 8 個輸出,提高了計算架構內的并行性。隨著 AI 變得越來越普遍,多端口內存在設計中更加常見。

新思科技開發了一種專利電路,專門對內存計算創新的支持。圖 3 中所示的 Word All Zero 功能基本上消除了要處理的零。為什么要移動乘數零?Word All Zero 功能顯著降低了所需的計算量,并可將芯片內數據移動的功耗降低了60%以上。

為什么內存計算會顛覆 AI SoC 開發?的圖3

圖 3:除了 Word All Zero 功能外,新思科技 DesignWare 嵌入式內存 IP 還提供多種特性,以解決功耗、面積和延遲挑戰


結語

目前,業內采用內存計算的速度還有待進一步觀察,不過,這項技術的前景,以及全新內存、創新電路和富有創意的設計師帶來的理念實踐,必將成為一項工程壯舉。很多時候,開發解決方案的過程,與獲得的最終結果一樣有趣。

作者:新思科技產品營銷經理 Ron Lowman
登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP