異構(gòu)計(jì)算,要全面爆發(fā)了?


最近來(lái)自數(shù)據(jù)中心三大廠商英特爾、英偉達(dá)和AMD三大半導(dǎo)體廠商的消息頗多,無(wú)論是AMD收購(gòu)賽靈思,還是英特爾最近透露的Falcon Shores,再加上去年英偉達(dá)所推出的Grace CPU,CPU廠商開(kāi)始研究GPU、GPU廠商開(kāi)始研發(fā)CPU,這些動(dòng)作無(wú)不是釋放一個(gè)明顯的信號(hào),芯片行業(yè)正在向異構(gòu)架構(gòu)整合發(fā)展。而部分國(guó)內(nèi)廠商也嗅到了這個(gè)先機(jī),開(kāi)始往多架構(gòu)產(chǎn)品線布局。異構(gòu)計(jì)算,要全面爆發(fā)了嗎?

 

三大廠商引領(lǐng)異構(gòu)計(jì)算

異構(gòu)計(jì)算(英語(yǔ): Heterogeneouscomputing),又稱為異質(zhì)運(yùn)算,早在80年代中期就產(chǎn)生了,其主要是指使用不同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式。 常見(jiàn)的計(jì)算單元類別包括CPU、GPU、DSP、ASIC、FPGA等。 目前“CPU+GPU”以及“CPU+FPGA”都是受業(yè)界關(guān)注的異構(gòu)計(jì)算平臺(tái)。
 
現(xiàn)在隨著5G、AI、云計(jì)算等新興領(lǐng)域?qū)τ?jì)算量的需求,已經(jīng)超過(guò)了通用CPU的發(fā)展速度,僅通過(guò)提升CPU時(shí)鐘頻率和內(nèi)核數(shù)量而提高計(jì)算能力的傳統(tǒng)方式遇到了散熱和能耗瓶頸,所以需要GPU、FPGA、DSP,現(xiàn)在還多了DPU,這些計(jì)算單元去配合CPU進(jìn)行并行計(jì)算,大家分工協(xié)作,“專人干專事”,以此來(lái)很好的滿足這些計(jì)算需求。
 
而英特爾、AMD、英偉達(dá)三大廠商最近的一些列集中的動(dòng)作更是把異構(gòu)計(jì)算推上了風(fēng)口浪尖:
 
  • 英特爾CPU+GPU新架構(gòu)Falcon Shores

英特爾在最近的投資者會(huì)議中提出了一個(gè)新架構(gòu)——Falcon Shores。這是一款將X86和Xe GPU 整合到一個(gè)Xeon插槽中的新架構(gòu)。該架構(gòu)將利用英特爾埃米時(shí)代工藝技術(shù)、下一代封裝、英特爾正在開(kāi)發(fā)的新型超帶寬共享內(nèi)存以及領(lǐng)先的I/O技術(shù)。他們預(yù)計(jì),相對(duì)于當(dāng)前平臺(tái),F(xiàn)alcon Shores將提供超過(guò)5倍的每瓦性能、超過(guò)5倍的計(jì)算密度增加以及超過(guò)5倍的內(nèi)存容量和帶寬提升。據(jù)路線圖所示,F(xiàn)alcon Shores計(jì)劃于2024年完成。
 
異構(gòu)計(jì)算,要全面爆發(fā)了?的圖1
(圖源:英特爾)
 
目前英特爾已經(jīng)有CPU、FPGA、IPU等產(chǎn)品線,現(xiàn)在也投入了運(yùn)算級(jí)GPU的研發(fā),在Intel 投資日上,英特爾談到了兩款GPU產(chǎn)品,分別是面向游戲玩家的Xe-HPG架構(gòu)Alchemist GPU以及面向數(shù)據(jù)中心的Xe-HPC架構(gòu)GPU芯片Ponte Vecchio,后者是MCM(Multi-chip Module)/chiplet形態(tài)的GPU芯片。而且近日,AMD獨(dú)立GPU等項(xiàng)目的首席SoC架構(gòu)師Rohit Verma也從AMD跳槽到英特爾。英特爾這次GPU的動(dòng)作可以說(shuō)計(jì)劃長(zhǎng)遠(yuǎn)、且非常大。
 
  • 英偉達(dá)Grace CPU

2021年4月,英偉達(dá)公布了其首款代號(hào)為Grace的CPU產(chǎn)品,這是專為人工智能和超算使用需求打造的。該產(chǎn)品采用下一代Arm Neoverse內(nèi)核,在NVIDIA放出的設(shè)計(jì)示圖中,Grace CPU是以MCM(Multi-Chip Module,多芯片模組)形式構(gòu)成,包括CPU、GPU、DPU和帶有ECC的LPDDR5x的新型高帶寬內(nèi)存子系統(tǒng),輔以使用 NVLink 通道技術(shù)。可以說(shuō)是專為連接英偉達(dá)GPU所設(shè)計(jì)。據(jù)悉,Grace預(yù)計(jì)在2023年發(fā)布。
 
異構(gòu)計(jì)算,要全面爆發(fā)了?的圖2
英偉達(dá)的Grace視圖不是一個(gè)芯片,而是多模塊形式(圖源:英偉達(dá))
 
對(duì)于英偉達(dá)來(lái)說(shuō),Grace CPU的研發(fā)將對(duì)其意義深遠(yuǎn),使其不必完全受制于AMD和英特爾在CPU上的的合作關(guān)系,可以說(shuō)是自立自強(qiáng)的一個(gè)表現(xiàn)。因?yàn)榧词笹PU的并行能力不斷提高,但GPU終究在加速運(yùn)算中扮演資料運(yùn)算,仍需搭配CPU執(zhí)行基本的系統(tǒng),以及由CPU 發(fā)號(hào)運(yùn)算的命令,所以GPU和CPU之間的溝通很重要。而x86架構(gòu)的CPU又受限PCIe頻寬的影響,GPU與CPU之間溝通效率很低,無(wú)法滿足巨量數(shù)據(jù)傳輸處理效率需求,此前英偉達(dá)為了解決這個(gè)問(wèn)題,研發(fā)了高速通道技術(shù)NVLink,但合作伙伴只有較冷門(mén)的IBM Power,而市場(chǎng)占有率較大的英特爾和AMD都有自身的加速器,自然也不會(huì)加入英偉達(dá)的支援陣列。
 
所以英偉達(dá)只能另起爐灶,踏上自研CPU之路,借由Arm架構(gòu)的特性,Grace可讓GPU直接存取系統(tǒng)存儲(chǔ)資源,讓CPU更好的處理其他工作。未來(lái)或許能看見(jiàn)更多Arm架構(gòu)CPU搭配NVIDIA GPU的組合應(yīng)用。此舉也昭示了將Arm架構(gòu)應(yīng)用在AI運(yùn)算及超算領(lǐng)域確實(shí)有其發(fā)展機(jī)會(huì),同時(shí)或?qū)⑽嗨欧鳂I(yè)者開(kāi)始進(jìn)行Arm布局,擴(kuò)大Arm架構(gòu)在手機(jī)、嵌入式以外的應(yīng)用。
 
  • AMD收購(gòu)賽靈思,補(bǔ)齊FPGA產(chǎn)品線

近日AMD完成了對(duì)賽靈思的收購(gòu),AMD的CPU和賽靈思的FPGA,未來(lái)也將走向CPU+FPGA的異構(gòu)整合中。因?yàn)椋@條路英特爾已經(jīng)趟過(guò),收購(gòu)了Altera之后,F(xiàn)PGA產(chǎn)品線在英特爾中發(fā)揮的不錯(cuò),2018 年,英特爾宣布將“Skylake”至強(qiáng)SP處理器 Arria 10 FPGA 混合在一個(gè)封裝中的產(chǎn)品。FPGA在現(xiàn)成CPU 上運(yùn)行的編程語(yǔ)言和用于實(shí)現(xiàn)某些功能或軟件堆棧的定制ASIC之間的邊界仍然具有吸引力。
 
總之,收購(gòu)賽靈思之后,AMD 設(shè)計(jì)的每個(gè)計(jì)算設(shè)備,無(wú)論是單芯片還是封裝中的Chiplet集合,都可以在 AMD 認(rèn)為合適的時(shí)候添加一些可編程邏輯。
 
英特爾向GPU擴(kuò)展的動(dòng)作很大,英偉達(dá)研究CPU自立自強(qiáng)的決心也很大,氣勢(shì)正旺的AMD有了FPGA也如虎添翼。隨著三大廠商逐漸補(bǔ)齊產(chǎn)品線,異構(gòu)計(jì)算或?qū)⑦M(jìn)入全面爆發(fā)。未來(lái),異構(gòu)計(jì)算會(huì)越來(lái)越多的取代原來(lái)通用計(jì)算不擅長(zhǎng)的部分。


國(guó)內(nèi)芯片廠商跟進(jìn)

不同于國(guó)際大廠在各方面實(shí)力雄厚,國(guó)內(nèi)廠商難以在短時(shí)間內(nèi)形成如此全的產(chǎn)品線,但是國(guó)產(chǎn)芯片廠商現(xiàn)在已經(jīng)漸漸開(kāi)始選擇通過(guò)投資和合作的方式埋下異構(gòu)的種子。
 
2021年11月,GPU芯片企業(yè)壁仞科技,與IDG資本、字節(jié)跳動(dòng)等共同參與了國(guó)產(chǎn)DPU初創(chuàng)企業(yè)云脈芯聯(lián)數(shù)億元的天使輪投資。據(jù)壁仞科技創(chuàng)始人、董事長(zhǎng)、CEO張文透露,除了DPU之外,從布局整體計(jì)算產(chǎn)業(yè)出發(fā),壁仞科技正在密切關(guān)注國(guó)產(chǎn)CPU的最新發(fā)展,未來(lái)形成CPU+GPU+DPU的全國(guó)產(chǎn)系統(tǒng)級(jí)解決方案。
 
日前,DPU芯片廠商云豹智能與AI芯片廠商燧原科技達(dá)成了戰(zhàn)略合作,共同研發(fā)和提供大規(guī)模高性能AI算力平臺(tái)解決方案。基于云豹智能云霄DPU和燧原科技云燧T20率先推出了DataDirectPathStorage解決方案,為AI訓(xùn)練儲(chǔ)存訪問(wèn)提供更高效的解決方案。在傳統(tǒng)解決方案中,云燧T20訪問(wèn)存儲(chǔ)時(shí),需要將數(shù)據(jù)先搬移到系統(tǒng)內(nèi)存,再由系統(tǒng)內(nèi)存搬移到目標(biāo)設(shè)備。而基于DataDirectPath Storage技術(shù),云燧T20可通過(guò)DPU直接獲得數(shù)據(jù),從而繞過(guò)系統(tǒng)內(nèi)存和CPU,讓數(shù)據(jù)訪問(wèn)速度更快,訪問(wèn)延遲更短,系統(tǒng)開(kāi)銷更小。
 
此外,國(guó)內(nèi)還有異構(gòu)處理器IP提供商華夏芯,通過(guò)自主設(shè)計(jì)的Unity統(tǒng)一指令集架構(gòu)和基于此架構(gòu)的CPU、DSP、GPU、AI專用處理器系列IP與SoC,在提升性能價(jià)格比的同時(shí),顯著降低計(jì)算芯片研發(fā)成本和研發(fā)復(fù)雜度,同時(shí)縮短研發(fā)周期,減少開(kāi)發(fā)人員工作量和降低開(kāi)發(fā)門(mén)檻。據(jù)悉,華夏芯的Unity和英特爾的OneAPI都是為了簡(jiǎn)化編程環(huán)境,但不同的是,OneAPI是面向不同體系架構(gòu)的統(tǒng)一編程環(huán)境,Unity是面向不同微架構(gòu)的統(tǒng)一體系架構(gòu)和統(tǒng)一編程環(huán)境。
 
晶圓廠和封裝廠在異構(gòu)集成上的布局

異構(gòu)計(jì)算的強(qiáng)大只有完備的通用計(jì)算芯片產(chǎn)品線還不夠,還必須要有先進(jìn)的異構(gòu)集成封裝技術(shù)將其巧妙的封裝在一起,才能達(dá)到最終提升算力的目的。 因此,這幾年異構(gòu)集成也重新定義了封裝在芯片產(chǎn)業(yè)鏈中的地位,現(xiàn)在封裝起到一個(gè)重新架構(gòu)的作用。
 
異構(gòu)計(jì)算,要全面爆發(fā)了?的圖3
異構(gòu)集成將是延長(zhǎng)摩爾定律的第4波浪潮
(圖源:ERI summit 2020)
 
過(guò)去,考慮到功耗、性能、成本等因素的影響,芯片的集成首先在單片上進(jìn)行,例如SoC。但現(xiàn)在摩爾定律逐漸來(lái)到極限,在單片上繼續(xù)微縮,成本效益越發(fā)不受控制。而得益于近十年來(lái)先進(jìn)封裝與芯片堆疊技術(shù)的發(fā)展,例如3D堆疊、SiP等,也使得異構(gòu)集成成為了大幅存在可能。下圖顯示了先進(jìn)芯片封裝技術(shù)的趨勢(shì)。
 
異構(gòu)計(jì)算,要全面爆發(fā)了?的圖4
先進(jìn)多芯片(let)封裝技術(shù)的演進(jìn)
(圖源:Cadence)
 
異構(gòu)集成主要是將多個(gè)不同工藝節(jié)點(diǎn)的芯片封裝到一個(gè)封裝內(nèi)部,這些芯片可以是不同種類、不同制造商、甚至是不同材料(Si/SiC/GaN)、不同工藝節(jié)點(diǎn)(如7nm和28nm等搭配),以此來(lái)達(dá)到增強(qiáng)功能和提高性能。新的封裝技術(shù)能夠?qū)?lái)自不同制造工藝流程的小芯片集成到具有多種功能的單個(gè)封裝中。
 
為此,無(wú)論是臺(tái)積電、三星和英特爾這樣的晶圓大廠,還是封裝廠,都在積極布局異構(gòu)集成,在半導(dǎo)體后道技術(shù)上做好集成的工作。先進(jìn)封裝逐漸成為集成電路芯片成品制造產(chǎn)業(yè)的關(guān)鍵工藝技術(shù)之一。
 
  • 三大晶圓廠發(fā)力3D先進(jìn)封裝

目前英特爾、三星電子與臺(tái)積電已具備成熟的2.5D封裝經(jīng)驗(yàn),如較為人熟知的臺(tái)積電的CoWos,三星的I-Cube。接下來(lái)重點(diǎn)看下3D封裝,因?yàn)?D封裝可以說(shuō)將異構(gòu)集成發(fā)揮的淋漓盡致。
 
在3D封裝部分,英特爾已量產(chǎn)Foveros技術(shù),其是使用異構(gòu)堆疊邏輯處理運(yùn)算,可以把各個(gè)邏輯芯片堆疊一起。以往堆疊僅用于存儲(chǔ),現(xiàn)在首度把芯片堆疊從傳統(tǒng)的被動(dòng)硅中介層與堆疊記憶體,擴(kuò)展到高效能邏輯產(chǎn)品,如CPU、GPU與AI 處理器等。此外,英特爾還研發(fā)了三項(xiàng)助于Foveros的技術(shù),分別為Co-EMIB、ODI和MDIO,其中,Co-EMIB 能連接更高的運(yùn)算性能和能力,并能夠讓兩個(gè)或多個(gè)Foveros元件互連,設(shè)計(jì)人員還能夠以非常高的頻寬和非常低的功耗連接模擬器、存儲(chǔ)器和其他模組。ODI技術(shù)則為封裝中小芯片之間的全方位互連通訊提供了更大的靈活性。頂部芯片可以像EMIB 技術(shù)一樣與其他小芯片進(jìn)行通訊,同時(shí)還可以像Foveros 技術(shù)一樣,通過(guò)硅通孔(TSV)與下面的底部裸片進(jìn)行垂直通訊。
 
近日,英特爾為Aurora 超級(jí)計(jì)算機(jī)提供動(dòng)力的處理器 Ponte Vecchio,就是一個(gè)結(jié)合了多個(gè)計(jì)算、緩存、網(wǎng)絡(luò)和內(nèi)存硅片或“小芯片”的封裝。封裝中的每塊tile都是使用不同的工藝技術(shù)制成的,這可以說(shuō)是異構(gòu)集成的一個(gè)鮮明例子。該處理器就使用了Foveros的3D堆疊封裝技術(shù)和Co-EMIB連接技術(shù)。
 
異構(gòu)計(jì)算,要全面爆發(fā)了?的圖5
Ponte Vecchio由使用3D和 2D技術(shù)連接的多個(gè)計(jì)算、緩存、I/O 和內(nèi)存塊組成。資料來(lái)源:英特爾公司。
 
三星的3D封裝技術(shù)是X-Cube,其與英特爾的Foveros 3D堆疊技術(shù)路線大致相同。目前三星已經(jīng)完成了3D堆疊SRAM的驗(yàn)證,此外,三星也提供了一項(xiàng)差異化技術(shù),ISC(集成堆疊電容),這一電容應(yīng)用了已經(jīng)在三星DRAM產(chǎn)品中獲得驗(yàn)證的硅電容結(jié)構(gòu)、材料和工藝,具有1100nF/mm2的電容密度,可以有效提高電源完整性。三星的ISC還提供了多種不同的配置,比如分立型、硅中介層型和多晶圓堆疊型,以滿足客戶不同的結(jié)構(gòu)需求,ISC預(yù)計(jì)將在2022年進(jìn)入量產(chǎn)階段。
 
臺(tái)積電提出了3D多芯片與系統(tǒng)整合芯片(SoIC)的整合方案。SoIC是將不同尺寸、制程技術(shù),以及材料的已知良好裸片直接堆疊在一起。臺(tái)積電表示,相較于傳統(tǒng)使用微凸塊的3D集成電路解決方案,SoIC的凸塊密度與速度高出數(shù)倍,同時(shí)大幅減少功耗。此外,臺(tái)積電也推出了3D Fabric,3DFabric能協(xié)助客戶將多個(gè)邏輯芯片,甚至串聯(lián)高頻寬記憶體(HBM)或異構(gòu)小芯片,例如模擬、I/O,以及射頻模組連結(jié)在一起,聯(lián)合3D SoIC技術(shù)能提供更好的靈活性,透過(guò)穩(wěn)固的芯片互連打造出強(qiáng)大的系統(tǒng)。
 
從上述三大廠商在3D封裝的研究也可以看出,三家都各自提供了異構(gòu)設(shè)計(jì)的方法和工具,來(lái)幫助設(shè)計(jì)者克服多出來(lái)的接口IP或者潛在的功耗增加,以及多芯片互聯(lián)的問(wèn)題等等。
 
  • 封裝廠在先進(jìn)封裝上的努力

在異構(gòu)集成的大勢(shì)之下,封裝廠的作用自然也是重要的一環(huán)。在封裝領(lǐng)域,我國(guó)可謂發(fā)展較早,實(shí)力相對(duì)較強(qiáng)。而系統(tǒng)級(jí)封裝(System inPackage, SiP)能實(shí)現(xiàn)高度集成的微型化系統(tǒng),整合各種感測(cè)器與多樣功能的芯片(例如MCU、存儲(chǔ)器)等在終端產(chǎn)品之微小空間中,是未來(lái)穿戴裝置主流封裝技術(shù)。因此,各家封裝廠也在SiP封裝上大力布局。
 
首先是在SiP封裝布局已有10年之久的日月光、拿下了蘋(píng)果的訂單后,日月光今年將進(jìn)入收割元年,而且日月光今年將SiP列為營(yíng)收中的單獨(dú)要項(xiàng)。法人表示,日月光SiP目前應(yīng)用以Wi-Fi整合芯片及指紋辨識(shí)芯片為主,產(chǎn)能利用率達(dá)滿載。預(yù)估2022年SiP營(yíng)收占日月光整體營(yíng)收比重將達(dá)20%以上。
 
安靠(Amkor)基于襯底的SiP技術(shù)在其韓國(guó)ATK4光州的最大批量制造工廠應(yīng)用。去年11月底,據(jù)報(bào)道,Amkor計(jì)劃在越南Bac Ninh建立最先進(jìn)的智能工廠,新工廠的第一階段將專注于系統(tǒng)級(jí)封裝 (SiP) 組裝和測(cè)試解決方案。據(jù)Amkor透露,一期建設(shè)預(yù)計(jì)將于 2022 年開(kāi)始,根據(jù)預(yù)計(jì)的客戶產(chǎn)品周期,預(yù)計(jì)將于 2023 年下半年開(kāi)始大批量生產(chǎn)。
 
大陸的封裝企業(yè),尤其是中國(guó)封測(cè)三強(qiáng)(長(zhǎng)電、通富、華天)近幾年通過(guò)自主研發(fā)和兼并收購(gòu),正在快速積累先進(jìn)封裝技術(shù)。例如長(zhǎng)電科技旗下長(zhǎng)電韓國(guó)積極布局高階SiP封裝業(yè)務(wù),切入手機(jī)和穿戴式裝置等終端產(chǎn)品;2016年收購(gòu)了AMD兩家專門(mén)從事封裝及測(cè)試業(yè)務(wù)子公司的通富微電,也在做SiP的產(chǎn)品,而且公司2021年上半年2.5D/3D封裝產(chǎn)品技術(shù)已完成立項(xiàng)。
 
上述這些封裝企業(yè)主要是針對(duì)年產(chǎn)量在10KK左右的SiP封裝需求,但除此之外,還有一些專注于細(xì)分領(lǐng)域(如工業(yè)和醫(yī)療等)的異質(zhì)集成SiP封裝廠商,如摩爾精英等,他們主要是解決市場(chǎng)上多樣化、小批量的產(chǎn)品設(shè)計(jì)生產(chǎn)需求。據(jù)了解,摩爾精英已經(jīng)在惠山經(jīng)濟(jì)開(kāi)發(fā)區(qū)建立自有SiP工廠,所面向的客戶主要為年產(chǎn)量1kk左右的產(chǎn)品,摩爾精英SiP一站式服務(wù)提供從電路圖設(shè)計(jì)到量產(chǎn)的各個(gè)環(huán)節(jié)。
 
不過(guò)綜合來(lái)看,IDM與晶圓代工廠商在2.5D、3D等封裝技術(shù)的發(fā)展相對(duì)委外半導(dǎo)體封測(cè)(OSAT)業(yè)者成熟、完整,也具有多年量產(chǎn)經(jīng)驗(yàn),所以專業(yè)封測(cè)廠商不僅要與同業(yè)競(jìng)爭(zhēng),也要與晶圓代工廠一起競(jìng)爭(zhēng)。
 
結(jié)語(yǔ)

來(lái)到2022年,異構(gòu)計(jì)算大戰(zhàn),一觸即發(fā)。 芯片廠商不遺余力的布局CPU、GPU、FPGA、DPU等計(jì)算芯片,放出你爭(zhēng)我趕的時(shí)間軸,代工廠和封裝廠也在鉚足勁向異構(gòu)計(jì)算的先進(jìn)封裝布局,不止這些廠商,EDA廠商、半導(dǎo)體設(shè)備廠商、材料廠商、測(cè)試企業(yè)等都在為異構(gòu)計(jì)算的來(lái)臨做準(zhǔn)備,異構(gòu)計(jì)算的發(fā)展需要全產(chǎn)業(yè)鏈的共同協(xié)作,各產(chǎn)業(yè)鏈成熟起來(lái),才能真正迎來(lái)大爆發(fā)。


登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺(tái)客服

TOP