異構(gòu)計(jì)算，要全面爆發(fā)了？

半導(dǎo)體材料與工藝設(shè)備

2022年3月9日 15:43

最近來(lái)自數(shù)據(jù)中心三大廠商英特爾、英偉達(dá)和AMD三大半導(dǎo)體廠商的消息頗多，無(wú)論是AMD收購(gòu)賽靈思，還是英特爾最近透露的Falcon Shores，再加上去年英偉達(dá)所推出的Grace CPU，CPU廠商開(kāi)始研究GPU、GPU廠商開(kāi)始研發(fā)CPU，這些動(dòng)作無(wú)不是釋放一個(gè)明顯的信號(hào)，芯片行業(yè)正在向異構(gòu)架構(gòu)整合發(fā)展。而部分國(guó)內(nèi)廠商也嗅到了這個(gè)先機(jī)，開(kāi)始往多架構(gòu)產(chǎn)品線布局。異構(gòu)計(jì)算，要全面爆發(fā)了嗎？

三大廠商引領(lǐng)異構(gòu)計(jì)算

異構(gòu)計(jì)算（英語(yǔ)： Heterogeneouscomputing），又稱為異質(zhì)運(yùn)算，早在80年代中期就產(chǎn)生了，其主要是指使用不同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式。常見(jiàn)的計(jì)算單元類別包括CPU、GPU、DSP、ASIC、FPGA等。目前“CPU+GPU”以及“CPU+FPGA”都是受業(yè)界關(guān)注的異構(gòu)計(jì)算平臺(tái)。

現(xiàn)在隨著5G、AI、云計(jì)算等新興領(lǐng)域?qū)τ?jì)算量的需求，已經(jīng)超過(guò)了通用CPU的發(fā)展速度，僅通過(guò)提升CPU時(shí)鐘頻率和內(nèi)核數(shù)量而提高計(jì)算能力的傳統(tǒng)方式遇到了散熱和能耗瓶頸，所以需要GPU、FPGA、DSP，現(xiàn)在還多了DPU，這些計(jì)算單元去配合CPU進(jìn)行并行計(jì)算，大家分工協(xié)作，“專人干專事”，以此來(lái)很好的滿足這些計(jì)算需求。

而英特爾、AMD、英偉達(dá)三大廠商最近的一些列集中的動(dòng)作更是把異構(gòu)計(jì)算推上了風(fēng)口浪尖：

英特爾CPU+GPU新架構(gòu)Falcon Shores

英特爾在最近的投資者會(huì)議中提出了一個(gè)新架構(gòu)——Falcon Shores。這是一款將X86和Xe GPU 整合到一個(gè)Xeon插槽中的新架構(gòu)。該架構(gòu)將利用英特爾埃米時(shí)代工藝技術(shù)、下一代封裝、英特爾正在開(kāi)發(fā)的新型超帶寬共享內(nèi)存以及領(lǐng)先的I/O技術(shù)。他們預(yù)計(jì)，相對(duì)于當(dāng)前平臺(tái)，F(xiàn)alcon Shores將提供超過(guò)5倍的每瓦性能、超過(guò)5倍的計(jì)算密度增加以及超過(guò)5倍的內(nèi)存容量和帶寬提升。據(jù)路線圖所示，F(xiàn)alcon Shores計(jì)劃于2024年完成。

（圖源：英特爾）

目前英特爾已經(jīng)有CPU、FPGA、IPU等產(chǎn)品線，現(xiàn)在也投入了運(yùn)算級(jí)GPU的研發(fā)，在Intel 投資日上，英特爾談到了兩款GPU產(chǎn)品，分別是面向游戲玩家的Xe-HPG架構(gòu)Alchemist GPU以及面向數(shù)據(jù)中心的Xe-HPC架構(gòu)GPU芯片Ponte Vecchio，后者是MCM（Multi-chip Module）/chiplet形態(tài)的GPU芯片。而且近日，AMD獨(dú)立GPU等項(xiàng)目的首席SoC架構(gòu)師Rohit Verma也從AMD跳槽到英特爾。英特爾這次GPU的動(dòng)作可以說(shuō)計(jì)劃長(zhǎng)遠(yuǎn)、且非常大。

英偉達(dá)Grace CPU

2021年4月，英偉達(dá)公布了其首款代號(hào)為Grace的CPU產(chǎn)品，這是專為人工智能和超算使用需求打造的。該產(chǎn)品采用下一代Arm Neoverse內(nèi)核，在NVIDIA放出的設(shè)計(jì)示圖中，Grace CPU是以MCM（Multi-Chip Module，多芯片模組）形式構(gòu)成，包括CPU、GPU、DPU和帶有ECC的LPDDR5x的新型高帶寬內(nèi)存子系統(tǒng)，輔以使用 NVLink 通道技術(shù)。可以說(shuō)是專為連接英偉達(dá)GPU所設(shè)計(jì)。據(jù)悉，Grace預(yù)計(jì)在2023年發(fā)布。

英偉達(dá)的Grace視圖不是一個(gè)芯片，而是多模塊形式（圖源：英偉達(dá)）

對(duì)于英偉達(dá)來(lái)說(shuō)，Grace CPU的研發(fā)將對(duì)其意義深遠(yuǎn)，使其不必完全受制于AMD和英特爾在CPU上的的合作關(guān)系，可以說(shuō)是自立自強(qiáng)的一個(gè)表現(xiàn)。因?yàn)榧词笹PU的并行能力不斷提高，但GPU終究在加速運(yùn)算中扮演資料運(yùn)算，仍需搭配CPU執(zhí)行基本的系統(tǒng)，以及由CPU 發(fā)號(hào)運(yùn)算的命令，所以GPU和CPU之間的溝通很重要。而x86架構(gòu)的CPU又受限PCIe頻寬的影響，GPU與CPU之間溝通效率很低，無(wú)法滿足巨量數(shù)據(jù)傳輸處理效率需求，此前英偉達(dá)為了解決這個(gè)問(wèn)題，研發(fā)了高速通道技術(shù)NVLink，但合作伙伴只有較冷門(mén)的IBM Power，而市場(chǎng)占有率較大的英特爾和AMD都有自身的加速器，自然也不會(huì)加入英偉達(dá)的支援陣列。

所以英偉達(dá)只能另起爐灶，踏上自研CPU之路，借由Arm架構(gòu)的特性，Grace可讓GPU直接存取系統(tǒng)存儲(chǔ)資源，讓CPU更好的處理其他工作。未來(lái)或許能看見(jiàn)更多Arm架構(gòu)CPU搭配NVIDIA GPU的組合應(yīng)用。此舉也昭示了將Arm架構(gòu)應(yīng)用在AI運(yùn)算及超算領(lǐng)域確實(shí)有其發(fā)展機(jī)會(huì)，同時(shí)或?qū)⑽嗨欧鳂I(yè)者開(kāi)始進(jìn)行Arm布局，擴(kuò)大Arm架構(gòu)在手機(jī)、嵌入式以外的應(yīng)用。

AMD收購(gòu)賽靈思，補(bǔ)齊FPGA產(chǎn)品線

近日AMD完成了對(duì)賽靈思的收購(gòu)，AMD的CPU和賽靈思的FPGA，未來(lái)也將走向CPU+FPGA的異構(gòu)整合中。因?yàn)椋@條路英特爾已經(jīng)趟過(guò)，收購(gòu)了Altera之后，F(xiàn)PGA產(chǎn)品線在英特爾中發(fā)揮的不錯(cuò)，2018 年，英特爾宣布將“Skylake”至強(qiáng)SP處理器 Arria 10 FPGA 混合在一個(gè)封裝中的產(chǎn)品。FPGA在現(xiàn)成CPU 上運(yùn)行的編程語(yǔ)言和用于實(shí)現(xiàn)某些功能或軟件堆棧的定制ASIC之間的邊界仍然具有吸引力。

總之，收購(gòu)賽靈思之后，AMD 設(shè)計(jì)的每個(gè)計(jì)算設(shè)備，無(wú)論是單芯片還是封裝中的Chiplet集合，都可以在 AMD 認(rèn)為合適的時(shí)候添加一些可編程邏輯。

英特爾向GPU擴(kuò)展的動(dòng)作很大，英偉達(dá)研究CPU自立自強(qiáng)的決心也很大，氣勢(shì)正旺的AMD有了FPGA也如虎添翼。隨著三大廠商逐漸補(bǔ)齊產(chǎn)品線，異構(gòu)計(jì)算或?qū)⑦M(jìn)入全面爆發(fā)。未來(lái)，異構(gòu)計(jì)算會(huì)越來(lái)越多的取代原來(lái)通用計(jì)算不擅長(zhǎng)的部分。

國(guó)內(nèi)芯片廠商跟進(jìn)

不同于國(guó)際大廠在各方面實(shí)力雄厚，國(guó)內(nèi)廠商難以在短時(shí)間內(nèi)形成如此全的產(chǎn)品線，但是國(guó)產(chǎn)芯片廠商現(xiàn)在已經(jīng)漸漸開(kāi)始選擇通過(guò)投資和合作的方式埋下異構(gòu)的種子。

2021年11月，GPU芯片企業(yè)壁仞科技，與IDG資本、字節(jié)跳動(dòng)等共同參與了國(guó)產(chǎn)DPU初創(chuàng)企業(yè)云脈芯聯(lián)數(shù)億元的天使輪投資。據(jù)壁仞科技創(chuàng)始人、董事長(zhǎng)、CEO張文透露，除了DPU之外，從布局整體計(jì)算產(chǎn)業(yè)出發(fā)，壁仞科技正在密切關(guān)注國(guó)產(chǎn)CPU的最新發(fā)展，未來(lái)形成CPU+GPU+DPU的全國(guó)產(chǎn)系統(tǒng)級(jí)解決方案。

日前，DPU芯片廠商云豹智能與AI芯片廠商燧原科技達(dá)成了戰(zhàn)略合作，共同研發(fā)和提供大規(guī)模高性能AI算力平臺(tái)解決方案。基于云豹智能云霄DPU和燧原科技云燧T20率先推出了DataDirectPathStorage解決方案，為AI訓(xùn)練儲(chǔ)存訪問(wèn)提供更高效的解決方案。在傳統(tǒng)解決方案中，云燧T20訪問(wèn)存儲(chǔ)時(shí)，需要將數(shù)據(jù)先搬移到系統(tǒng)內(nèi)存，再由系統(tǒng)內(nèi)存搬移到目標(biāo)設(shè)備。而基于DataDirectPath Storage技術(shù)，云燧T20可通過(guò)DPU直接獲得數(shù)據(jù)，從而繞過(guò)系統(tǒng)內(nèi)存和CPU，讓數(shù)據(jù)訪問(wèn)速度更快，訪問(wèn)延遲更短，系統(tǒng)開(kāi)銷更小。

此外，國(guó)內(nèi)還有異構(gòu)處理器IP提供商華夏芯，通過(guò)自主設(shè)計(jì)的Unity統(tǒng)一指令集架構(gòu)和基于此架構(gòu)的CPU、DSP、GPU、AI專用處理器系列IP與SoC，在提升性能價(jià)格比的同時(shí)，顯著降低計(jì)算芯片研發(fā)成本和研發(fā)復(fù)雜度，同時(shí)縮短研發(fā)周期，減少開(kāi)發(fā)人員工作量和降低開(kāi)發(fā)門(mén)檻。據(jù)悉，華夏芯的Unity和英特爾的OneAPI都是為了簡(jiǎn)化編程環(huán)境，但不同的是，OneAPI是面向不同體系架構(gòu)的統(tǒng)一編程環(huán)境，Unity是面向不同微架構(gòu)的統(tǒng)一體系架構(gòu)和統(tǒng)一編程環(huán)境。

晶圓廠和封裝廠在異構(gòu)集成上的布局

異構(gòu)計(jì)算的強(qiáng)大只有完備的通用計(jì)算芯片產(chǎn)品線還不夠，還必須要有先進(jìn)的異構(gòu)集成封裝技術(shù)將其巧妙的封裝在一起，才能達(dá)到最終提升算力的目的。因此，這幾年異構(gòu)集成也重新定義了封裝在芯片產(chǎn)業(yè)鏈中的地位，現(xiàn)在封裝起到一個(gè)重新架構(gòu)的作用。

異構(gòu)集成將是延長(zhǎng)摩爾定律的第4波浪潮

（圖源：ERI summit 2020）

過(guò)去，考慮到功耗、性能、成本等因素的影響，芯片的集成首先在單片上進(jìn)行，例如SoC。但現(xiàn)在摩爾定律逐漸來(lái)到極限，在單片上繼續(xù)微縮，成本效益越發(fā)不受控制。而得益于近十年來(lái)先進(jìn)封裝與芯片堆疊技術(shù)的發(fā)展，例如3D堆疊、SiP等，也使得異構(gòu)集成成為了大幅存在可能。下圖顯示了先進(jìn)芯片封裝技術(shù)的趨勢(shì)。

先進(jìn)多芯片(let)封裝技術(shù)的演進(jìn)

（圖源：Cadence）

異構(gòu)集成主要是將多個(gè)不同工藝節(jié)點(diǎn)的芯片封裝到一個(gè)封裝內(nèi)部，這些芯片可以是不同種類、不同制造商、甚至是不同材料（Si/SiC/GaN）、不同工藝節(jié)點(diǎn)（如7nm和28nm等搭配），以此來(lái)達(dá)到增強(qiáng)功能和提高性能。新的封裝技術(shù)能夠?qū)?lái)自不同制造工藝流程的小芯片集成到具有多種功能的單個(gè)封裝中。

為此，無(wú)論是臺(tái)積電、三星和英特爾這樣的晶圓大廠，還是封裝廠，都在積極布局異構(gòu)集成，在半導(dǎo)體后道技術(shù)上做好集成的工作。先進(jìn)封裝逐漸成為集成電路芯片成品制造產(chǎn)業(yè)的關(guān)鍵工藝技術(shù)之一。

三大晶圓廠發(fā)力3D先進(jìn)封裝

目前英特爾、三星電子與臺(tái)積電已具備成熟的2.5D封裝經(jīng)驗(yàn)，如較為人熟知的臺(tái)積電的CoWos，三星的I-Cube。接下來(lái)重點(diǎn)看下3D封裝，因?yàn)?D封裝可以說(shuō)將異構(gòu)集成發(fā)揮的淋漓盡致。

在3D封裝部分，英特爾已量產(chǎn)Foveros技術(shù)，其是使用異構(gòu)堆疊邏輯處理運(yùn)算，可以把各個(gè)邏輯芯片堆疊一起。以往堆疊僅用于存儲(chǔ)，現(xiàn)在首度把芯片堆疊從傳統(tǒng)的被動(dòng)硅中介層與堆疊記憶體，擴(kuò)展到高效能邏輯產(chǎn)品，如CPU、GPU與AI 處理器等。此外，英特爾還研發(fā)了三項(xiàng)助于Foveros的技術(shù)，分別為Co-EMIB、ODI和MDIO，其中，Co-EMIB 能連接更高的運(yùn)算性能和能力，并能夠讓兩個(gè)或多個(gè)Foveros元件互連，設(shè)計(jì)人員還能夠以非常高的頻寬和非常低的功耗連接模擬器、存儲(chǔ)器和其他模組。ODI技術(shù)則為封裝中小芯片之間的全方位互連通訊提供了更大的靈活性。頂部芯片可以像EMIB 技術(shù)一樣與其他小芯片進(jìn)行通訊，同時(shí)還可以像Foveros 技術(shù)一樣，通過(guò)硅通孔（TSV）與下面的底部裸片進(jìn)行垂直通訊。

近日，英特爾為Aurora 超級(jí)計(jì)算機(jī)提供動(dòng)力的處理器 Ponte Vecchio，就是一個(gè)結(jié)合了多個(gè)計(jì)算、緩存、網(wǎng)絡(luò)和內(nèi)存硅片或“小芯片”的封裝。封裝中的每塊tile都是使用不同的工藝技術(shù)制成的，這可以說(shuō)是異構(gòu)集成的一個(gè)鮮明例子。該處理器就使用了Foveros的3D堆疊封裝技術(shù)和Co-EMIB連接技術(shù)。

Ponte Vecchio由使用3D和 2D技術(shù)連接的多個(gè)計(jì)算、緩存、I/O 和內(nèi)存塊組成。資料來(lái)源：英特爾公司。

三星的3D封裝技術(shù)是X-Cube，其與英特爾的Foveros 3D堆疊技術(shù)路線大致相同。目前三星已經(jīng)完成了3D堆疊SRAM的驗(yàn)證，此外，三星也提供了一項(xiàng)差異化技術(shù)，ISC（集成堆疊電容），這一電容應(yīng)用了已經(jīng)在三星DRAM產(chǎn)品中獲得驗(yàn)證的硅電容結(jié)構(gòu)、材料和工藝，具有1100nF/mm2的電容密度，可以有效提高電源完整性。三星的ISC還提供了多種不同的配置，比如分立型、硅中介層型和多晶圓堆疊型，以滿足客戶不同的結(jié)構(gòu)需求，ISC預(yù)計(jì)將在2022年進(jìn)入量產(chǎn)階段。

臺(tái)積電提出了3D多芯片與系統(tǒng)整合芯片（SoIC）的整合方案。SoIC是將不同尺寸、制程技術(shù)，以及材料的已知良好裸片直接堆疊在一起。臺(tái)積電表示，相較于傳統(tǒng)使用微凸塊的3D集成電路解決方案，SoIC的凸塊密度與速度高出數(shù)倍，同時(shí)大幅減少功耗。此外，臺(tái)積電也推出了3D Fabric，3DFabric能協(xié)助客戶將多個(gè)邏輯芯片，甚至串聯(lián)高頻寬記憶體（HBM）或異構(gòu)小芯片，例如模擬、I/O，以及射頻模組連結(jié)在一起，聯(lián)合3D SoIC技術(shù)能提供更好的靈活性，透過(guò)穩(wěn)固的芯片互連打造出強(qiáng)大的系統(tǒng)。

從上述三大廠商在3D封裝的研究也可以看出，三家都各自提供了異構(gòu)設(shè)計(jì)的方法和工具，來(lái)幫助設(shè)計(jì)者克服多出來(lái)的接口IP或者潛在的功耗增加，以及多芯片互聯(lián)的問(wèn)題等等。

封裝廠在先進(jìn)封裝上的努力

在異構(gòu)集成的大勢(shì)之下，封裝廠的作用自然也是重要的一環(huán)。在封裝領(lǐng)域，我國(guó)可謂發(fā)展較早，實(shí)力相對(duì)較強(qiáng)。而系統(tǒng)級(jí)封裝(System inPackage, SiP)能實(shí)現(xiàn)高度集成的微型化系統(tǒng)，整合各種感測(cè)器與多樣功能的芯片(例如MCU、存儲(chǔ)器)等在終端產(chǎn)品之微小空間中，是未來(lái)穿戴裝置主流封裝技術(shù)。因此，各家封裝廠也在SiP封裝上大力布局。

首先是在SiP封裝布局已有10年之久的日月光、拿下了蘋(píng)果的訂單后，日月光今年將進(jìn)入收割元年，而且日月光今年將SiP列為營(yíng)收中的單獨(dú)要項(xiàng)。法人表示，日月光SiP目前應(yīng)用以Wi-Fi整合芯片及指紋辨識(shí)芯片為主，產(chǎn)能利用率達(dá)滿載。預(yù)估2022年SiP營(yíng)收占日月光整體營(yíng)收比重將達(dá)20%以上。

安靠（Amkor）基于襯底的SiP技術(shù)在其韓國(guó)ATK4光州的最大批量制造工廠應(yīng)用。去年11月底，據(jù)報(bào)道，Amkor計(jì)劃在越南Bac Ninh建立最先進(jìn)的智能工廠，新工廠的第一階段將專注于系統(tǒng)級(jí)封裝 (SiP) 組裝和測(cè)試解決方案。據(jù)Amkor透露，一期建設(shè)預(yù)計(jì)將于 2022 年開(kāi)始，根據(jù)預(yù)計(jì)的客戶產(chǎn)品周期，預(yù)計(jì)將于 2023 年下半年開(kāi)始大批量生產(chǎn)。

大陸的封裝企業(yè)，尤其是中國(guó)封測(cè)三強(qiáng)（長(zhǎng)電、通富、華天）近幾年通過(guò)自主研發(fā)和兼并收購(gòu)，正在快速積累先進(jìn)封裝技術(shù)。例如長(zhǎng)電科技旗下長(zhǎng)電韓國(guó)積極布局高階SiP封裝業(yè)務(wù)，切入手機(jī)和穿戴式裝置等終端產(chǎn)品；2016年收購(gòu)了AMD兩家專門(mén)從事封裝及測(cè)試業(yè)務(wù)子公司的通富微電，也在做SiP的產(chǎn)品，而且公司2021年上半年2.5D/3D封裝產(chǎn)品技術(shù)已完成立項(xiàng)。

上述這些封裝企業(yè)主要是針對(duì)年產(chǎn)量在10KK左右的SiP封裝需求，但除此之外，還有一些專注于細(xì)分領(lǐng)域（如工業(yè)和醫(yī)療等）的異質(zhì)集成SiP封裝廠商，如摩爾精英等，他們主要是解決市場(chǎng)上多樣化、小批量的產(chǎn)品設(shè)計(jì)生產(chǎn)需求。據(jù)了解，摩爾精英已經(jīng)在惠山經(jīng)濟(jì)開(kāi)發(fā)區(qū)建立自有SiP工廠，所面向的客戶主要為年產(chǎn)量1kk左右的產(chǎn)品，摩爾精英SiP一站式服務(wù)提供從電路圖設(shè)計(jì)到量產(chǎn)的各個(gè)環(huán)節(jié)。

不過(guò)綜合來(lái)看，IDM與晶圓代工廠商在2.5D、3D等封裝技術(shù)的發(fā)展相對(duì)委外半導(dǎo)體封測(cè)(OSAT)業(yè)者成熟、完整，也具有多年量產(chǎn)經(jīng)驗(yàn)，所以專業(yè)封測(cè)廠商不僅要與同業(yè)競(jìng)爭(zhēng)，也要與晶圓代工廠一起競(jìng)爭(zhēng)。

結(jié)語(yǔ)

來(lái)到2022年，異構(gòu)計(jì)算大戰(zhàn)，一觸即發(fā)。芯片廠商不遺余力的布局CPU、GPU、FPGA、DPU等計(jì)算芯片，放出你爭(zhēng)我趕的時(shí)間軸，代工廠和封裝廠也在鉚足勁向異構(gòu)計(jì)算的先進(jìn)封裝布局，不止這些廠商，EDA廠商、半導(dǎo)體設(shè)備廠商、材料廠商、測(cè)試企業(yè)等都在為異構(gòu)計(jì)算的來(lái)臨做準(zhǔn)備，異構(gòu)計(jì)算的發(fā)展需要全產(chǎn)業(yè)鏈的共同協(xié)作，各產(chǎn)業(yè)鏈成熟起來(lái)，才能真正迎來(lái)大爆發(fā)。

登錄后免費(fèi)查看全文

立即登錄