微流控——芯片內部冷卻

熱管理博覽會

2024年1月22日 09:13

瀏覽：2623 收藏：1

來源 | DCD官網

介紹

液冷是數據中心的未來。空氣根本無法處理到達數據大廳的功率密度，因此具有高熱容量的致密流體正在流入接管。隨著IT設備熱密度的增加，液體越來越接近它。但是液體能接近多遠呢？通過數據中心機柜的后門運行水循環系統已被廣泛接受。接下來，系統一直在將水循環到特別熱的組件（如 GPU 或 CPU）上的冷板。除此之外，浸入式系統將整個機架沉入介電液中，因此冷卻液可以接觸系統的每個部分。主要供應商現在提供針對沉浸感進行優化的服務器。

但還有更進一步的步驟。如果流體可以更接近熱源——硅芯片本身的晶體管，那會怎樣？如果冷卻液在處理器內部流動怎么樣？Microsoft系統技術總監Husam Alissa認為這是一個令人興奮的未來選擇：“在微流體中，有時被稱為嵌入式冷卻，3D異構或集成冷卻，我們將冷卻帶到芯片內部，非常接近運行工作的有源內核。這不僅僅是一個更好的冷卻系統：“當你進入微流體領域時，你不再只是解決一個熱問題。具有自己冷卻系統的芯片可以從源頭上解決問題，即硬件本身。

微流控的誕生

1981年，斯坦福大學的研究人員David Tuckerman和R F Pease提出將微小的“微通道”蝕刻到散熱器中，可以更有效地去除熱量。小通道具有更大的表面積，可以更有效地去除熱量。他們建議，散熱器可以成為VLSI芯片的一個組成部分，他們的演示證明微通道散熱器可以支持每平方米800W的令人印象深刻的熱通量。從那時起，這個想法在大學中一直存在，但只對數據中心的實際硅產生了切身影響。

2002年，斯坦福大學教授Ken Goodson、Tom Kenny和Juan Santiago成立了Cooligy，這是一家初創公司，其“有源微通道”設計令人印象深刻，其散熱器直接內置在芯片上，以及一個巧妙的靜音固態電動泵來循環水。該公司于 2005 年被 Emerson Network Power 收購。

隨著半導體制造的發展并進入三維結構，集成冷卻和加工的想法變得更加實用。從 1980 年代開始，制造商嘗試在硅芯片上將多個組件相互疊加。在多層硅芯片的上層制作通道可能是冷卻的快速最優方法，因為它可以通過簡單地實現類似于散熱器上的鰭片的微小凹槽開始。但這個想法并沒有得到太多關注，因為芯片供應商希望使用3D技術來堆疊有源組件。這種方法現在被高密度內存所接受，Nvidia專利表明可能打算堆疊 GPU。在微處理器行業，冷卻和加工被視為獨立的學科。芯片必須設計成散熱，但這是通過相對簡單的方法完成的，使用導熱材料將熱量虹吸到表面上的大銅散熱器上。散熱器可以通過蝕刻較小的通道來改進，但它是一個單獨的項目，熱量必須穿過粘合劑的屏障才能到達那里。

但一些研究人員可以看到這種可能性。2020 年，比利時大學間微電子中心和魯汶大學的 Tiwei Wei 將冷卻和電子集成在單個芯片中。Wei 的研究成果于 2020 年發表在《自然》雜志上，他認為這個想法不會在微處理器中流行起來，他說微冷卻通道在電力電子領域會更有用，其中由氮化鎵（GaN）等半導體制成的大型芯片實際上管理和轉換電路內的電力。這可能解釋了為什么艾默生/維諦技術（Vertiv）想要收購Cooligy，但Wei認為這項技術并沒有進一步發展：“這種類型的嵌入式冷卻解決方案不適用于現代處理器和CPU等芯片。

研究人員已經致力于將微流體通道蝕刻到硅芯片表面已有數年之久。佐治亞理工學院的一個團隊在2015年與英特爾合作，可能是第一個制造出具有集成微流體冷卻層的FPGA芯片，在硅之上，“距離晶體管工作的地方只有幾百微米”。“我們通過將液體冷卻距離晶體管僅幾百微米，消除了硅芯片頂部的散熱器，”佐治亞理工學院團隊負責人Muhannad Bakir教授在佐治亞理工學院的新聞稿中說。“我們相信，將微流體冷卻直接可靠地集成到硅上將成為新一代電子產品的顛覆性技術。

2020 年，瑞士洛桑聯邦理工學院的研究人員更進一步，實際上在發熱晶體管下方的隧道中運行流體。Elison Matioli 教授看到了將事情更緊密地聯系在一起的機會：“我們從一開始就一起設計電子設備和冷卻系統，”他在 2020 年說，當時他的團隊的論文發表在《自然》雜志上。

Matioli的團隊已經設法在芯片內部設計了一個微流體冷卻通道的3D網絡，就在每個晶體管器件的有源部分下方，距離產生熱量的地方只有幾微米。他說，這種方法可以將冷卻性能提高50倍。Matioli在硅襯底上的氮化鎵層中蝕刻了微米寬的狹縫，然后加寬了硅襯底上的狹縫，形成足夠大的通道，可以將液體冷卻劑泵入。之后，氮化鎵層中的微小開口用銅密封，并在頂部創建常規硅器件。“我們只在與每個晶體管接觸的晶圓的微小區域上有微通道，”他當時說。“這使得技術變得高效。”

Matioli 設法制造了耗電設備，例如不需要外部散熱器的 12kV AC-DC 整流器電路。微通道將流體直接輸送到熱點，并處理每平方厘米 1.7kW 的驚人功率密度。這相當于每平方米 17MW，是當今 GPU 熱通量的數倍。與此同時，通過在現有微處理器的背面創建微流體結構，繼續將微流體添加到標準硅中。

2021 年，包括 Husam Alissa 在內的 Microsoft 領導的團隊使用直接蝕刻在標準現成英特爾酷睿 i7-8700K CPU 背面的“微針”鰭片。“我們實際上采用了現成的臺式機級處理器，并移除了機箱，”他說。如果沒有散熱器蓋和熱界面材料（TIM），芯片的硅芯片就會暴露出來。“當那個芯片暴露出來時，我們應用蝕刻方法來雕刻出我們想要看到的通道，”他繼續說道。芯片的背面被選擇性地蝕刻到200微米的深度，留下100微米厚的棒的殘茬場圖案 - “微引腳”構成了整體直接到芯片冷卻系統的基礎。

這是一項微妙的任務，Alissa警告說：“你必須考慮你蝕刻的深度，這樣你就不會影響硅的活性區域。最后，將CPU芯片的背面密封在3D打印歧管中，該歧管使冷卻液在微引腳之間流動。然后對芯片進行超頻以耗散 215W 的功率——是其熱設計功率（TDP）的兩倍多，該功率旨在安全處理而不會過熱。令人驚訝的是，該芯片僅使用室溫水就能夠達到這一水平。通過歧管輸送。該實驗表明，與傳統冷板相比，結點到入口的熱阻降低了 44%，每瓦使用的冷卻液量是其三十分之一。使用標準基準程序評估性能。

這是首次直接在標準消費類CPU上創建微流控通道，并在有源CMOS器件上通過微流控冷卻實現了最高的功率密度。該小組在IEEE Xplore上報告說，結果表明，在不需要能源密集型制冷系統的情況下，可以更有效地運行數據中心。芯片制造商所需要的只是批量生產帶有蝕刻微引腳的處理器，并將它們包裝在歧管上，以代替通常的散熱器蓋。如果像臺積電這樣的晶圓代工廠能夠為他們的芯片提供內置的液體冷卻，那將改變采用的動態。Alissa說，這也將使該技術能夠進一步突破界限。“使用冷板，你可能會得到40°C（104°F）的水，但使用微流體，你可能會有80°C（176°F）或更高的水從這些芯片中流出，因為冷卻劑非常接近活動核心，”他說。“這顯然提高了效率和熱回收效益，同時降低了對流速的要求。”

微流控的未來

Alissa說，“微流體有兩種主要類型，在商業芯片中蝕刻通道：“去買芯片，進行蝕刻，你就完成了。這種方法的更完整版本是讓代工廠在芯片到達消費者之前進行蝕刻 - 因為不是每個人都想利用處理器的背面并用酸攻擊它。除此之外，還有 Alissa 所說的“更重的觸摸”方法。在這種情況下，您可以“在鑄造廠盡早攔截并開始構建 3D 結構”。他指的是多孔芯片，這些芯片將組件堆疊在一起，中間層有冷卻劑通道。這是基于Matioli在洛桑使用的方法的發展。正如 Alissa 所說，“這有望帶來更多，但顯然，這是更多的工作。

Alissa有一個目標:“我們想要達到的目標是，通過將多個芯片堆疊在一起，并在兩者之間蝕刻(微通道)，我們能夠同時在冷卻和電氣方面共同優化芯片。”冷卻將允許多個組件“通過芯片通孔”（TCV）進行堆疊和連接，芯片通孔是穿過硅芯片的銅連接。這些塔式芯片可能需要更低的能量，并且工作速度更快，因為組件之間的距離更近：“總的來說，你在性能上得到了提升，你在冷卻上得到了提升，而且由于距離很近，所以延遲也得到了提升。還有另一個好處。如果微流控技術允許芯片達到更高的熱設計點（TDP），這可以消除硅設計人員目前面臨的障礙之一。

散熱的困難意味著當今最大的芯片不能一次使用所有晶體管，否則它們會過熱。芯片上有“暗硅”區域，應用微流體可以讓設計人員點亮這些區域，從而提高芯片性能。但不要指望微流體可以解決所有問題。早在2012年，Nikos Hardavellas教授就預測了下一個問題：“即使采用奇特的冷卻技術，例如液體冷卻與微流體相結合，芯片的功率傳輸也可能會帶來新的限制。一旦我們弄清楚如何從芯片中獲得更多的熱量，我們將不得不開發提供大量功率的方法，這些方法可以在晶體管所需的低電壓下提供信號完整性。

知識補充：Dark silicon暗硅

當前和未來幾代芯片都存在一個根本性問題。隨著更多的晶體管被封裝到單個處理器中，性能一直在提高。但是現在，數量太多了，如果不出現芯片過熱，它們就無法一次全部使用。處理器制造商公布了每個芯片的熱設計功耗（TDP），即它可以安全處理和耗散的能量，并假設芯片上有良好的散熱器。TDP 增長得非常高。例如，H100 SXM5 Nvidia GPU 的 TDP 為 700W，與英特爾至強等標準 CPU 相比，這是巨大的，后者的功耗約為 130W。

目前，以 4nm 制造的晶體管每個晶體管消耗 10 阿托焦耳（10-18 焦耳），因此如果其中一個以 1.8GHz 切換，它將消耗 18 微瓦（18 x 10-9 W）。這很小，但今天的處理器擁有大量晶體管。瑞典研究機構 RISE 的 Jon Summers 計算出，擁有 800 億個晶體管的 Nvidia H100 GPU 將產生 1,440W 的功率——是 Nvidia 為其發布的 TDP 的兩倍多。“TDP 為 700W，這意味著 51% 的芯片是暗硅，”薩默斯在 2023 年 11 月在倫敦 DCD Connect 上告訴觀眾。

持續的小型化并不能解決這種情況。較小的晶體管具有較低的開關能量，因此可以在TDP包絡內點亮更多晶體管，但晶體管的數量也在增加。薩默斯說，英特爾計劃到 2030 年在芯片上擁有一萬億個晶體管，每個開關使用大約 1aJ。如果時鐘頻率達到4GHz，芯片為1000平方毫米，熱通量，那么這意味著40%的晶體管必須保持黑暗。現在，TDP基于可以從芯片中去除的最大熱流（或通量）。Nvidia H100 的面積為 814 平方毫米，因此熱通量為每平方米 860kW。這與核聚變的水平相當，薩默斯預計英特爾將提高到每平方米2.4MW。

暗硅的問題早已為人所知：2012年，西北大學的Nikos Hardavellas教授在高級計算協會的雜志Usenix上說：“如果沒有技術奇跡，我們正走向一個'暗硅'時代，能夠制造出我們負擔不起的密集設備。如果不能使用更多的晶體管或更快地運行它們，除非我們改變方向，否則性能改進可能會停滯不前。解決這個問題的方法有很多種，最明顯的是增加了芯片中專用內核的使用，這些內核只在需要時使用。但是，也許減少暗硅的一種方法是，如果流體可以在芯片內部流動，在那里它們可以去除更多的能量，并允許更多的熱通量。