AI數據中心 | 多物理場仿真助力優化系統效率及成本
作者: Aliyah Mallak | Ansys市場傳播經理
編輯整理:張旭 | Ansys 高級應用工程師
為滿足全球人工智能(AI)發展需求而建立的數據中心,催生了前所未有的電力需求。2018年,美國數據中心耗電量為76 TWh,占美國總能耗的1.9%。而到2028年,美國數據中心的電力需求預計將達到325至580 TWh,約占美國總能耗的12%。
上述情況對AI數據中心的各個環節都提出了巨大挑戰——從芯片和印刷電路板(PCB),再到設備中的冷卻系統。簡而言之,如何滿足AI數據中心能源需求的問題,不僅關乎服務器機房本身,而是一項涉及數據中心內每個系統的挑戰。因此,有效應對這一挑戰需要一種整體方法,全面考慮數據中心的各個方面。新思科技旗下Ansys,提供了能夠從芯片到設施系統層面應對數據中心能源需求的工具。
人工智能(AI)數據中心是一項多系統工程挑戰
服務器機房仿真
無論用途如何,數據中心都是由多個服務器機房組成的大型設施,這些機房裝滿了容納單個服務器的機架。大多數情況下,無論由哪家企業建造,它們看起來都大同小異。然而,在安裝第一個機架之前,工程師必須考慮幾個關鍵方面,以確保服務器機房盡可能高效地運行,首要考慮的就是電源。
數據中心必須從某處獲取電力,而隨著用水量、電網限制和散熱問題已經引發公眾關注,許多公司正在考慮采用可持續能源替代方案,例如風能、太陽能和核能。工程師可以使用Ansys Fluent 流體仿真軟件、Ansys Granta MI材料數據管理軟件和Ansys Discovery 3D仿真軟件等解決方案,在設計階段早期評估所選能源方案的環境足跡。這種評估能幫助工程師了解對數據中心環境足跡影響最大的區域、組件、材料、流程及其他因素。
然后,工程團隊必須確保設施獲得充足、清潔和可靠的電力,以實現高效運行。確定數據中心的電力需求并不是易事,因為服務器功耗會隨工作負載和服務器配置而波動。Ansys Maxwell高級電磁場求解器和Ansys Q3D Extractor寄生提取電磁仿真軟件等解決方案,可幫助評估電力需求,并優化負載平衡與電能質量。
不過,服務器機房最受關注的領域之一,其實是冷卻系統。如果坐在電腦旁邊,我們就能夠感覺到這些設備的溫度會多高,而服務器機房的溫度可達其十倍。維持最佳的服務器機房溫度和濕度范圍,對于確保設備性能和硬件使用壽命至關重要。過熱會導致停機,而濕度不穩定則可能引發腐蝕或靜電放電。工程師可以使用仿真解決方案,如Ansys Fluent軟件、Ansys Icepak電子冷卻仿真軟件 和Ansys Thermal Desktop熱建模軟件,來修改布局和設備規范,以實現最佳熱管理,避免代價高昂的試錯過程以及為達到冷卻效果進行額外投資。仿真解決方案還可以解決數據中心產生的聲學和噪聲影響,從而盡量減少對所在社區的干擾。
服務器機房的工程考量因素
無限強大算力,極小物理空間
如果說服務器機架是數據中心的骨架,那么芯片就是其大腦。當今的芯片越來越多地將專用處理元件和存儲器集成到復雜的多芯片封裝中。要設計這些系統,就需要了解電氣、熱和機械領域的復雜交互,而這些交互須通過綜合的多物理場仿真來預測。供電網絡和熱管理系統必須進行整體分析,因為電氣性能會影響熱分布,而散熱會影響連續反饋回路中的電氣性能。這種相互依賴性,對于AI工作負載中使用的神經處理單元(NPU)尤為關鍵,NPU可能在不同計算階段經歷巨大的功耗波動。
同樣,芯片之間的高帶寬、低功耗接口需要進行詳細的電磁分析,以確保信號完整性,同時在日益嚴格的功率限制下運行,而隨著芯片到芯片通信速度的提高,這一挑戰也變得更加復雜。NPU及其他專用處理器通常在不同的電壓等級和變化的功耗需求下運行,因此這種復雜性還體現在跨多個域的電源完整性問題上。
另一項挑戰,是芯片中的機械應力,因為復雜結構在裝配和運行過程中會經歷熱膨脹和收縮,產生應力誘導的參數漂移,從而影響可靠性和電氣性能。
系統設計涵蓋從納米級晶體管到厘米級封裝以及更廣泛的范圍,因此,多尺度物理挑戰也變得越來越重要。應對廣泛物理尺度范圍的挑戰,需要仿真工具的支持,例如新思科技RedHawk-SC電源完整性仿真軟件、用于簽核的新思科技Exalto芯片優化電磁建模軟件、用于大型IP和3D集成電路(3D-IC)的新思科技PathFinder-SC靜電放電可靠性簽核,以及其他新思科技高性能計算(HPC)和數據中心解決方案。這些工具能夠在處理不同物理尺度問題時無縫銜接,同時保持準確性和計算效率。
使用新思科技Redhawk-SC軟件、Exalto軟件和PathFinder-SC軟件進行片上系統驗證
通過熱管理保持冷卻
雖然具有高性能芯片的服務器機房一直是關注焦點,但其實AI數據中心高達60%的功耗,是用于為這些芯片降溫的系統。如果工程師可以減少服務器機房內的熱量產生,那么將機房冷卻到合適溫度所需的功耗就會降低。
機架的配置方式以及空氣或水在機架和機房中的流動情況,對能源消耗的影響顯著。仿真軟件可以對各種機架和服務器配置進行建模,使工程師能夠找到綜合考慮計算性能、熱性能等方面需求的最佳方案。除了上述方案之外,工程師還可以對兩相冷卻和浸沒式冷卻等解決方案(單獨或組合使用)進行仿真,以確定數據中心核心的最佳配置,從而優化計算性能、能耗、熱輸出、冷卻系統的效率和成本。
然而,即便數據中心的每個元件都經過精心設計和構建,以最大限度地降低功耗和散熱,數據中心運行時仍會產生熱量。冷卻系統可以將這些熱量從服務器機房帶走,而在一個設計精良的數據中心里,這些熱量可以通過熱交換和余熱回收系統轉化為電能——這些電能隨后可以在數據中心內重復使用,替代原本需要從發電系統獲取的電力。借助Ansys Mechanical結構仿真軟件、Fluent軟件和Thermal Desktop軟件等仿真解決方案, 工程師能夠探索對整個AI數據中心進行功耗優化可能的方案。
芯片級的不同熱管理仿真(左),液冷與風冷服務器機房的熱管理仿真(右)
數字孿生助力打造數據中心的未來
沒有哪家制造商或設計人員能夠獨立創建出優化AI數據中心所需的全部組件。芯片公司負責制造芯片,服務器與網絡供應商負責構建使用這些GPU的系統,其他供應商則生產供暖、通風和空調(HVAC)系統、電力調節與變壓系統、安防系統等。
AI數據中心的設計人員可以使用Ansys TwinBuilder——基于仿真的數字孿生平臺,整合其他制造商和供應商提供的組件和設施的仿真模型,以創建數據中心的數字孿生。制造商和供應商可以將自己的模型保存為降階模型(ROM)格式,以便AI數據中心設計人員能夠直接運用其組件仿真模型開展工作。通過構建AI數據中心的數字孿生,設計人員能夠對數據中心的各項性能(從計算性能到能耗)進行全面建模和優化。設計人員可以通過調整設計參數來仿真變更效果,例如,了解冷卻基礎設施中的某個元件變更對排放或功耗的影響——所有這些工作,在數據中心動工建造之前就可以開展。
一旦在數字孿生中完成最優設計建模,該數字孿生將成為數據中心實際部署及規模擴展的指導依據。數據中心建成后,數字孿生可與數據中心建立邏輯連接,以用于監測并管理性能指標。
AI驅動的未來帶來了驚人的能源需求,但AI賦能的變革潛力也同樣巨大。借助合適的工具,設計人員可以構建出足夠強大的數據中心,以支撐AI驅動的未來,在確保正常運行時間和性能的同時,最大限度地降低功耗需求、減少能源浪費,并減輕對環境的負面影響。
熱門直播 | 新思科技數據中心仿真:從芯片到系統環境
Ansys攜手行業專家推出“推動數據中心創新發展”的系列活動,4月21日,亞太專場直播「新思科技數據中心仿真:從芯片到系統環境」即將上線,深入探討仿真技術如何推動數據中心的運營變革。在本次會議中,您將了解由物理感知降階模型驅動的多物理場仿真、從芯片到系統的建模以及多保真數字孿生,如何在整個生命周期內實現可持續、高性能的數據中心。誠邀您報名參與,深入理解從芯片到系統環境的仿真如何幫助構建面向未來的高性能數據中心。
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















