
發布
注冊
/
登錄GPU計算集群的案例
集群也超頻--UltraLAB超頻仿真計算集群2020
更快更完美---UltraLAB超頻仿真計算集群2020
目錄
1 UltraLAB超頻仿真計算集群介紹
1.1 傳統仿真計算集群缺陷
1.2 UltraLAB超頻集群產品介紹
1.3 UltraLAB超頻集群種類及特點
2 超頻服務器、高頻服務器產品介紹
2.1 超頻服務器HF390產品介紹
2.2 超頻服務器F400產品介紹
2.3 高頻服務器HF630產品介紹
2.4 主控與存儲服務器N630產品介紹
3 UltraLAB集群硬件方案推薦2020
3.1 CX390超高頻集群配置方案推薦
3.2 CT400超高頻集群配置方案推薦
3.3 CX630高頻集群配置方案推薦
(一)UltraLAB超頻仿真計算集群介紹
西安坤隆計算機科技有限公司自從2009年推出XASUN SC1計算集群,歷經11年的升級換代,不斷的完善、改進、提升,今天我們擁有超頻服務器(HF390、F400)、高頻服務器(HF630)三個系列(后面有詳細介紹)、并行作業調度系統(Parallel Schedule System,簡稱PSS),
針對有限元分析、有限差分法、有限體積法等不同算法、不同規模,提供更精準的算力,以及計算整個環節無瓶頸、高速、高使用率,我們可以提供最快配置方案:
ANSYS仿真計算超頻集群
多物理場耦合(Comsol Multiphysics)仿真計算超頻集群
MatLAB科學計算超頻集群
Abaqus結構仿真計算超頻集群
電磁仿真(HFSs)計算超頻集群
流體仿真(Fluent)計算超頻集群
1.1 傳統仿真計算集群缺陷
傳統服務器計算集群以刀片服務器或雙路xeon機架式服務器為主,這種集群優點,占用空間少,擁有更多cpu核數,但是cpu因為刀片散熱空間小,選用處理器類型都是低頻多核
展開 Ansys Speos | 新型計算方法:使用 GPU 提升計算速率
前言
Speos 在2022R2版本中正式推出 GPU 計算功能,相比于 CPU 計算,相同HPC32配置,高性能顯卡在仿真計算中將會更顯計算優勢,在仿真數據量大、材料屬性復雜、光源種類多的條件下,Speos 視覺模擬會消耗更多仿真計算時間。當模擬參數設置偏差,或者視野選擇不準確,重新模擬耗費的時間會很長,GPU 同樣提供實時預覽 preview 功能,快速檢查視覺模擬對參數設置和視野選擇的準確性,通過 GPU 持續渲染,得到從低精度到高精度的實時模擬效果,一旦發現模擬出現問題可以隨時停止,修改參數后再重新模擬,提高了模擬效率,新版本發布中,GPU preview 同樣可以保存實時渲染結果為XMP。
GPU計算能力
1 - 打開任意仿真,建立視覺模擬模型,與常規的亮度模擬相同,在 speos 中建立光源(包括環境光),探測器,零件材料,逆向模擬。
2 - 在file-speos option中,勾選顯卡選項,會顯示32HPC運算。顯卡性能越高在計算中越能體現計算速度。
3 - 點擊inverse/direct simulation,在tools中選擇GPU計算。
4 - GPU計算性能說明,同樣對于108光線數,相同光線數GPU A6000的計算速度相當于CPU 600核左右,而仿真結果相同。
5 - GPU計算同樣支持Speos core的計算。
展開 AMD EPYC 128核心256線程 CPU計算服務器/GPU服務器仿真計算、HPC計算、大數據分析、
適用場景:
CAE/仿真計算: 如Fluent, Abaqus, ANSYS等,能極大縮短求解時間。
大數據與數據分析: 海量內存和多核心能輕松處理TB級數據集。
人工智能與機器學習: 適合模型訓練和推理,尤其適合中等規模或作為大型集群的一個計算節點。
科研計算: 在物理、化學、生物、氣象等領域進行復雜的數值模擬。
虛擬化與云計算: 可以創建大量的虛擬機,作為私有云或虛擬桌面的主機。
媒體與娛樂: 用于三維渲染、視頻編碼等任務。
處理器和GPU的計算能力如何計算的?
(二) GPU的浮點性能計算公式
GPU能做的CPU都能做,CPU能做的GPU卻不一定能夠做到,GPU一般一個時鐘周期可以操作64bit的數據,1個核心實現1個FMA。
這個GPU的計算能力的單元是:64bit*1FMA*2M/A/64bit=2FLOPs/Cycle
GPU的計算能力也是一樣和核心個數,核心頻率,核心單時鐘周期能力三個因素有關。
但是架不住GPU的核心的數量多呀
例如:對現在nvidia 的pascal架構超算卡--- Tesla P100,是1792核@1.328GHz,其理論的雙精度浮點性能是:1792Core*1.328GHZ*2FLOPs/Cycle=4759.552GFLOPs=4.7TFLOPs
例如:對現在nvidia 的Volta架構的超算卡---Tesla V100,是2560核@1.245GHz,其理論的雙精度浮點性能是:2560Core*1.245GHZ*2FLOPs/Cycle=6374.4GFLOPs=6.3TFLOPs
現在ML繁榮的時代,對64bit長度的浮點運算需求不是那么的大,反而是32bit或者16bit、8bit INT、4bit INT的運算需求比較大。
因此nvidia 最新的tesla一直在強調單精度甚至半精度,turing就是這樣的。
intel為了加速這些計算,也在其處理器中實現了一些加速低精度運算的指令。
展開 
有限元仿真計算算法特點與計算集群分析
有限元計算算法特點與計算集群分析
典型應用:結構仿真計算、電磁仿真、多物理場耦合等
計算化學:量子化學計算、分子動力模擬…
典型軟件:Abaqus,ANSYS Mechanical,HFSS,Feko…
求解過程
(1)在網格自動剖分環節,單核計算模式,CPU超高頻率,大幅幅縮短計算時間,加速100%以上
(2)在并行求解環節,隱式算法為主計算并行核數有限,通常加速比最大到18核,HF490計算節點具有多核超高頻,將并行計算求解能力,發揮到極致
(3)在密集數據迭代、高io延遲等待過程, 該機器支持高性能低延遲,保證每個環節均衡高效,延遲等待降到最低
(1)網口數據帶寬,延遲最低到1us微秒
(2)硬盤IO,讀寫帶寬1.5GB/s以上,延遲最低17us微秒
(3)CPU響應速度為C0級
此文只能到這結束了,有興趣進一步了解的朋友私信。
展開 用GPU加速Fluent計算
用Fluent開啟GPU進行計算,過程其實很簡單,不過現在只找到采用N卡進行計算的方法。首先在開始界面需要設置并行計算的核數與你要用來計算的GPU數量,一般電腦都只有一塊顯卡,所以設置為1就可以了。
打開之后就需要用命令行去打打開顯卡計算并進行設置,命令行/solve/set/amg-options/amg-gpgpu-options/,后面還需要跟上你想并行計算的模型比如我這里的壓力耦合計算,后面是一些精度和求解方法的設置,其中精度和迭代次數比較重要,搞得不好反倒會發散,比如這里設置為0.1,如果過大那時間就會比較長。
設置好了之后運行就可以了,也沒什么需要注意的,但是有的模型本身就有限制用不了并行加速方法,具體的可以參考這里的內容https://www.nvidia.cn/data-center/gpu-accelerated-applications/ansys-fluent/
我這里模型比較小,計算時間就2分鐘效果提升不明顯,大的模型會明顯一些,但顯卡確實用起來了。
如果是自己編寫的程序想并行求解的會麻煩很多,但也不是沒有辦法。
后續更新如何用代碼主要是基于matlab進行三維模型計算,包括讀取網格(基于Openfoam格式的網格),處理拓撲,離散求解一系列流程。
展開 GPU加速計算的狼來了?
而格子玻爾茲曼方法基于笛卡爾網格的顯式線性的計算特點,使得其天然適合于GPU的流處理框架。比如在GPU上計算D2Q9格式的LBM方程,我們可以將具有相同速度向量的數據包分配到一個數組中,并保持原始格子布局,求解過程便是對這些數組的更新。
當然,GPU在進行LBM計算的時候,不會改變其物理計算的本質,仍然是通過速度分布函數、宏觀物理量和平衡態分布之間的迭代來實現的。因此,如果代碼調試沒有問題的話,GPU計算的結果和CPU應該是一致的。
當然,要想GPU算法能夠實現更好的加速效果,也需要對參數存儲、傳遞和計算進行優化。目前,許多LBM方法在配合GPU計算已產生恐怖的加速性能,比如已有商業軟件可將單塊顯卡的計算加速能力提高到等價于數千個CPU核的量級。相信隨著GPU性能和軟件本身的不斷進化,GPU一定會讓LBM徹底飛起來。
來源于:LBM與流體力學 作者: 盧比與鋼蛋
展開 在 COMSOL Multiphysics 中設置 GPU 加速計算
COMSOL Multiphysics 支持加速計算。本指南提供了安裝和配置使用此功能所需的軟件的快速設置說明。?
在 COMSOL Multiphysics 中,GPU 加速可以顯著提高使用間斷伽遼金 (dG) 方法的瞬態仿真的性能,例如使用壓力聲學,時域顯式 接口的仿真,以及用于訓練深度神經網絡 (DNN) 代理模型的性能。此功能適用于 Windows 和 Linux作系統,需要兼容的 NVIDIA 顯卡,并安裝 CUDA 工具包。?????
注: 此功能適用于 COMSOL Multiphysics 6.3 版本。?
兼容性和要求
的作系統和硬件要求CUDA 工具包?組件包括以下內容:
一個 NVIDIA 顯卡,計算能力為 6.0–9.0?
請注意,COMSOL Multiphysics 系統要求中列出的所有 NVIDIA 顯卡都滿足此要求。?對于其他顯卡,請檢查 NVIDIA 維護的列表中的 Compute Capability。
支持的作系統 (OS),包括 Windows 或 Linux??CUDA 工具包 12.4?
CUDA 工具包的設置過程?
安裝 CUDA 工具包,然后在 COMSOL Multiphysics 安裝中啟用 GPU 加速計算的過程包括以下步驟:?
安裝 NVIDIA CUDA 工具包??安裝支持 GPU 計算的 COMSOL Multiphysics?在 COMSOL Multiphysics 中驗證 CUDA 工具包的安裝?
下面將更詳細地概述每個步驟。
展開 《CST Studio Suite 2024 GPU加速計算指南》
NVIDIA使用指南
- ECC功能:可檢測和糾正GPU內存問題,但會降低舊GPU硬件性能,可通過NVIDIA控制面板或命令行工具nvidia - smi管理。
- TCC模式(Windows only):某些GPU計算需要啟用,可通過命令行工具nvidia - smi啟用或禁用。
- 其他:還介紹了獨占計算模式、顯示鏈接、組合MPI計算和GPU計算、服務用戶、GPU計算使用Windows遠程桌面、運行多個模擬、視頻卡驅動、操作條件、最新CST服務包、GPU監控/利用率、選擇可用GPU卡子集等內容。
6. 故障排除:針對NVIDIA驅動安裝、多GPU設置、GPU模式、硬件識別、CUDA錯誤、TCC模式等問題給出了相應的解決方法。
《CST Studio Suite 2024 GPU加速計算指南》.pdf
展開 如何在集群環境中使用fluent計算——fluent并行計算初步(超小白入門,老鳥略過:
機群又叫集群,當然就是許多的計算機(廢話),因為機器太多了,又需要協同工作,所以需要按照一定的方式來管理,管理的結構形式叫做拓撲(這個不用管)。機群使用的電腦是刀片(又薄又長的機箱)形式(為了便于插入機柜),一個刀片一般稱為一個節點。
一般而言,機群會分為三種節點:管理節點(若干臺),編譯節點(若干臺),計算節點(其余全部)。這三種節點的配置略有不同(廢話),管理節點主要用來存儲使用機群的用戶的信息,如名字,密碼,可以使用機器數的權限,用戶狀態等等;編譯節點一般用來預查程序故障,用戶的程序先在這里試運行,查看是否與系統兼容等;計算節點用來直接計算其他節點提供來的程序。
就配置而言,管理節點和編譯節點一般相同,會部署軟件環境;計算節點只會部署簡單的必要運行文件。計算機點之間會采用高速交換機,速度可達幾十GB/s,如IB等;計算節點與編譯、登陸節點之間采用普通的萬兆交換機。
2、
如何使用機群?
機群中一般采用linux操作系統來操作(多用戶情況下效率高),用戶會通過遠程登錄軟件(如xshell)來登錄到登陸節點進行個人的操作(一般會通過VPN網絡加密數據傳輸)。
Linux集群將程序任務分解發送到計算節點上時,是通過LSF作業調度系統(也有其他的,如PBS等)來實現的,這個系統的作用是使整個機群負載均衡,便于管理,所以我們使用fluent也要通過這個系統。在成熟的集群中,用戶登錄之后,默認便可以使用作業調度系統了。使用時,除了常見的linux命令以外,調度系統也有一些簡單的命令,這個一般會有手冊介紹,常用的就3、5個,很好記。
3、
如何在集群中使用fluent?
因為fluent是成熟的封裝好的商業軟件,所以用戶直接使用命令調用即可。
展開 WinXP下并行計算集群的組建
WinXP下并行計算集群的組建1.rar
WinXP下并行計算集群的組建2.rar

12/21 基于Ansys Speos的GPU光學模擬加速計算
Ansys與NVIDIA有著長久的戰略合作關系,作為高性能計算領域的技術領導者,雙方展開密切合作在Ansys多物理場解決方案中開發GPU加速求解器和算法,確保在Ansys軟件上運行的仿真工作具有最快的性能。此外還在專業圖形方案領域進行合作,確保Ansys在建模、后處理和可視化等工作流程能夠發揮最佳性能和質量水平。
當下隨著科技的發展,汽車內外飾照明越來越復雜,以往想要模擬出高逼真的視覺效果,需要堆棧CPU數量用于模擬計算,硬件成本很高。而在即將正式推出的Ansys Speos GPU加速計算中,可實現4-8倍運算能力的提高,通過借助GPU加速獲得更好的結果、更快的模擬以及更高的精度和分辨率,實現基于物理的逼真渲染,消除時間/硬件管理等障礙,進一步加快開發速度。
12月21日,Ansys將聯合NVIDIA共同推出【基于Ansys Speos的GPU光學模擬加速計算】網絡研討會,本次會議邀請來自NVIDIA 行業拓展經理茅勇,以及Ansys Speos應用工程師孫鴻燁作為主講嘉賓,共同分享實現快速計算的關鍵技術以及最新光學仿真的功能革新,歡迎大家報名參會。
展開 abaqus6.14-1設置GPU并行計算的方法
微博有朋友問,如何配置GPU并行計算,我之前并沒有弄過,網上搜帖子,配置成功,特意把詳細細節記錄在下方便大家參考。僅為參考,每個人的電腦配置情況并不一樣,要解決問題請分析具體情況。電腦配置:CPU i5-4590
(家里電腦是i7-6900k)
內存RAM 8G系統: win10
64位系統
顯卡低端GPU一個GTX650(公司的電腦,我家里配置的是GTX960)需要設置一下安裝路徑下的abaqus_v6.env的參數,沒設置之前的參數如下,即使不成功,也方便返回原來設置。
修改后的參數如下:
好了,記得保存一下就行。然后接下來驗證我們的參數設置的是否正確,隨便打開一個cae文件,切換到job模塊。新建一個job,可以在job參數設置界面edit job面板上的parallelization 看到如下參數設置,表示成功了。那么這樣算是大功告成了嗎?為謹慎起見,有必要再找個算利來驗證下計算效率是否有提高。經過測試發現,對于簡單的小模型,并行計算的優勢并不明顯,感覺上還略慢,具體沒用大模型測試效果。
展開 2023年MATLAB科學計算工作站及集群配置方案
(一)MATLAB科學計算工作站與集群配置方案
UltraLAB專注于為科學計算在各個行業應用的算法,量身定制匹配的高性能計算硬件配置的品牌,提供塔式、機架、便攜、特種等全方位完美計算架構方案。
UltraLAB結合最新計算機硬件技術(intel 13代酷睿超頻/4代Xeon3400x超頻等), 將MATLAB的應用/學科工具箱,進行科學分類,從而給出合理高效完整科學計算硬件配置。
早期我們對MatLAB全部應用工具箱計算特點進行了總結歸類,
詳見 https://www.xasun.com/article/fb/2433.html
今天我們提供多種不同計算架構,保證每一個計算應用對應配置達到理想的最高性能能力,四類硬件配置:
(1)純CPU計算---MatLAB高頻科學計算工作站配置推薦
(2)基于GPU加速---MatLAB 異構超算工作站配置推薦
(3)基于實時計算---MatLAB實時采集與數據計算分析硬件配置方案
(4)基于多機集群---MatLAB多機分布式集群計算配置方案(待續)
1.1 MatLAB高頻科學計算工作站硬件配置推薦
應用定位:滿足極致單核CPU計算或超大規模的多核CPU性能要求
技術特點:基于純CPU計算應用,CPU超頻或高頻,保證單核或多核計算能力達到極致。
展開 CST2021電磁仿真計算工作站、集群硬件配置探討
集群技術特點
(1)硬件采用intel3代Xeon處理器+Nvidia3代RTX GPU領先的計算技術,分別由異構并行計算節點、管理服務器、并行存儲服務器組成。