
發布
注冊
/
登錄GPU計算的案例
《CST Studio Suite 2024 GPU加速計算指南》
NVIDIA使用指南
- ECC功能:可檢測和糾正GPU內存問題,但會降低舊GPU硬件性能,可通過NVIDIA控制面板或命令行工具nvidia - smi管理。
- TCC模式(Windows only):某些GPU計算需要啟用,可通過命令行工具nvidia - smi啟用或禁用。
- 其他:還介紹了獨占計算模式、顯示鏈接、組合MPI計算和GPU計算、服務用戶、GPU計算使用Windows遠程桌面、運行多個模擬、視頻卡驅動、操作條件、最新CST服務包、GPU監控/利用率、選擇可用GPU卡子集等內容。
6. 故障排除:針對NVIDIA驅動安裝、多GPU設置、GPU模式、硬件識別、CUDA錯誤、TCC模式等問題給出了相應的解決方法。
《CST Studio Suite 2024 GPU加速計算指南》.pdf
展開 Ansys Speos | 新型計算方法:使用 GPU 提升計算速率
前言
Speos 在2022R2版本中正式推出 GPU 計算功能,相比于 CPU 計算,相同HPC32配置,高性能顯卡在仿真計算中將會更顯計算優勢,在仿真數據量大、材料屬性復雜、光源種類多的條件下,Speos 視覺模擬會消耗更多仿真計算時間。當模擬參數設置偏差,或者視野選擇不準確,重新模擬耗費的時間會很長,GPU 同樣提供實時預覽 preview 功能,快速檢查視覺模擬對參數設置和視野選擇的準確性,通過 GPU 持續渲染,得到從低精度到高精度的實時模擬效果,一旦發現模擬出現問題可以隨時停止,修改參數后再重新模擬,提高了模擬效率,新版本發布中,GPU preview 同樣可以保存實時渲染結果為XMP。
GPU計算能力
1 - 打開任意仿真,建立視覺模擬模型,與常規的亮度模擬相同,在 speos 中建立光源(包括環境光),探測器,零件材料,逆向模擬。
2 - 在file-speos option中,勾選顯卡選項,會顯示32HPC運算。顯卡性能越高在計算中越能體現計算速度。
3 - 點擊inverse/direct simulation,在tools中選擇GPU計算。
4 - GPU計算性能說明,同樣對于108光線數,相同光線數GPU A6000的計算速度相當于CPU 600核左右,而仿真結果相同。
5 - GPU計算同樣支持Speos core的計算。
展開 技術干貨丨如何選用顯卡 (GPU) 開展EDEM的計算?
<p>由于離散單元法的特性,EDEM軟件計算量大,對計算設備要求較高。一個計算能力強的計算設備可在更短的時間完成計算任務,加速業務進程,提高業務效率。</p><p><br></p><p>過去以來,中央處理器 (CPU) 一直被用作計算設備。然而,隨著計算機圖形處理器 (俗稱顯示卡或者顯卡,GPU) 的技術更新,GPU也可用于計算,且在特定的計算場景中發揮出 (遠) 優于CPU的計算性能。這包括EDEM離散單元法計算場景。</p><p><br></p><p><strong>本文將簡單討論GPU計算在EDEM中的應用,以及用于EDEM計算的GPU選取。</strong></p><p><br></p><p><strong>用于EDEM計算的GPU選取</strong></p><p><br></p><p><strong>為什么要用GPU開展EDEM計算?</strong></p><p><br></p><p>GPU與CPU的顯著區別在于,前者可同時并行計算的核心數高 (多達數千),但單個核心時鐘頻率 (與計算速度正相關) 較低;后者核心數少 (幾十個),但單個核心始終頻率高。一個比喻是,GPU仿佛是一個小學數千名小學生,而CPU是這所小學的數十名老師。對于單一流程的任務而言,一個老師的處理速度勝過一個小學生;但對于諸如完成1000000道口算題這類<strong>可分割的計算任務</strong>而言,數千小學生并行開動,將勝過數十名老師。</p><p><br></p><p>離散單元法就是<strong>可分割的計算任務</strong>,每一時間步對1000000個顆粒單元的處理,就好比完成1000000道口算題。此時GPU相比CPU將具有顯著優勢。鑒于上述原因,自EDEM 2019開始,支持GPU運算。
展開 GPU加速計算的狼來了?
而格子玻爾茲曼方法基于笛卡爾網格的顯式線性的計算特點,使得其天然適合于GPU的流處理框架。比如在GPU上計算D2Q9格式的LBM方程,我們可以將具有相同速度向量的數據包分配到一個數組中,并保持原始格子布局,求解過程便是對這些數組的更新。
當然,GPU在進行LBM計算的時候,不會改變其物理計算的本質,仍然是通過速度分布函數、宏觀物理量和平衡態分布之間的迭代來實現的。因此,如果代碼調試沒有問題的話,GPU計算的結果和CPU應該是一致的。
當然,要想GPU算法能夠實現更好的加速效果,也需要對參數存儲、傳遞和計算進行優化。目前,許多LBM方法在配合GPU計算已產生恐怖的加速性能,比如已有商業軟件可將單塊顯卡的計算加速能力提高到等價于數千個CPU核的量級。相信隨著GPU性能和軟件本身的不斷進化,GPU一定會讓LBM徹底飛起來。
來源于:LBM與流體力學 作者: 盧比與鋼蛋
展開 
在 COMSOL Multiphysics 中設置 GPU 加速計算
COMSOL Multiphysics 支持加速計算。本指南提供了安裝和配置使用此功能所需的軟件的快速設置說明。?
在 COMSOL Multiphysics 中,GPU 加速可以顯著提高使用間斷伽遼金 (dG) 方法的瞬態仿真的性能,例如使用壓力聲學,時域顯式 接口的仿真,以及用于訓練深度神經網絡 (DNN) 代理模型的性能。此功能適用于 Windows 和 Linux作系統,需要兼容的 NVIDIA 顯卡,并安裝 CUDA 工具包。?????
注: 此功能適用于 COMSOL Multiphysics 6.3 版本。?
兼容性和要求
的作系統和硬件要求CUDA 工具包?組件包括以下內容:
一個 NVIDIA 顯卡,計算能力為 6.0–9.0?
請注意,COMSOL Multiphysics 系統要求中列出的所有 NVIDIA 顯卡都滿足此要求。?對于其他顯卡,請檢查 NVIDIA 維護的列表中的 Compute Capability。
支持的作系統 (OS),包括 Windows 或 Linux??CUDA 工具包 12.4?
CUDA 工具包的設置過程?
安裝 CUDA 工具包,然后在 COMSOL Multiphysics 安裝中啟用 GPU 加速計算的過程包括以下步驟:?
安裝 NVIDIA CUDA 工具包??安裝支持 GPU 計算的 COMSOL Multiphysics?在 COMSOL Multiphysics 中驗證 CUDA 工具包的安裝?
下面將更詳細地概述每個步驟。
展開 處理器和GPU的計算能力如何計算的?
(二) GPU的浮點性能計算公式
GPU能做的CPU都能做,CPU能做的GPU卻不一定能夠做到,GPU一般一個時鐘周期可以操作64bit的數據,1個核心實現1個FMA。
這個GPU的計算能力的單元是:64bit*1FMA*2M/A/64bit=2FLOPs/Cycle
GPU的計算能力也是一樣和核心個數,核心頻率,核心單時鐘周期能力三個因素有關。
但是架不住GPU的核心的數量多呀
例如:對現在nvidia 的pascal架構超算卡--- Tesla P100,是1792核@1.328GHz,其理論的雙精度浮點性能是:1792Core*1.328GHZ*2FLOPs/Cycle=4759.552GFLOPs=4.7TFLOPs
例如:對現在nvidia 的Volta架構的超算卡---Tesla V100,是2560核@1.245GHz,其理論的雙精度浮點性能是:2560Core*1.245GHZ*2FLOPs/Cycle=6374.4GFLOPs=6.3TFLOPs
現在ML繁榮的時代,對64bit長度的浮點運算需求不是那么的大,反而是32bit或者16bit、8bit INT、4bit INT的運算需求比較大。
因此nvidia 最新的tesla一直在強調單精度甚至半精度,turing就是這樣的。
intel為了加速這些計算,也在其處理器中實現了一些加速低精度運算的指令。
展開 用GPU加速Fluent計算
用Fluent開啟GPU進行計算,過程其實很簡單,不過現在只找到采用N卡進行計算的方法。首先在開始界面需要設置并行計算的核數與你要用來計算的GPU數量,一般電腦都只有一塊顯卡,所以設置為1就可以了。
打開之后就需要用命令行去打打開顯卡計算并進行設置,命令行/solve/set/amg-options/amg-gpgpu-options/,后面還需要跟上你想并行計算的模型比如我這里的壓力耦合計算,后面是一些精度和求解方法的設置,其中精度和迭代次數比較重要,搞得不好反倒會發散,比如這里設置為0.1,如果過大那時間就會比較長。
設置好了之后運行就可以了,也沒什么需要注意的,但是有的模型本身就有限制用不了并行加速方法,具體的可以參考這里的內容https://www.nvidia.cn/data-center/gpu-accelerated-applications/ansys-fluent/
我這里模型比較小,計算時間就2分鐘效果提升不明顯,大的模型會明顯一些,但顯卡確實用起來了。
如果是自己編寫的程序想并行求解的會麻煩很多,但也不是沒有辦法。
后續更新如何用代碼主要是基于matlab進行三維模型計算,包括讀取網格(基于Openfoam格式的網格),處理拓撲,離散求解一系列流程。
展開 12/21 基于Ansys Speos的GPU光學模擬加速計算
Ansys與NVIDIA有著長久的戰略合作關系,作為高性能計算領域的技術領導者,雙方展開密切合作在Ansys多物理場解決方案中開發GPU加速求解器和算法,確保在Ansys軟件上運行的仿真工作具有最快的性能。此外還在專業圖形方案領域進行合作,確保Ansys在建模、后處理和可視化等工作流程能夠發揮最佳性能和質量水平。
當下隨著科技的發展,汽車內外飾照明越來越復雜,以往想要模擬出高逼真的視覺效果,需要堆棧CPU數量用于模擬計算,硬件成本很高。而在即將正式推出的Ansys Speos GPU加速計算中,可實現4-8倍運算能力的提高,通過借助GPU加速獲得更好的結果、更快的模擬以及更高的精度和分辨率,實現基于物理的逼真渲染,消除時間/硬件管理等障礙,進一步加快開發速度。
12月21日,Ansys將聯合NVIDIA共同推出【基于Ansys Speos的GPU光學模擬加速計算】網絡研討會,本次會議邀請來自NVIDIA 行業拓展經理茅勇,以及Ansys Speos應用工程師孫鴻燁作為主講嘉賓,共同分享實現快速計算的關鍵技術以及最新光學仿真的功能革新,歡迎大家報名參會。
展開 abaqus6.14-1設置GPU并行計算的方法
微博有朋友問,如何配置GPU并行計算,我之前并沒有弄過,網上搜帖子,配置成功,特意把詳細細節記錄在下方便大家參考。僅為參考,每個人的電腦配置情況并不一樣,要解決問題請分析具體情況。電腦配置:CPU i5-4590
(家里電腦是i7-6900k)
內存RAM 8G系統: win10
64位系統
顯卡低端GPU一個GTX650(公司的電腦,我家里配置的是GTX960)需要設置一下安裝路徑下的abaqus_v6.env的參數,沒設置之前的參數如下,即使不成功,也方便返回原來設置。
修改后的參數如下:
好了,記得保存一下就行。然后接下來驗證我們的參數設置的是否正確,隨便打開一個cae文件,切換到job模塊。新建一個job,可以在job參數設置界面edit job面板上的parallelization 看到如下參數設置,表示成功了。那么這樣算是大功告成了嗎?為謹慎起見,有必要再找個算利來驗證下計算效率是否有提高。經過測試發現,對于簡單的小模型,并行計算的優勢并不明顯,感覺上還略慢,具體沒用大模型測試效果。
展開 高分辨率合成孔徑雷達圖像處理SAR工作站硬件配置推薦
關于計算特點,SAR成像算法通常是計算密集型的,需要大量的計算資源。計算可以基于CPU單核或CPU多核進行,但一些算法可以受益于多核CPU的并行計算。此外,一些算法可以受益于GPU加速,特別是在處理大規模SAR數據時。對于GPU計算,需要較大的顯存以處理大型數據集。此外,內存容量和硬盤速度也對SAR圖像處理性能產生影響,因為高分辨率SAR數據通常較大。因此,為了獲得較好的性能,硬件配置需要考慮這些因素。
以下是一些常用SAR成像算法的計算特點:
§ 脈沖壓縮:基于CPU單核計算,計算量較小。
§ 距離遷移校正:基于CPU單核或多核計算,計算量較大。
§ 相位校正:基于CPU單核或多核計算,計算量較大。
§ 目標識別:基于CPU多核或GPU計算,計算量較大。
§ 地形測繪:基于CPU多核或GPU計算,計算量較大。
§ 三維重建:基于GPU計算,計算量最大。
高分辨率SAR(合成孔徑雷達)成像軟件用于處理和分析SAR數據,以生成高分辨率的地表圖像和提取地物信息。以下是一些常見的高分辨率SAR成像軟件和它們的主要功能,以及每個功能的計算特點和推薦的計算機硬件配置:
1)MATLAB SAR工具箱 :
- 功能:提供一系列MATLAB函數,用于處理SAR數據、成像、濾波、地物檢測、變化檢測等。
- 計算特點:MATLAB SAR工具箱通常需要大量內存和計算資源,特別是在處理大型SAR數據時。
- 計算機硬件配置推薦:多核CPU,大內存(至少16GB),高性能GPU(可選),大容量存儲(以容納SAR數據)。
2) ENVI SARscape:
- 功能:提供全面的SAR數據處理和分析功能,包括預處理、成像、分類、變化檢測等。
展開 AMD EPYC 128核心256線程 CPU計算服務器/GPU服務器仿真計算、HPC計算、大數據分析、
適用場景:
CAE/仿真計算: 如Fluent, Abaqus, ANSYS等,能極大縮短求解時間。
大數據與數據分析: 海量內存和多核心能輕松處理TB級數據集。
人工智能與機器學習: 適合模型訓練和推理,尤其適合中等規模或作為大型集群的一個計算節點。
科研計算: 在物理、化學、生物、氣象等領域進行復雜的數值模擬。
虛擬化與云計算: 可以創建大量的虛擬機,作為私有云或虛擬桌面的主機。
媒體與娛樂: 用于三維渲染、視頻編碼等任務。

航空航天領域的飛行器氣動設計、結構強度與疲勞、燃燒與傳熱、電磁散射(隱身)、軌道動力學 算法特點,及圖形工作站硬件配置推薦
大規模分析可高度并行: 當進行星座設計、軌道碎片分析、不確定性量化(蒙特卡洛仿真)時,需要計算成千上萬條獨立的軌道,這些軌道之間沒有依賴關系,可以完美并行。
-計算平臺:
CPU單核計算(影響單次仿真速度): 對于單個航天器的精密軌道確定,CPU的主頻是影響計算速度的關鍵因素。CPU多核計算(用于大規模并行): 進行星座分析或蒙特卡洛仿真時,每個CPU核心可以負責一條或多條軌道的計算,擴展性非常好。GPU計算(潛力巨大): GPU是進行大規模軌道并行計算的“神器”。成千上萬個GPU核心可以同時計算數萬條不同的軌道,效率遠超CPU。STK等軟件的專用模塊正在利用GPU進行此類計算。
UltraLAB產品配置的建議
基于以上分析,您在為航空航天領域的客戶配置UltraLAB工作站時,可以這樣進行硬件選型:
氣動/電磁/燃燒仿真客戶:
GPU是第一優先級: 強烈推薦配置NVIDIA高端專業卡(RTX 6000 Ada)或多張RTX 5090。這是提升其核心工作效率最關鍵的投資。CPU多核是第二優先級: 搭配高核心數的CPU(如AMD Threadripper),用于前處理、后處理以及GPU無法完全覆蓋的計算部分。內存容量要巨大: 256GB是推薦起點,根據模型規??膳渲?12GB或更多。
結構/軌道動力學客戶:
均衡的CPU是關鍵: 推薦高主頻、多核心的CPU。AMD Ryzen 9或Intel Core i9的旗艦型號是性價比很高的選擇。對于超大規模結構模型,Threadripper更佳。GPU用于加速和可視化: 一張高性能GPU足以應對加速計算(如果求解器支持)和復雜模型的后處理顯示。內存容量: 64GB起步,128GB或256GB用于大型結構模型或星座分析。
展開 汽車照明 | 寶馬集團借助仿真及加速計算方案實現舒適的駕駛環境
利用NVIDIA加速GPU計算,將光學設計分析速度提高300倍
在寶馬集團,Weselake有機會探索并設計各種風格的內部照明概念——從MINI的趣味活潑,到寶馬的精致優雅,再到勞斯萊斯的極致奢華。雖然它們的風格各不相同,但相關仿真往往都規模龐大,因此需要較長的運行時間。此前,使用CPU計算,Weselake需要進行數個小時的測試運行。在這些測試運行結束后,實際仿真還需要長達一周的時間。如果出現任何問題,則很可能需要重復整個測試和實際仿真周期。
利用Speos軟件和NVIDIA RTX 6000 Ada Generation GPU,Weselake能夠將運行光學仿真的速度提高300倍。進一步來說,該設置顯著提升了Speos軟件的性能,將單次測試運行時間從數小時縮短至不到10分鐘。
Weselake指出:“將仿真時間從長達一周縮短至僅幾小時甚至幾分鐘,這對我的工作非常有益。之前,每次運行規模較大的仿真時,我都要花費數天甚至一周的時間。現在,我可以利用額外的時間將精力投入到其他任務。”
那么,這種加速是如何實現的呢?NVIDIA的加速計算平臺融合了48GB的海量內存和卓越的處理能力。將其與Speos軟件結合使用,Weselake能夠獲得執行復雜光學仿真所需的計算能力,從而增加設計迭代次數,更快地解決挑戰。此外,其還使得在同一天進行快速、臨時的測試運行成為可能,Weselake認為,這是一個巨大的優勢。
“借助這一設置,我能夠使用NVIDIA GPU加速計算以300倍的速度運行更多種類材料的仿真。我可以創建演示、比較強度,并對眩光和反射的材料選項進行排序。而且,我經常能夠在需要展示結果的當天就完成這些工作,這非常令人驚嘆?!?新功能帶來材料領域的新發現
在需要進行對比時,這些功能對Weselake來說意義重大。
展開 2023年最強大的深度學習多機集群配置推薦
2023年隨著ChatGPT的大熱,人工智能研究再次火熱,如果A100被限制,A800被閹割,還不斷漲價,搞研究,完全可以考慮RTX4090,更多的GPU組成集群,性價比超高
相關機型:
(1)GPU計算服務器(計算節點)
機型:UltraLAB GX650M(2021年上市的最新機型)
技術特點:采用intel第3代Xeon可擴展處理器、配備nvidia RTX 40系列GPU計算卡,網口配備56G IB網口,硬盤采用SSD,保證硬件配置計算更強、io帶寬更高、整機性能全方位優化,保證多用戶多任務神經元完美計算能力。
(2)存儲服務器(存儲節點)
相關機型:UltraLAB N630A(8盤位)、N630B(16盤位)
技術特點:
CPU 采用intel Xeon第2代可擴展處理器
高速緩存盤:配備M2.SSD確保數據處理的高速讀寫(讀寫3G/s以上)及超低io延遲、
配備并行存儲:數據備份安全可靠、最大容量到112TB(8盤位)/240TB(16盤位)
網口:配備雙56G光口,
另外,整機性能全方位優化 支持遠程操作、遠程管理,系統管理員和使用者直接在辦公室甚至異地進行操作。
展開 2023年人工智能訓練與推理工作站、服務器、集群硬件配置推薦
AI集群系統相關產品介紹
下面是西安坤隆計算機科技有限公司提供的基于ChatGPT科研型AI集群配置方案
(1)GPU計算服務器(計算節點)
相關機型:UltraLAB GX658
技術特點:
GPU 配備最高8塊nvidia RTX/Tesla系列GPU計算卡,
CPU 采用intel第3代Xeon可擴展處理器,支持PCIe 4.0 x16接口
網口配備100G IB網口,
硬盤采用SSD,
保證硬件配置計算更強、io帶寬更高、整機性能全方位優化,保證多用戶多任務神經元完美計算能力。
展開