點擊申請試用:https://qr30.cn/BYPV8i
LS-DYNA求解效率深度測評
六種規模,本地VS云端5種不同硬件配置
LS-DYNA是一個以顯式求解為主,隱式求解為輔的通用非線性動力有限元分析程序,核心是求解器。
用戶主要是高校/科研機構和航空航天、汽車、電子/高科技、船舶、土木工程、制造和生物工程等行業,包括汽車碰撞、爆炸反應,甚至主動脈人工心臟瓣膜在血液泵送通過時的復雜啟閉行為。
1976年,LS-DYNA由美國Lawrence Livermore國家實驗室的J.O.Hallquist博士主持開發。1988年,LSTC(Livermore Software Technology Corp.)公司成立,LS-DYNA開始商業化。
1996年,LSTC與ANSYS合作推出ANSYS/LS-DYNA,結合了ANSYS的前、后處理工具和LS-DYNA求解器。2019年,Ansys收購LSTC。
如何提高求解器的計算效率?
本地和云上仿真并行計算是一回事嗎?
什么類型的云端資源更適合跑LS-DYNA?
LS-DYNA大規模并行計算效率優化明顯嗎?
在云上運行會改變用戶本地的使用習慣嗎?
今天我們通過一個實證來解答用戶在使用LS-DYNA上云過程中的這些關鍵問題。
用戶需求
某車企CAE部門建設有本地機房,
日常工作使用單機計算,不僅算得慢,且由于資源未得到統一管理,經常出現高性能機器排隊、低配機器空閑的情況,嚴重拖慢生產設計進度。
隨著公司業務的發展,CAE部門將在不久的將來面臨更大的業務壓力,部門負責人有意將部分LS-DYNA任務擴展到云端,但由于 沒有接觸過云,有很多疑問。
1、LS-DYNA任務能否在云端有效運行?計算效率能否優化?
2、LS-DYNA應用最適合的云端資源是哪種類型?
3、LS-DYNA
大規模并行場景是否依然能保持線性?
4、fastone能否進行資源統一管理,同時保持用戶本地的使用習慣?
仿真材料在承受短時高強度載荷時的響應,如碰撞、跌落以及金屬成型過程中發生的情況
技術架構圖:
LS-DYNA支持
基于Linux、Windows和UNIX的大規模集群的并行仿真計算,分為MPP(Massively Parallel Processing)版本和SMP(Symmetric Multi-Processing)版本。
SMP版本是多個CPU之間共享相同的內存總線等資源,一般只能在單機上運行,受單機CPU性能及CPU核數限制。
MPP版本是每個CPU有獨享的內存總線等資源,CPU之間通過網絡通信交換信息,可以在計算機集群上進行計算,大幅提升計算速度。
下圖這張PingPong測試(顧名思義就是找一個數據包不斷地在兩個節點之間丟來丟去,像打乒乓球一樣。)能看出從16 cores到240 cores,隨著核數增加,信息延時顯著高出一個數量級。而隨著通信數據增加到一定程度,信息延時會出現爆發性增長。
為了充分解答用戶的疑惑,我們
選擇了不同類型,不同代際與不同規模的云資源,分別做了以下場景的驗證。
實證場景一:不同類型配置
本地 VS 云端計算優化型實例 VS 云端通用型實例 VS 云端內存優化型實例
1、同等核數下,云端計算優化型實例的表現優于通用型實例、內存優化型實例和本地計算資源;
2、隨著核數的上升,由于節點間通信開銷指數級上升,性能的提升隨著線程數增長逐漸變緩。當核數增加到128核后,云端計算優化型實例與本地資源運行相同LS-DYNA所需的時間相差無幾。
1、本地使用64核計算資源運算一組LS-DYNA任務,耗時439分鐘;
2、云端調度64核計算優化型實例運算一組LS-DYNA任務,耗時375分鐘;
3、云端調度64核通用型實例運算一組LS-DYNA任務,耗時506分鐘;
4、云端調度64核內存優化型實例運算一組LS-DYNA任務,耗時533分鐘;
5、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務,耗時分別為1404、821、566、439、321、255分鐘;
6、云端分別調度16、32、48、64、96、128核計算優化型實例運算同一組LS-DYNA任務,耗時分別為1269、662、458、375、299、252分鐘。
可以看到當核數較少時,計算優化型實例的耗時要明顯少于本地資源,但隨著核數的增加,兩者的耗時逐漸接近,尤其是在128核時,計算優化型實例幾乎已經喪失了所有的優勢。
實證場景二:不同代際,同樣類型配置
本地 VS 云端計算優化型實例 VS 新一代云端計算優化型實例
新款計算優化型實例運算效率相比舊款提升約15%,且價格更便宜,但同樣存在線性不足的問題。
1、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務,耗時分別為1404、821、566、439、321、255分鐘;
2、云端分別調度16、32、48、64、96、128核計算優化型實例運算同一組LS-DYNA任務,耗時分別為1269、662、458、375、299、252分鐘;
3、云端分別調度16、32、48、64、96、128核新款計算優化型實例運算同一組LS-DYNA任務,耗時分別為1088、569、391、320、255、216分鐘。
新款計算優化型實例無論是在低核數還是高核數下相比老款均有約15%的性能提升。
我們來感受一下不同云廠商多款計算優化型實例的價格差異:
在同等規格下,新款的價格普遍要比舊款便宜,最低甚至接近六折。
當然,并不是所有的云端新款實例都比舊款又快又便宜。
比如我們之前在運算Amber任務時,NVIDIA Tesla K80(2014年上市)的耗時是V100(2017年上市)的約5-6倍,價格卻只有后者的三分之一。
這種時候, 我們必須在時間和金錢之間做出一些取舍。詳細可以看這里 《 生信云實證Vol.6:155個GPU!多云場景下的Amber自由能計算 》
同為計算優化型實例,不管新款舊款,都沒有解決LS-DYNA任務大規模并行計算不線性問題。
實證場景三:不同規模云端擴展性驗證
本地 VS 云端計算優化型實例 VS 云端網絡加強型實例
1、在云端使用網絡加強型實例,調度128核計算資源,最多可將運算一組LS-DYNA任務的耗時縮短到135分鐘,只有本地資源和云端計算優化型實例耗時的約二分之一;
2、網絡加強型實例有效解決了LS-DYNA任務并行計算節點間通信問題,在云上展現了良好的線性擴展性。
1、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務,耗時分別為1404、821、566、439、321、255分鐘;
2、云端分別調度16、32、48、64、96、128核計算優化型實例運算同一組LS-DYNA任務,耗時分別為1269、662、458、375、299、252分鐘;
3、云端分別調度16、32、48、64、96、128核新款計算優化型實例運算同一組LS-DYNA任務,耗時分別為1088、569、391、320、255、216分鐘;
4、云端分別調度16、32、48、64、96、128核網絡加強型實例運算同一組LS-DYNA任務,耗時分別為1202、603、404、307、209、163分鐘。
從上表中可以明顯地觀察到,網絡加強型實例雖然在低核數下的表現并不起眼,但隨著核數的增加,性能提升幅度相當大,在128核的環境下相比本地資源的性能提升將近一倍,線性表現堪稱完美。
在Fluent實證里,我們
的切入角度是任務提交方法:
通過journal標準流程化 VS Fluent應用圖形界面兩種模式,適配不同基礎的用戶類型。
不論是單機模式還是使用服務器集群,用戶只需要把數據傳到本地機器或服務器上,便可以直接跑任務,當然后面可能有IT部門會完成服務器端數據管理工作。
用戶將數據傳到本地機器或服務器之后,還需要在云端開啟資源、搭建環境,手動進行數據的上傳和下載。
和本地一樣,用戶只需要把數據上傳到我們的DM(Data Manager)工具上,就可以直接使用數據來跑任務了。
用戶無需在多套認證系統之間切換,使用統一的身份認證即可傳輸數據,并自動關聯云端集群進行計算,不改變其原有的使用習慣。
2、一次上傳,多次使用
數據只需上傳一次即可多次使用,其他用戶在經過統一認證后也可隨時共享,極大提升團隊協同能力。
而且,隨著任務的調整,有大量小文件需要增量上傳。在這個實證中,用戶需要上傳9600個任務文件,每個幾十MiB不等。
我們的DM工具能很好地滿足用戶需求,支持全自動化數據上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數據。
同時,利用fastone自主研發的分段上傳、高并發、斷點續傳等數據傳輸技術,優化海量數據的傳輸效率。
1、LS-DYNA任務能夠在云端有效運行,大幅提升求解效率;
2、匹配合適類型云資源,LS-DYNA應用的高效率并行性在云端同樣適用;
3、fastone的DM工具為用戶提供了簡單有效的云端數據傳輸方案,同時無需改變用戶本地使用習慣;
4、fastone能有效進行資源的統一管理和監控。
我們有個【在線體驗版】,掃碼即可注冊,2
分鐘自動開通。
即刻就能獲得TOP500這種超級算力,你就不想試一下?
你想要的我們可能都有
點擊申請試用:https://qr30.cn/BYPV8i
掃碼申請免費試用