[經驗分享]如何借助云調度軟件提升CST計算效率?
高性能計算(HPC)技術在工業領域、科學研究等各個領域發揮著越來越重要的作用。當仿真用戶及軟硬件資源發展到一定的階段,如何有效地管理和分配軟硬件資源以及仿真任務調度是一個不容忽視的問題。現階段業界主流方式是采用調度軟件,來分配管理軟硬件資源的使用。
調度軟件給用戶和計算資源之前提供了一個平臺,幫助客戶解決以下問題:
? 分配硬件資源池;
? 設置任務優先級和分配;
? 單機、DC、并行計算等自動選擇;
? 解決資源利用不均衡問題;
? 用戶各自訪問數據管理;
? CPU/GPU集中管理;
? 利用閑暇時間資源;
? 軟硬件利用率統計和報表;
以CST DC方案為例,提交的計算任務在DC統一排隊;DC對每個任務處理會有四個環節:數據解析與預處理(時間占比一般10%左右)、計算求解、數據合并(求解與合并占比一般在80%左右)、數據回傳(一般在10%左右),數據回傳完成后DC才將當前計算資源釋放為空閑;DC完成一個任務的解析、啟動該任務計算后,再處理下一個排隊任務,經常會出現DC排隊任務等待時間較長的情況。
為了解決這個問題,本文給出了兩種高性能計算云調度的方案,可以進一步提高仿真平臺資源利用率。
1. 對單臺GPU服務器可以完成的中小模型,建議不通過DC運行,而是通過高性能計算的云調度軟件提交非DC方式計算,這樣減少了DC數據解析、合并、回傳時對硬件資源的時間占用,將硬件利用率提升20%;針對中小模型,同時還有2個優化的參考經驗,
? 以GPU卡為單位細粒度的分配資源,避免超額分配。優化的分配標準是,求解中每顆GPU利用率都在70%以上,計算時可以通過觀察GPU資源利用率來評估。如一個模型分配了4顆GPU計算,計算時有2顆GPU在70%利用率、2顆在20%利用率,說明資源過分配過多,該模型分配4顆GPU和2顆的計算的時間會差不多。也就意味著這種情況細粒度調整后,1個節點的硬件完成的任務數翻倍,利用率提升100%,同時每個任務的用時都和原來超額分配時一樣。
? 求解時指定具體GPU ID計算,這樣計算時可以獲得指定的GPU全部資源,經常會帶來5%左右的性能提升。如果不指定GPU,操作系統會在已有任務的GPU沒有滿負載時,繼續分配計算任務,比如會出現這樣一個場景:一個4顆GPU服務器運行了2個2GPU任務,這4顆GPU只有前2個或前3個負載超過70%,后面的1-2個利用率很低。如指定GPUID每個任務會獨占2GPU,每個GPU利用率可能在50%左右,計算性能會有提升。
2. 對需要多臺機器并行計算的中大型模型,借助云調度軟件的動態部署技術,動態為每個任務部署自己的DC服務(DC占用很低的cpu資源),這時該DC服務只有一個任務、不需要排隊,而且云調度軟件不是依次處理排隊任務,而是并行處理每個排隊任務,徹底避免了DC的排隊時間;任務完成計算和數據合并后馬上注銷DC服務、釋放計算資源,由云計算軟件數據回傳,減少了回傳的時間占用。通過這一方式,減少了DC方案中20%的非計算時間的資源占用。對中大模型,給計算任務分配的合理節點數,也參考中小模型思路,以分配的計算節點GPU利用率都達到70%以上為最優,避免超額分配。
綜合上面2個方面,借助云調度軟件與DC的結合使用可以為用戶帶來20%以上的利用率提升,也就是如果當前計算平臺每天完成20個任務,通過優化方案可以每天完成24個以上的任務,加速CST仿真工作。
凌云仿真信息技術有限公司,有多年的高性能計算與調度軟件經驗,可以為用戶提供結合DC功能的云調度平臺,用戶通過凌云網頁提交CST計算任務,能夠實現中小模型以非DC方式,細粒度的在指定GPU運行;以及中大模型動態部署DC后高效運行,DC任務運行結束后即刻釋放資源,調度平臺進行數據回傳,大幅提升了計算平臺的使用效率。
若您在使用cst過程中有計算加速或者調度管理的相關需求,可以隨時聯系:support@espbs.cn。
感謝閱讀,如果覺得本篇文章有用,請點贊、收藏、在看或贊賞,分享給更多朋友了解和關注我。
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















