行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級

“ IO一旦出現問題,整個計算效率會降低50%以上。License、昂貴的硬件、緊張的項目周期都會因此而卡頓,而我們的系統可以幫助包括像英偉達這樣的頂尖客戶隨時了解研發資源的實時情況和實時瓶頸。

—— Altair 企業計算部技術總監 王軼華

在2024年 Altair 技術大會的精彩演講

眾所周知,Altair有三大產品線,AI產品線、HyperWorks產品線以及HPCWorks產品線。Altair在全球服務了大量包括芯片半導體、CAE、氣象、生命科學等不同領域學科的HPC(高性能計算)應用需求

為了更大范圍擴展服務,我們也在不斷收購和增加產品線,今天主要介紹一下最新的產品和技術以及分享如何幫助國內客戶實現HPC業務降本增效的案例。分為以下幾個部分:

1、 HPCWorks解決方案更新;

2、 AI和HPC融合的解決方案;

3、 HPC軟件優化方向;

4、 HPC利用率優化。

以下為具體演講內容:

01 HPCWorks解決方案更新

首先一起看看HPCWorks最新的情況:

大家都知道,目前企業的研發資源越來越多,同時會產生非常多復雜的需求,例如很多企業有不同架構資源需要混合,可能有Windows、Linux、英特爾、英偉達或者ARM處理器架構等幾十個廠商的軟件,以及上云下云等需求。

目前Altair已經具備了幫助用戶完成全場景覆蓋以及不同系統平臺統一調度和管理的能力,同時提供了很多非常個性化的功能,比如高吞吐的計算。

日常有一些仿真計算是以分鐘或者小時為單位的,但是在芯片行業或數據科學行業,可能是以毫秒級為單位的。一天超過百萬級計算任務的時候,企業對于作業調度軟件和基礎設施的需求是完全不同的。我們的高吞吐百萬級作業調度能力以及基于存儲感知的調度可以幫助用戶進行上云下云的HPC調度。

HPC里非常重要的是IO和存儲。因為仿真的數據越來越多,結果越來越大,IO層面一旦出現瓶頸,會讓整個HPC系統形成阻塞。我們的IO監控和遙測遙感工具可以讓用戶實時知曉整個后臺算力的IO瓶頸和當前IO負載的情況。

我們也提供了全新的一體化門戶和遠程前后處理的技術。Altair有很多技術棧,可以通過HPC技術在云端直接調用GPU卡,啟動Windows,從而啟動Altair的前后處理軟件,或者其他第三方公司的圖形軟件。用戶可以把整個數據處理放在數據中心,也就是用戶的工作站,不需要GPU卡,只需要一個瀏覽器或者客戶端就可以完成一整套HPC計算與操作。

我們也有HPC管理系統,可以在HPC端提供管理員可見的基于Web的管理模式。另外我們創建了一個用于流程整合和數據治理的平臺,在CAE行業叫仿真流程和數據管理,在芯片行業主要是芯片研發的多流程管理。

此外,我們還有License的監控和管理系統,對于整個企業來說仿真的資源占到非常大的比重,目前我們有一整套解決方案專門用于仿真軟件的License使用情況、瓶頸情況以及明年使用情況的預測。

接下來介紹AI技術棧的導入:

現在很多客戶需要CAE、AI,甚至有一些客戶有芯片研發的需求,我們可以整合成一個統一的平臺,例如PBS、HPCWorks等。我們提供了AI整套解決方案,包括和CAE的混合管理能力,以及對于云和成本的管理能力。

目前我們有四個作業調度軟件:PBS、Accelerator、Grid Engine(見下圖),可以服務于不同的業務場景。比如比亞迪不僅有整車的研發團隊,還有芯片的研發團隊,用我們的作業調度軟件實現了一整套研發資源的調度和管理需求。

目前我們的應用性門戶有Access、Control,同時還有對于IO、對于License的監控平臺,以及對于IO和研發流程管理的平臺。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖1

目前很多用戶都主要在用CAE的業務場景,但其實未來AI以及對于AI業務的混合管理會成為一個越來越重要的需求。我們提供對于AI平臺、CAE平臺以及EDA平臺的大的整合管理,未來用戶的研發資源池、算力池、存儲池等幾種不同的業務可以實現完全打通共享的狀態。

接下來分享HPCWorks如何通過我們的解決方案幫助用戶不斷迭代和優化業務

目前我們有資源調度軟件幫助用戶提升計算效率,同時我們有用于存儲和硬件系統監控的Mistral。我們可以了解到底層硬件當前最內核的狀況,這個對于很多用戶來說是一個黑盒。

全球的著名公司,包括英偉達都在用我們的產品進行大規模HPC后臺IO系統優化。IO一旦出現問題,整個計算效率會降低50%以上。License、昂貴的硬件、緊張的項目周期都會因此而卡頓,我們的系統可以幫助包括英偉達這樣頂尖的客戶隨時了解研發資源的實時情況和實時瓶頸。

10月份Altair發布了一個新的產品:桌面軟件的監控和分析平臺,幫用戶在整個企業內部(除了后端數據中心的HPC系統和存儲以及License之外)管理每一個研發工程師桌面的工作站軟件使用情況。每一個人在工作站上裝的軟件、軟件打開時間、軟件使用情況、License使用情況、審計等,都可以在工作站采集到信息,然后形成大的數據池。

了解到整個研發資源的使用情況后,使用Altair的Monitor,可以跟SAO進行合并,幫客戶了解到浮動License的使用情況。我們還有基于SDM的項目管理以及一個新的產品InsightPro,可以幫客戶了解到HPC基于作業調度軟件層面的使用情況,基于HPC項目人員、時間節點,甚至一些工況的分析情況。

我們也加入了AI功能,在門戶里用戶可以通過AI功能在提交和計算任務之前就了解需要的時間和大概的資源。我們也提供了AI的業務場景,比如大家經常會用到的Jupiter Notebook的統一整合,包括Container和 K8S的整合,實現完整的AI算力和技術架構的整合和管理。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖2

02 AI和HPC融合的解決方案

在AI和HPC整合方面我們也做了不少努力。國內很多用戶希望專用自己的AI系統、AI算力、AI工程師,而CAE系統和軟件給專門的CAE團隊使用。但其實全球很多企業在底層基礎架構,包括服務器、顯卡、GPU卡等是可以作為整合的基礎算力的。Altair HPCWorks的PBS就可以實現AI、CAE、EDA的計算資源池形成統一的整合。

那么,CAE和AI之間的區別是什么呢?CAE是標準的多線程并行計算,或者MPI的跨節點的計算。AI需要通過Container啟動鏡像文件,然后開始訓練或者AI算法的學習過程。

如圖中藍色部分,我們提供了包括Spark、Magpie等的集成,也提供K8s的整合。我們還可以支持多種多樣的Workload,放在一個統一的架構上進行管理。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖3

對于很多AI研發工程師來說,AI和CAE的最大不同在于AI有專門的研發Workflow,這些Workflow是通過第三方的工具(比如 KubeFlow或者MLFlow等)實現,這些工具可能原生對接的管理系統是Kubernetes(K8s),但Kubernetes其實是一套專用的系統,基本上只針對于AI的業務場景。

很多用戶希望實現資源復用,所以Altair開發了PBS Kubernetes Connector,把底層K8s的調度器替換成了PBS,使每一個GPU的資源池上有一個PBS的守護進程,叫PBS Mom。

用戶通過MLFlow或者KubeFlow提交AI訓練任務的時候,K8s會找到PBS的調度器,啟動每一個硬件資源上的守護進程。通過這個技術實現昂貴的GPU資源在CAE和AI兩個業務場景的復用,同時不改變原有的用戶使用習慣。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖4

目前,我們的HPCWorks也在不斷加入AI功能,包括Deep Learning功能,也會提供給用戶基于機器學習的資源預估功能。

2024年我們新發布了2024.2版本的HPC,更新了入口的一個功能,如圖所示,Altair OptiStruct的結構求解器,在選擇不同內存的時候,會對計算的時間和性能產生影響,用戶輸入不同的CPU核數或者內存參數的時候,菜單會自動給一個預估時間。用戶在提交任務的時候就可以了解到需要怎么提高計算效率。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖5

舉個例子,一個AI工程師需要在AI的資源上提交一個Jupiter Notebook進行訓練,或者基于學習的計算任務。在我們的門戶里會給他一個基于Jupiter Notebook的啟動資源,這個資源是基于HPC的調度分配,只有當GPU卡閑著的時候才會接收到AI訓練的工作。

同時它也支持CPU和GPU的調度,在基于Web版本的用戶提交了任務之后,可以開啟一個IDE完成訓練所需的資源,這個資源在AI工程師不用的時候還可以用做遠程的前后處理以及CAE計算時需要GPU的業務場景。

03 HPC軟件優化方向

Altair除了提供HPC的調度器之外,還有一整套License管理和監控工具:

(1)Insight Pro:基于HPC使用情況的數據管理

(2)SLAM:整合了之前的SAO軟件資產優化和License Monitor兩個工具,可以自動抽取企業內部幾十種第三方CAE、CAD或者EDA軟件的License使用情況,進行數據清洗和數據入庫,最后通過數據展示了解整個License的歷史使用情況,同時還有一些預測功能。

(3)LSC:具有License管理功能,面向企業內部的幾十個License Server,可以進行遠程License更換、License Option配置、License的啟停、License的狀態監控等。也可以導入企業內部的組織架構,針對不同人員進行License的消耗和使用情況管理。

(4)DSUA:每一個工程師桌面電腦的License統計分析工具。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖6

如下圖,是整個解決方案的系統架構,中間有數據庫、Web Server、Scheduler,導入企業內部的組織架構,可以方便用戶了解不同部門不同人員不同項目組的License資產使用情況,進行基于人員的分析。同時會有HPC的數據進入,將各種各樣的License數據導入數據庫里。最后使用專門裝在每一個工程師工作站上的數據收集工具將數據收集起來。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖7

通過一整套的工具,用戶可以了解所有HPC端、License端、桌面工作端的實際使用情況以及生成相關的報表。

下圖是系統架構的通用因素,有高性能數據庫、數據清洗、認證功能導入等。我們會在每個浮動License上裝一個agent,把每個License的數據采集出來,放在數據清洗和數據存儲的數據庫里。最終會提供給用戶一個入口,通過這個入口可以看到企業內部所有License相關的消耗情況以及進行相關計費等。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖8

前面提到,我們有三個工具(目前都在HPCWorks的解決方案里),通過這三個工具,企業可以對License的所有監控管理以及每個工程師使用情況進行大的整合:

SLAM:是軟件資產優化和License監控的兩個工具的合并,可以快速地裝在所有的License Server上,把實時和歷史的數據進行大的整合。同時支持多種多樣的License服務器,可以把這些所有數據收集起來。

LSC:主要有License管理功能。

DSUA:是桌面License的管理工具。

License是非常昂貴的資源,可能比硬件貴很多,對很多用戶來說,這些資源的真正使用情況、飽滿度、使用位置、優化空間等都需要數據提供管理支持,最終可以幫助用戶規劃出正確的License投入。對于昂貴資產,通過數據的預測可以得到更加真實可靠的結果。

04 HPC利用率優化

HPC和軟件License通常有很多問題,可能出現資源不夠或庫存爆掉的情況。HPC關聯的資產通常非常昂貴,很多大型頭部企業每年在HPC上投的軟件費用可能上億,在算力的投入可能幾千萬。但是真正的使用情況以及問題的發現和解決對企業而言是個難點。

目前企業都面臨著降本增效的問題,期望通過現有的資源,在不增加投入的情況下提高有效產出以及提升用戶體驗。Altair在多年不斷探索和產品迭代中發現,用戶需要解決智能調度策略問題,在資源空閑的時候能夠自動把緊急任務或需要大量使用資源的任務安排出去,并且把用戶的計算時間進一步縮短,同時也能幫用戶發現上億資產背后的瓶頸

我們可以基于資源利用率幫用戶進行HPC優化。首先通過采集到的資源情況、IO情況、License情況進行大量分析,幫用戶診斷問題,帶來企業全局收益,提升整體輪轉效率,甚至實現用更少的資源完成更多的任務。

我們也可以基于資源切片分析進行優化。切片分析指通過后臺自動化策略幫助用戶實現智能調度,達到利用率的提升。

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖9

對于企業而言,及時發現問題并持續優化,可以大幅度提升企業投資回報。當面對各種約束條件的時候如何提升現有系統效率,是非常值得我們思考的問題。

以上,就是本次演講全部內容。


想了解更多 Altair HPCWorks新功能及降本增效案例內容,請點擊下方按鈕查看活動回放視頻。

點擊查看活動回放視頻

關于 Altair 澳汰爾

Altair(納斯達克股票代碼:ALTR)是計算科學和智能領域的全球領導者之一,在仿真、高性能計算 (HPC) 和人工智能等領域提供軟件和云解決方案。Altair 能使跨越廣泛行業的企業們在連接的世界中更高效地競爭,并創造更可持續的未來。

公司總部位于美國密歇根州,服務于16000多家全球企業,應用行業包括汽車、消費電子、航空航天、能源、機車車輛、造船、國防軍工、金融、零售等。

欲了解更多信息,歡迎訪問:

www.altair.com.cn

行業熱點|助力企業解決降本增效的難題,Altair HPCWorks新功能創新升級的圖10

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP

1
1