高性能計算:RoCE v2 vs. InfiniBand網絡該怎么選?

高性能計算網絡平臺解決方案能夠解決物探高性能計算中,基于GPU的程序必須調用 IB棧,而傳統TCP/IP 堆棧應用無法支撐高性能計算網絡通信的問題。


ROCE v2架構解決方案逐漸被客戶接受(參考:詳解RoCE網絡技術RoCE網絡技術和實現方式), 生態和應用不斷成熟,同時網絡傳輸效率和可靠性也得到加強,通過ROCE v2 技術的運營降低了主機CPU消耗。


高性能計算:RoCE v2 vs. InfiniBand網絡該怎么選?的圖1


HPC是指利用聚集起來的計算能力來處理標準工作站無法完成的數據密集型計算任務,例如勘探業務中所需要的仿真、建模和渲染等。我們在處理各種計算問題時常常遇到這樣的情況:由于需要大量的運算,一臺通用的計算機無法在合理的時間內完成工作,或者由于所需的數據量過大而可用的資源有限,導致根本無法執行計算。


HPC方法通過使用專門或高端的硬件,或是將多個單元的計算能力進行整合,能夠有效地克服這些限制。將數據和運算相應地分布到多個單元中,這就需要引入并行概念。 


不同類型的建模問題具有不同的可并行程度。以參數化掃描為例,這種問題求解多個具有獨立的幾何、邊界條件或材料屬性的相似的模型,幾乎可以完全并行計算。具體的實現方法是為將每一個模型設置分配給一個計算單元。這類問題非常適合并行計算,因此通常稱為“易并行問題”并行問題對集群中的網絡速度和延遲非常敏感。(在其他情況下,由于網絡速度不夠快,無法有效處理通信,很可能導致速度減慢。)因此,可以將通用硬件連接起來,加快這類問題的計算速度。 


傳統網絡中 TCP/IP 堆棧隨著網絡接入帶寬的增長,對 CPU 的消耗越來越高,HPC 網絡通常采用 RDMA 技術對網絡減少TCP/IP 堆棧對計算節點 CPU 的消耗,降低網絡傳輸延時。


RDMA 允許在兩臺服務器的內存之間直接轉移數據(參考:詳解RDMA架構和技術原理談談高性能RDMA網絡優勢和實踐深入淺出全面解析RDMA),而無需任何一臺服務器的 CPU 參與(也稱為零拷貝網絡),因此可實現更高效的通信。這種處理在支持 RDMA 的網絡接口卡(NIC)上進行,并且會避開TCP/IP 堆棧,因而加快數據轉移。如此,就可以直接將數據傳送到目標服務器上的遠程內存中,降低用于其他處理的服務器的 CPUI/O 工作負載。 


傳統的IB交換體系架構(參考:Infiniband架構和技術實戰InfiniBand高速互連網絡設計的研究200G HDR InfiniBand有啥不同?)利用了 RDMA 技術技術,通過業界最小的轉發延時,為 HPC 提供高性能低延時的網絡平臺,但 Infinband交換機有自己的獨立架構體系和協議(IB 協議和規范):


  • 1. 必須和支持 IB 協議的設備進行互聯。
  • 2.Infinband 體系相對封閉,難以替換。
  • 3. Infinband 體系和傳統網絡對接需要單獨的網關。


對于在整體 HPC 計算平臺中,存在這大量對延時并非絕對敏感的應用,而以昂貴的 IB 交換端口來承載數目眾多的這些應用無形中增加了企業的計算成本、維護成本、管理成本,制約了 HPC 整體系統的擴展。從業界以太網絡基于10G/25G/40G/100G 帶寬增長的趨勢的發展趨勢來看,隨著計算規模的不斷擴增,原有很多基于 IB 建立的網絡無論從帶寬介質形態,端口密度等都需要擴容,對于非延時絕對要求的 HPC 應用接入,都傾向于采用以太網替換原有 IB 交換機以降低成本。 


RoCE 規范在以太網上實現了 RDMA 功能,ROCE 需要無損網絡,RoCE的主要優勢在于它的延遲較低,因此可提高網絡利用率;同時它可避開TCP/IP 并采用硬件卸載,因此 CPU 利用率也較低。


高性能計算:RoCE v2 vs. InfiniBand網絡該怎么選?的圖2


新 RoCEv2 標準可實現 RDMA 路由在第三層以太網網絡中的傳輸。RoCEv2 規范將用以太網鏈路層上的 IP 報頭和 UDP 報頭替代 InfiniBand 網絡層。這樣,就可以在基于 IP 的傳統路由器之間路由 RoCE。 


  • RoCE v1協議:基于以太網承載 RDMA,只能部署于二層網絡,它的報文結構是在原有的 IB架構的報文上增加二層以太網的報文頭,通過 Ethertype 0x8915 標識 RoCE 報文。 
  • RoCE v2協議:基于 UDP/IP 協議承載 RDMA,可部署于三層網絡,它的報文結構是在原有的 IB 架構的報文上增加UDP頭、IP 頭和二層以太網報文頭,通過 UDP 目的端口號 4791 標 識 RoCE 報文。RoCE v2 支持基于源端口號 hash,采用 ECMP 實現負載分擔,提高了網絡的利用率。


利用這項創新,業界就能夠滿足企業內日益增長的高性能和橫向擴展架構需求。RoCEv2 可幫助其實現融合路徑的持續性并提供高度密集的數據中心,同時為基于 IB 的應用移植,提供了快速遷移的方式,減少了開發工作量,提高了用戶部署應用和遷移應用的效率。


高性能計算:RoCE v2 vs. InfiniBand網絡該怎么選?的圖3


國內華為、浪潮、華三等主流網絡廠商都支持RoCE網絡方案。以浪潮為例,典型方案采用CN12000 接入核心,形成三張網:計算網、管理網、存儲網,在計算網實現高密度,高轉發,配合主機實現 RDMA 關鍵技術的運用,實現基于 IB 協議開發的高性能應用平滑遷移到更低成本的以太交換網絡中來。


網絡高性能產品的支持,極大簡化了高性能網絡架構,并降低了多級架構層次造成的延時,為關鍵計算節點接入帶寬的平滑升級提供有力支撐。采用 RoCEv2 標準作為核心,通過對計算節點 RoCEv2、DCE/DCB 的支持,消除了程序移植帶來的復雜性和額外的工作量,降低了計算節點 TCP/IP 堆棧對主機 CPU 的消耗。 


核心網絡通過PFC/RoCE等技術的支撐,使得高性能計算網絡具備更高的開放性,在沒有降低計算效率的前提下,降低了整個高性能集群平臺建設的成本。



文章來源:架構師技術聯盟

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP