發布

RDMA的案例

設計仿真 | VTD傳感器仿真與RDMA技術的應用

在傳輸硬件配合的方面，海克斯康工業軟件VTD與NI達成深度合作，雙方基于RDMA技術的應用在多傳感器仿真領域取得了較大的進展。RDMA(Remote Direct Memory Access)，全稱遠端內存直接訪問技術，相對于傳統的TCP/IP通信具有以下特點： CPU Bypass 數據傳輸過程中，僅僅使用操作系統建立通道，后續應用程序可繞過CPU直接進行消息傳遞。可有效降低CPU負載，尤其是在多傳感器仿真使用環境中可有效提升仿真性能，最大限度發揮CPU自身性能。內核Bypass IO數據流程可繞過內核，在用戶層完成數據準備后即可直接通知硬件進行數據的收發，避免系統調用和上下文切換所帶來的時間和資源開銷。零拷貝減少數據在存儲區域之間的頻繁拷貝，無論本地還是遠端進程均可實現對于設備虛擬內存的直接訪問，無需復制到網絡層，從而有效降低數據傳輸的延遲以及由于拷貝工作帶來的CPU消耗。高帶寬相較于傳統在工作站上使用的萬兆網口，RDMA網卡可實現100~200Gb/s的數據傳輸帶寬。對于當前高分辨率（4k）相機、多線固態激光雷達傳感器數據即時傳輸來說RDMA網卡提供了傳統以太網接口無法比擬的優勢。目前海克斯康與NI率先在HIL測試領域引入了RDMA技術方案，通過共享內存直接讀取的方法實現了基于RDMA技術的激光雷達以及相機傳感器Raw data數據的獲取與傳輸，同時引入Ecu對于相機回控的機制，從而實現對于VTD攝像頭傳感器的故障注入模擬、曝光、白平衡參數動態調整等特性；相較于傳統方案，RDMA的應用可有效降低仿真工作站cpu在數據傳輸工作上的消耗，提升仿真運行性能以及數據傳輸效率。在系統布局上，可有效優化仿真系統結構，適應更加廣泛的測試系統需求。

展開

自動駕駛 | Ansys AVxcelerate Sensors利用NI-RDMA進行硬件在環（HiL）測試

不過，AVxcelerate 2024 R1版本中，包含了NI RDMA傳輸功能，能夠應對這一挑戰并促進數據的順暢傳輸。 Ansys AVxcelerate Sensors Software + NI RDMA Ansys與NI（現為愛默生旗下公司）正在合作為HiL驗證提供實時、物理逼真的高分辨率攝像頭合成數據，以解決測試限制問題。為此，他們開發了一種由NI RDMA和Ansys AVxcelerate Sensors軟件提供支持的閉環仿真方案，使客戶能夠通過NI實時硬件攝像頭接口板將實際仿真數據直接注入受測器件（DUT）的輸入端口。為了評估受測ECU的相關行為，必須注入準確的合成數據，而這就是需要物理精確仿真的主要原因。AVxcelerate軟件基于物理的高保真度仿真，有助于在完全動態的24位原始數據圖像中保存完整的場景信息。因此，成像器光譜范圍自適應、HDR成像器/DSP仿真和多曝光感知策略都能夠加以應用。在AVxcelerate Sensors應用中，可以實時生成圖像子集，以獲得快速、可驗證的結果。與使用傳統仿真技術相比，Ansys軟件可在極短的時間內實現經過驗證的攝像頭計算機視覺（CV）。 NI RDMA是這個閉環系統的一部分，它能夠以低時延和高帶寬傳輸大量合成數據，并實時托管高分辨率攝像頭饋送。本質上，NI RDMA驅動軟件支持兩個或多個系統使用RDMA技術（RoCE）通過融合以太網交換數據。它提取了RDMA兼容接口編程的低層細節，并具有簡單高效的應用編程接口（API）來傳輸數據。NI還通過開發軟件開發套件（SDK）進一步擴展了這些功能，該套件可與遵循相同開放性和系統兼容性方法的仿真環境實現簡單、快速以及與供應商無關的連接。

展開

VTD傳感器仿真與RDMA技術的應用

在傳輸硬件配合的方面，海克斯康工業軟件VTD與NI達成深度合作，雙方基于RDMA技術的應用在多傳感器仿真領域取得了較大的進展。RDMA(Remote Direct Memory Access)，全稱遠端內存直接訪問技術，相對于傳統的TCP/IP通信具有以下特點：CPU Bypass數據傳輸過程中，僅僅使用操作系統建立通道，后續應用程序可繞過CPU直接進行消息傳遞。可有效降低CPU負載，尤其是在多傳感器仿真使用環境中可有效提升仿真性能，最大限度發揮CPU自身性能。內核BypassIO數據流程可繞過內核，在用戶層完成數據準備后即可直接通知硬件進行數據的收發，避免系統調用和上下文切換所帶來的時間和資源開銷。零拷貝減少數據在存儲區域之間的頻繁拷貝，無論本地還是遠端進程均可實現對于設備虛擬內存的直接訪問，無需復制到網絡層，從而有效降低數據傳輸的延遲以及由于拷貝工作帶來的CPU消耗。高帶寬相較于傳統在工作站上使用的萬兆網口，RDMA網卡可實現100~200Gb/s的數據傳輸帶寬。對于當前高分辨率（4k）相機、多線固態激光雷達傳感器數據即時傳輸來說RDMA網卡提供了傳統以太網接口無法比擬的優勢。<img src="https://mmbiz.qpic.cn/sz_mmbiz_png/gokLzdV2z0aTW0yEiabwhIicVYvWoZRq0sqOs2riaFp7bpsUuaWc3ZpJTIspMYKGicLFwNsPS5wAZCUz5iaJBHPU1FQ/640?

展開

高性能計算：RoCE v2 vs. InfiniBand網絡該怎么選？

傳統網絡中 TCP/IP 堆棧隨著網絡接入帶寬的增長，對 CPU 的消耗越來越高，HPC 網絡通常采用 RDMA 技術對網絡減少TCP/IP 堆棧對計算節點 CPU 的消耗，降低網絡傳輸延時。 RDMA 允許在兩臺服務器的內存之間直接轉移數據（參考：詳解RDMA架構和技術原理、談談高性能RDMA網絡優勢和實踐和深入淺出全面解析RDMA），而無需任何一臺服務器的 CPU 參與（也稱為零拷貝網絡），因此可實現更高效的通信。這種處理在支持 RDMA 的網絡接口卡（NIC）上進行，并且會避開TCP/IP 堆棧，因而加快數據轉移。如此，就可以直接將數據傳送到目標服務器上的遠程內存中，降低用于其他處理的服務器的 CPUI/O 工作負載。傳統的IB交換體系架構（參考：Infiniband架構和技術實戰、InfiniBand高速互連網絡設計的研究和200G HDR InfiniBand有啥不同？）利用了 RDMA 技術技術，通過業界最小的轉發延時，為 HPC 提供高性能低延時的網絡平臺，但 Infinband交換機有自己的獨立架構體系和協議（IB 協議和規范）： 1. 必須和支持 IB 協議的設備進行互聯。 2.Infinband 體系相對封閉，難以替換。 3. Infinband 體系和傳統網絡對接需要單獨的網關。對于在整體 HPC 計算平臺中，存在這大量對延時并非絕對敏感的應用，而以昂貴的 IB 交換端口來承載數目眾多的這些應用無形中增加了企業的計算成本、維護成本、管理成本，制約了 HPC 整體系統的擴展。

展開

自動駕駛 HIL 測試：構建 "以假亂真" 的實時數據注入系統

2、零拷貝與低延遲的基石：DMA與RDMA 要實現“實時”注入，數據在注入設備內部的搬運效率至關重要。DMA和RDMA正是解決此問題的關鍵。 DMA (Direct Memory Access)：DMA是現代計算機系統的基本特性。它允許外設（如proFRAME板卡）在沒有CPU干預的情況下，直接與主內存進行數據讀寫。在默認的注入流程中，proFRAME從相機或網絡獲取數據后，通過PCIe總線直接將數據寫入由CPU預先分配好的內存緩沖區（Buffer）。這避免了CPU逐字節拷貝數據的開銷，顯著提升了吞吐量。通常，基于DMA的PCIe Gen3 x8鏈路，可以將延遲控制在1毫秒級別。 NVIDIA GPUDirect RDMA：GPUDirect RDMA允許將仿真的圖像數據直接從NVIDIA GPU發送到proFrame中，完全無需占用主系統內存（RAM）的帶寬，也無需CPU進行任何數據中轉。整個數據鏈路變為：aiSim -> GPU顯存 -> PCIe -> proFRAME 。這消除了內存與顯存之間的拷貝開銷，也為CPU節約了寶貴的內存帶寬資源，是構建微秒級延遲注入系統的核心技術。 3、物理鏈路注入：GMSL2與CSI-2協議棧 GMSL2 (Gigabit Multimedia Serial Link 2)：作為物理層載體，是專為汽車應用設計的高速串行接口。在仿真注入中，它的角色就是將編碼好的數字圖像信號，轉換為能在物理線纜上傳輸的電信號。 CSI-2 (Camera Serial Interface 2)：CSI-2是在GMSL2之上傳輸的數據協議。它定義了數據如何被組織和打包。

展開

詳談DPU技術挑戰和發展建議

RDMA 是超低時延網絡的關鍵技術，但是由于傳統 Socket 編程模型和RDMA Verbs 編程模型差距顯著，導致傳統應用遷移到 RDMA 網絡環境下需要進行大量代碼改造，進而給業務帶來不確定性風險或者可靠性風險，因此使用RDMA Socket 適配層屏蔽底層 RDMA 原語，向上對接 Socket 接口成為必然趨勢，通過標準化的適配層，可以實現傳統 Socket 應用無縫遷移到 RDMA 網絡環境，在不改變業務代碼的情況下，提高業務的響應時間和吞吐量。三、存儲系統：包含存儲接口和存儲網絡協議兩部分。基于開源 SPDK 框架提供存儲卸載服務，利用 SPDK 的 JSON-RPC 配置接口，為虛擬機、裸機、容器提供一致的 virtio-blk/NVMe 虛擬塊設備后端，基于 bdev 層抽象虛擬磁盤并提供QoS、加密、壓縮、DIF、EC、RAID 等高級特性。存儲網絡協議方面，iSCSI 協議運行在 DPU 上的 CPU 核上，需要支持標準 iSCSI-Initiator 的編譯和安裝；NVMe-oF 由 DPU 硬件加速引擎實現，需要實現 RoCEv2 等高性能 Fabric 網絡。四、計算系統：主要為 Hypervisor 計算虛擬化系統的前后端分離，在計算節點需要對 Hypervisor 軟件進行合理的剪裁和卸載。主機側保留輕量化的Hypervisor 前端，KVM 完成 CPU 和內存的虛擬化管理，DPU 側的 Hypervisor 后端配合 QEMU 完成虛擬機的初始化，并配合 Libvirt 完成虛擬機的生命周期管理。 Hypervisor 前后端對接應標準化，同時需要對操作系統內核進行深度剪裁和修改，業界尚無參考模型，需要共同探索。

展開

全球最快！北鯤云BurstFS問鼎IO500，成為最快的云上存儲系統 | 文末派送世界杯吉祥物！

運行在甲骨文云（OCI）上的北鯤云BurstFS文件系統以3033.03的總數刷新了 IO-500 基于公有云的存儲系統基準測試的記錄——比之前在 2019 年國際超級計算大會上創下的全球最快云上存儲系統WekaIO on AWS得分高出323%，比同樣基于甲骨文云的Oracle Cloud with WEKA on RDMA得分高出485%。更加值得關注的是，BurstFS僅使用了64個節點，而另外兩位分別使用了345及373個節點, BurstFS單節點得分是后兩者的17倍與28倍。整體排名表明，北鯤云的BurstFS在云上存儲領域獨占鰲頭，甚至可以與大部分本地超級計算機集群相媲美。 BurstFS作為一個Built for the Cloud的高性能并行文件系統，可為任何公有云上支持RoCE/InfiniBand/Ethernet的使用GPU或CPU的HPC集群提供最高帶寬和最低延遲性能，并且能同云廠商的對象存儲做自動化整合。符合POSIX 標準的文件系統BurstFS利用創新的、高度優化的軟件堆棧，例如OS BYPASS, RDMA通信, 大規模分布式元數據等技術。它專為企業級Cloud-HPC而構建，并且同對象存儲同步以實現極致性價比，并支持基于工作負載的分片、預讀、緩存、加密、鑒權和備份等功能。 "IO-500 基準測試的結果證實了我們在 CLOUD-HPC 市場中技術上的領導地位。BurstFS是一個先進的文件系統，旨在為任何規模、任何IO模型的計算提供極致性能”北鯤云首席技術官兼聯合創始人李青松說。"不久，這套存儲系統將集成到北鯤云的CLOUD-HPC平臺中，為像生信，制藥，人工智能等數據密集型的企業用戶提供更卓越的性能和更專業的服務。”

展開

重磅，Xilinx計劃收購Mellanox

Mallanox公司擁有的從光模塊、網卡、交換機、服務器到有源光纜的全系列200G產品，同時他們還提供RDMA（Remote Direct Memory Access,遠程直接內存訪問）技術、 GPU Direct RDMA技術、SHARP（Scalable Hierarchical Aggregation and Reduction Protocol）技術、NVMe Over Fabric Target Offload技術、SHIELD（Self-Healing Technology）技術和Socket Direct和Multi-Host技術，相信也是Xilinx 看中他們的一個原因。但我們應該看到，作為互連技術，IB與以太網、光纖通道和其他專有技術（例如克雷公司的SeaStar）有強烈的競爭關系。缺少服務器核心CPU的Mellanox被Xilinx收購，也許是一個不錯的選擇。

展開

DPU性能評測系統框架與測試流程

通過發起者發送請求，接收者響應請求，測量基于網絡的端到端操作，例如 RDMA Send/Receive 操作，NVMe-oF 遠程訪問。在這種測試模型中，根據從一端 DPU 系統到另一端 DPU 系統的請求時間和流量等測試DPU 的延遲、吞吐量等性能。端對端型測試系統在單端型測試系統的基礎上，增加網絡基礎設備（通常為網線）用于直接連接兩個單端測試系統，其結構如圖2.3所示。根據 DPU 所支持的網口速率不同，可采取不同的網絡連接設備，缺省值為 100Gbs 連接。多端型（Multi-End）測試系統多端型測試系統是由多個單端型測試系統經由復雜網絡（復雜的網絡拓撲）連接形成的測試系統。在這種測試系統中，可以模擬 DPU 所處的真實網絡環境，測試 DPU 網絡處理的實際性能。多端型測試系統模型主要用于模擬基于 DPU 構建的數據中心，通過復雜的網絡將眾多 DPU 系統 (功能相同或者不同) 互連起來，從而測試基于 DPU 系統實現的網絡、存儲或安全加速應用的真實性能，如NVMe-oF 讀取不同結點存儲系統的存儲資源、RDMA訪問不同結點的資源。在這種測試模型中，根據請求與響應時間、請求的數據量及并發的請求數等可以測試延時、吞吐量、連接能力等指標。多端型測試系統在單端型測試系統的基礎上，需要增加更復雜的網絡基礎設備用于連接不同節點的 DPU 系統。這些網絡基礎設施包括但不限于集線器、交換機、路由器等。在 DPU Benchmark 執行時，為了保證測試結果的準確性與可重復性，對于同一種測試用例執行兩輪（特殊的情況在具體的測試用例說明）。

展開

中國電信聯合上海打造國內首個超大規模國產算力液冷集群

“大規模算力集群暨人工智能公共算力服務平臺”是全國首個國產單池萬卡液冷算力集群，該集群采用新一代國產人工智能（AI）算力，實現全棧自主創新和技術突破，通過高速遠程直接數據存取（RDMA）連接各物理機節點，提供低延時、高吞吐量、無損通信網絡和強大的并行計算能力，擁有目前規模最大的全國產液冷機房，多項技術指標領跑全國。2024年上半年，中國電信將在上海規劃建設算力規模到達15000卡，其中單池新建國產算力達10000卡，總算力超4500P（每秒一千萬億次浮點運算）。位于上海市徐匯區的“模速空間”是全國首個大模型專業孵化和加速載體、大模型創新高地和生態集聚區。中國電信上海公司在“模速空間”啟用“雙萬兆接入暨一跳入算服務”，將為相關企業提供雙萬兆網絡和“一跳入算”服務，以及算力算網免費試用和優惠商用資費。中國電信上海公司總經理龔勃介紹，上海電信將與上海市徐匯區人民政府一起，共同推動“模速空間”成長為配套最好的、最具競爭力的大模型創新社區。中國電信上海公司還發布一系列人工智能公共算力服務產品。“我們將公共普惠、創新領先的算力供給，算、存、運一體的綜合算力服務模式，全面賦能上海市人工智能產業生態。”龔勃說。業界認為，隨著ChatGPT掀起人工智能發展新高潮，以AI為主要應用的智能算力成為未來算力增長點，支撐數字經濟蓬勃發展的重要底座。大模型參數量和訓練數據復雜性的快速增長，對智算系統提出大規模算力擴展需求。

展開

北鯤云告訴你足夠的存儲空間在高性能計算有多重要

容量: 10PB HDD + 1PB SSD 并行文件系統：帶寬20GB/s, IOPS: 280 萬，時延：0.2ms 單作業臨時高速存儲(按需)：Enhanced SSD, 容量500G – 500TB, 單盤 4GB/s吞吐, RDMA over RoCE, 25Gbps網絡對于普通用戶而言，這樣的存儲空間是足夠的，而且是免費開放的。對于傳統高性能計算應用來說，無論是生物基因、高能物理還是流體力學、視頻處理等等多種科研應用都會利用到海量數據，而提升數據的存儲空間和利用率就能夠更好的提升高性能計算的發展。

新一代航空航天總線技術

1　FC-AE協議集 FC-AE標準本身是一個FC應用到航空電子環境中的一組協議集，主要用于航空電子環境下各設備之間的數據通信，傳輸視頻、指控、儀器儀表、傳感器等數據，主要包含：FC-AE-1553、FC-AE-ASM、FC-AE-RDMA、FC-AE-FCLP及FC-AEVI共5種協議，目前FC已經被用在FC-35、B1-B、F18E/F、V22、Apache等機型，FC是四代和五代戰機的代表性技術之一。從國內整體應用形式看，FC-AE-ASM協議已經開始預研和驗證，并對國際標準協議進行了一些特定的改進，是將來國內應用的一個重點方向。 (光航信科技自主研發生產的FC－AE產品組建的地面仿真測試系統） 2　FC-AV（ARINC818）協議 FC-AV標準于2002年正式對外發布，主要基于FC 傳輸具備大數據量特點的音視頻數據流，針對工業級的應用，該協議在F18和C-130AMP等軍用機型上廣泛應用，主要用于傳輸機內的視頻和音頻數據。隨著航電技術的不斷前進，目前美國和歐洲在機型視頻系統設計時已經開始全部轉向ARINC818（航空電子數字視頻總線，Avionics DigitalVideo Bus，ADVB）標準于2007年由美國航空電子委員會（AEEC）正式對外發布，主要用于傳輸關鍵非壓縮數字視頻，采用單向點對點傳輸方式，用于完成執行關鍵安全視頻任務，目前該協議在波音787，A400M、A350XWB機型上得到成功應用。目前國內該項總線技術還處于預研階段，預計將來在國內軍用機型及其他項目上會有廣泛的應用，FC是一項重要的總線技術發展方向。

展開

異構將成超算主流，Habana的AI專用芯片顯威力

Gaudi是目前業界唯一內置集成10個支持RoCE v2（RDMA over Converged Ethernet）100G以太網端口的AI處理器，可以有效提升擴展的靈活性，避免擴展能力受限于吞吐量。Voyager系統還采用了16片Habana Goya處理器用于AI推理模型。之所以采用Habana的芯片，因為效率可以大為提升。例如Habana與AWS合作時，AWS稱在AWS EC2實例上，8卡的Gaudi 解決方案可以在TensorFlow上每秒處理1.2萬張圖像訓練ResNet-50模型。 GPU、FPGA、ASIC各有所長，異構將成超算主流在整個AI業務中，GPU、FPGA和現在Habana ASIC架構各有各的優勢，不能互相替代。 GPU表現的是靈活性，在靈活性的基礎上同時具有性能的優勢。 FPGA擅長整形與定制化。首先在整形表現了很好的性能，另外在靈活性與定制化之間選擇了一個平衡。但是，FPGA有較大的應用門檻——如果客戶想通過FPGA深度定制化實現加速，可能要對于FPGA的Verilog、VHDL語言有深入的了解。以Habana為代表的ASIC路線。ASIC在模型加速過程中可以實現很好的定制化加速；同時因為Habana對于計算架構有深入的理解，又最大限度地保持了靈活性。另外，在很多應用場景下更接近于GPU的使用習慣，但性能又要比GPU有很大的提升。

展開

被忽視的國之重器：高性能計算那些事兒

互聯網產業依賴的數據中心的核心技術，諸如 Hadoop 等并行編程工具和 RDMA 等遠程通信技術大多脫胎于此。因此，高性能計算機被視為計算機科學與工程的“皇冠”。各國均頻繁從國家層面啟動研制計劃。在中國多次上榜全球高性能計算 TOP500 后，美國自2015 年起將多所中國高性能計算相關機構或企業列入實體清單，包括國防科大、無錫江南計算技術研究所、曙光、申威等。而我國高性能計算整體實力和美國相比仍然有較大差距。因此，發展自主可控的高性能計算至關重要。高性能計算的核心能力是 64 位雙精度浮點運算能力。高性能計算是一種通用算力，其設計目標是提供完備、復雜的計算能力，在高精度計算能力更強。業界廣泛用于衡量高性能計算性能的 Linpack 測試，測試的是高性能計算的“雙精度浮點運算能力”，即 64位浮點數字的計算（FP64），這是一種高精度的數值計算。在以二進制所表示數字精度中，還有單精度（32 位，FP32）、半精度（16 位，FP16）以及整數類型（如 INT8、INT4）等。數字位數越高，意味著人們可以在更大范圍內的數值內體現兩個數值的變化，從而實現更精確計算。高性能計算在底層芯片性能要求上高于普通的數據中心和智算中心。算力中心有多種，大致可分為數據中心、高性能計算中心、智算中心等，而它們都可以用云的形式來提供服務。以實現人工智能需求為例，推理、訓練和模擬為 AI 的三類主要任務。在此維度上，芯片的應用上限由其底層構造所決定，即使采用軟件優化也無法再提升。從芯片層面來看，如果底層芯片采用的是 CPU+專用 AI 芯片，那么其只能完成 AI 推理和訓練任務，而無法完成模擬。因為 AI 芯片無法實現雙精度浮點運算，雙精度浮點運算大量涉及線性代數方程求解，而自然界的很多問題，包括科學問題、社會問題等，最后都可轉化為線性代數方程求解問題。

展開

TI 第二代雷達芯片深度剖析

其中FDM可以由下圖簡單總結： (A) 如果各待分離通道之間的頻率偏移量是多普勒分辨率的倍數，則是DDMA; (B) 如果各待分離通道之間的頻率偏移量是dechirp后信號帶寬的倍數，則是RDMA； (C) 如果各待分離通道之間的頻率偏移量是最大拍頻的倍數，則是BFD; (D) 如果各待分離通道之間的頻率偏移量是chirp帶寬的倍數，則是FT-FDMA。 ▲ MIMO channel separation 由此可見，DDM可以認為是FDM的一種情況。 ▲ range-Doppler map(DDM) TI實現的是 The empty-band DDMA，提供RangeProc DDMA DPU，以及Doppler DDMA DPU構成DDMA核心實現模塊。我簡單看了下TI 目前硬件實現的DDMA Demodulation，整體完成度還是可以的。 ▲ DDMA principle 從DDMA modulation可見，DDM-MIMO對移相器要求很高，TI的移相器精度也需要仔細評估。 ▲ Object Detection Data Path Processing Chain 不過DDMA也不是高枕無憂的方案，DDMA潛在問題包括但不限于，相位校準峰值混疊不均衡幅值下圖為demo實測效果，其測距性能，點云密度，FoV等方面效果還可以，比1代確實有較大提升。

展開

RDMA的相關專題、標簽、搜索

RDMA NI-RDMA

共15條

首頁 1 尾頁 , 到第頁

不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

RDMA的案例

RDMA的相關專題、標簽、搜索