
發布
注冊
/
登錄64核的案例
64核RISC-V服務器能打了嗎?
最近看到“澎峰科技”的微信公眾號,看到他們發布了第一款RISC-V服務器,芯片是算能的SG2042,帶64個RISC-V核心(阿里平頭哥的C910v核),2.0GHz主頻,最大支持128GB內存。這應該算是全球第一款RISC-V服務器吧,找了一些資料。和大家一起品品。
處理器采用貼片,不是那種socket。沒什么好評論的。
看來芯片沒有集成顯卡。需要外接顯卡。
主板的外觀、布局和工藝,還是有一定水準的。
好奇,澎峰科技不是做計算軟件的公司嗎?還能設計和生產主板,厲害了。算能找他們合作是對的,國內的處理器公司,數學庫的性能就是一坨屎。RISC-V高性能計算有澎峰科技加持數學計算庫,還是很靠譜的,OpenBLAS全世界知名的開源項目。
讓我們看看算能SG2042的內部架構圖
2G主頻,尚可吧,飛騰好像是2.1GHz
三級Cache還OK了
DDR通道4條偏少,應該干到至少8個通道。
PCIE Gen4,想想飛騰、海光還在Gen3的水平,還是不錯的。
CCIX,這個好!能支持2或4處理器互聯,內存共享還是相當彪悍。
功耗120w,還好,還好。
我申請了他們的云測試賬號(要嘗鮮的可以加這個微信試試,iYuta-R2),我簡單做了stream的測試,性能算中規中矩,不能期望第一款芯片就能超過intel、amd這些大牌,但卷卷國內的"信創CPU",應該還是有一戰之力的。
單核模式,訪存性能吃不滿。單核性能可以在打磨打磨。
多核模式,如果按照38GB/s,那么每個處理器核只能分到0.59GB/s(38GB/64核),還是得8個DDR通道,多線程模式性能才不至于被訪存帶寬給困住。
展開 Flow 3D V9.2.1 支持 64位系統 支持多核計算
這個版本, 在某種意義上, 超越了 MAGMASOFT
在64位操作系統運行, 可以識別, 運算超過 4G物理內存 ( 薄壁, 曲面, 超大型鑄件, 不怕不怕了:-D )
MAGMA 雖然也有多核計算版本, 但是內核計算模塊是 32位, 在 WINDOWS 操作系統, 只能用到3G物理內存計算(BOOT.INI 打開3GB開關)
“神工坊”高性能工業仿真平臺|Abaqus隱式靜力學分析
從4核到64核,不同并行規模下,計算用時均明顯少于其他兩個平臺。此外,“神工坊”高性能工業仿真平臺在使用16核的計算速度就超過了其他仿真云平臺在32、64核的計算速度。反觀其他仿真云平臺,仿真云平臺1在使用8、16、32核是仿真計算所用的時間幾乎一樣,在使用到64核時時間才有所減少。仿真云平臺2在使用到64核的時間比使用32核時的時間更長。
同時,我們在隱式求解分析時,對各個平臺的并行效率也進行了分析對比。以每個仿真云平臺4核的計算時間為基本單位,計算各個平臺的并行效率,結果如下所示。可以發現“神工坊”高性能工業仿真平臺的并行效率在大多數情況下是高于其他仿真云平臺的。
結論
綜上所述,“神工坊”高性能工業仿真平臺(點擊了解詳情)在進行Abaqus隱式求解分析時,
無論是計算時間還是并行效率,均優于其他平臺的
。
“神工坊”高性能工業仿真平臺基于超算HPC集群的硬件支撐,對仿真軟件進行了CPU的適配與優化,不僅實現了仿真軟件跨節點大規模并行計算,還減少了仿真計算所需的時間,極大的縮短了在工程上結構設計中強度、剛度校核所需時間,減少工程中對產品設計以及優化的時間。(本文作者:趙振)
點擊查看《‘神工坊’高性能仿真云平臺和其它云平臺的區別!》
十四五期間,工業數字化將是工業轉型升級的主路線。“神工坊”秉持“算力賦能、協同創新”的理念,爭做“先進算力到仿真算能的轉換器”、“離散機理和垂直仿真場景的連接器”,助力我國工程仿真技術實現跨越發展,支撐重大裝備研制創新和工業設計研發數字化轉型。
展開 性能測試|Fluent穩態分析——旋轉機械流場仿真對比實測
仿真結果
迭代完成之后仿真云圖如下所示:
仿真平臺對比
我們進行Fluent旋轉機械穩態分析時,“神工坊”高性能工業仿真平臺與其他兩家仿真云平臺的硬件參數如下表所示:
計算過程中三個平臺的一些輸出日志如下圖所示:
本次仿真并行規模分別選取了16核、32核、64核、128核(受限于另外兩個平臺無法進行跨節點并行,并行規模無法進一步擴大),我們在SimForge?平臺進行了256核等更大規模的并行計算,結果顯示計算用時會進一步縮短。SimForge?高性能仿真云平臺與其他幾家仿真云平臺的計算時間如下圖所示,其中,由于仿真云平臺2最高只能64核并行使用,故圖表中無仿真云平臺2并行規模為128核的結果。
可以發現,SimForge?高性能工業仿真平臺在進行穩態仿真分析時,表現出了絕對的速度優勢。從16核到128核,其仿真計算速度都明顯優于其他仿真云平臺,且在相同并行核數下其仿真計算時間僅為其他仿真云平臺的1/2不到,尤其是在64核并行時,其仿真計算時間更是只有仿真云平臺1的1/3左右。我們以每個仿真云平臺16核的計算時間為基本單位,計算各個平臺的并行效率,結果如下圖所示。我們可以發現SimForge?高性能仿真云平臺的并行效率也是優于其他仿真云平臺,且在每個核數下都保持著較高的并行效率。
展開 
【仿真平臺性能測試】Fluent旋轉機械穩態分析
仿真結果
迭代完成之后仿真云圖如下所示:
仿真平臺對比
我們進行Fluent旋轉機械穩態分析時,“神工坊”高性能工業仿真平臺與其他兩家仿真云平臺的硬件參數如下表所示:
計算過程中三個平臺的一些輸出日志如下圖所示:
本次仿真并行規模分別選取了16核、32核、64核、128核(受限于另外兩個平臺無法進行跨節點并行,并行規模無法進一步擴大),我們在“神工坊”平臺進行了256核等更大規模的并行計算,結果顯示計算用時會進一步縮短。
“神工坊”高性能工業仿真平臺與其他幾家仿真云平臺的計算時間如下圖所示,其中,由于仿真云平臺2最高只能64核并行使用,故圖表中無仿真云平臺2并行規模為128核的結果。
可以發現,“神工坊”高性能工業仿真平臺在進行穩態仿真分析時,表現出了絕對的速度優勢。從16核到128核,其仿真計算速度都明顯優于其他仿真云平臺,且在相同并行核數下其仿真計算時間僅為其他仿真云平臺的1/2不到,尤其是在64核并行時,其仿真計算時間更是只有仿真云平臺1的1/3左右。
我們以每個仿真云平臺16核的計算時間為基本單位,計算各個平臺的并行效率,結果如下圖所示。我們可以發現“神工坊”高性能工業仿真平臺的并行效率也是優于其他仿真云平臺,且在每個核數下都保持著較高的并行效率。
結論
綜上所述,“神工坊”高性能工業仿真平臺在進行Fluent穩態仿真分析時,無論是計算時間還是并行效率,均優于其他仿真云平臺。
“神工坊”高性能工業仿真平臺以超算HPC集群作為硬件支撐,實現了跨節點大規模并行計算,可以高效處理大規模網格模型以及復雜流場,大大縮短了企業仿真用時,提升工業設計效率。
十四五期間,工業數字化將是工業轉型升級的主路線。
展開 【仿真平臺性能測試】Abaqus顯式求解分析
2
仿真結果
仿真后的應力云圖如下所示:
汽車碰撞過程:
3
仿真云平臺對比
進行Abaqus顯式求解分析時,所使用的“神工坊”高性能仿真平臺與其他兩家仿真云平臺的硬件參數如下表所示:
提交顯式計算后,各個平臺的計算日志如下:
本次仿真并行規模分別選取了4核、16核、32核、64核、128核,受限另外兩個平臺無法進行跨節點并行,并行規模無法進一步擴大。但是我們在“神工坊”高性能平臺進行了256核的并行計算,
結果顯示計算用時會進一步縮短
。
點擊試用
“神工坊”高性能仿真平臺與其他幾家仿真云平臺的計算時間如下圖所示。仿真云平臺2最高只能64核并行使用,故圖表中無仿真云平臺2并行規模為128核的結果。
展開 【仿真平臺性能測試】Fluent旋轉機械瞬態分析
仿真云平臺
CPU型號
內存
主頻
神工坊
AMD EPYC 7742
512G
2.25GHz
仿真云平臺1
Intel Xeon(Cascade Lake) Platinum 8269
64G
2.5GHz
仿真云平臺2
Intel(R)Xeon(R) Platinum 8350C
64G
2.6GHz
計算過程中三個平臺的一些輸出日志如下。
本次仿真并行規模分別選取了16核、32核、64核、128核,受限另外兩個平臺無法進行跨節點并行,并行規模無法進一步擴大。但是我們在“神工坊”平臺進行了256核等更大規模的并行計算,結果顯示計算用時會進一步縮短。
“神工坊”高性能工業仿真平臺與其他幾家仿真云平臺的計算時間如下圖所示。其中,仿真云平臺2最高只能64核并行使用,故圖表中無仿真云平臺2并行規模為128核的結果。
可以發現,“神工坊”高性能工業仿真平臺在進行瞬態仿真分析時,其仿真計算時間在各個并行規模下都明顯少于其他仿真云平臺。“神工坊”高性能工業仿真平臺在16核下的計算速度就超過了其他仿真云平臺在64核下的計算速度,且在32核下的計算速度也優于其他仿真云平臺在128核下的計算速度。
五、結論
綜上所述,“神工坊”高性能工業仿真平臺在進行Fluent瞬態仿真分析時,其性能是遠遠優于其他仿真云平臺的。
“神工坊”高性能工業仿真平臺以超算HPC集群作為硬件支撐,實現了跨節點大規模并行計算,可以滿足復雜結構模型和算法仿真時對大量計算資源的需求,縮短了大規模仿真用時,為工業設計的高效運行提供保證。
十四五期間,工業數字化將是工業轉型升級的主路線。
展開 RISC-V公測平臺發布· CoreMark測試報告
#===============================Alter by me===========================
LFLAGS_END += -lrt -lpthread
#===============================Alter by me===========================
單核編譯
ubuntu@perfxlab:/public/benchmark/coremark$ make compile XCFLAGS="-DMULTITHREAD=1 -DUSE_PTHREAD"
多核編譯
ubuntu@perfxlab:/public/benchmark/coremark$ make compile XCFLAGS="-DMULTITHREAD=64 -DUSE_PTHREAD"
五. 在SG2042上執行coremark
1. 單核測試結果如下:
2. 64核測試結果如下:
六. CoreMark分數排行榜
SG2042 的64核跑分結果為:692303.531830 ,cpu主頻是2GHz。
根據公式:
CoreMark / MHz = (CoreMark 分數) / (時鐘頻率,以兆赫茲為單位)
我們可以算出SG2042的 CoreMark / MHz=692303.531830/2000=346.55
從官網可以看到,截止目前(2023-8-16 )總共上傳了767款型號的CoreMark跑分結果。
展開 RISC-V公測平臺發布 · UnixBench完整測試
/Run
64核測試結果
結論
根據所提供的UnixBench基準測試結果,在多核情況下進行了系統性能測試。多核測試中,使用了所有64個CPU核心進行并行測試。
綜合來看,多核測試明顯展現了系統的并行計算優勢,性能指標在各個方面得到了大幅提升。這些測試結果有助于評估系統在不同負載下的性能表現,并為優化系統配置和選擇合適的硬件提供參考依據。需要注意的是,不同的應用場景可能對性能有不同的要求,因此綜合考慮各個方面的指標是重要的。
正文完
About HS-2
HS-2 RISC-V通用主板是澎峰科技與合作伙伴共同研發的一款專為開發者設計的標準mATX主板,它預裝了澎峰科技為RISC-V高性能服務器定制開發的軟件包,包括各種標準bencmark、支持V擴展的GCC編譯器、計算庫、中間件以及多種典型服務器應用程序。
HS-2 RISC-V通用主板搭載了一顆國產RISC-V 64核處理器(SG2042)。SG2042是目前已量產的性能最高的RISC-V處理器,主要針對高性能計算領域需求設計,適用于科學計算、工程計算、AI計算、融合計算等大算力應用場景。
關于RISC-V公共測試平臺
RISC-V高性能處理器公共測試云平臺 ·快速使用指南,
下載鏈接:
https://www.kdocs.cn/l/cmnYcyFIlVRx
加入我們的RISC-V社區
歡迎關注我們,參與進來共建RISC-V軟件生態~加入我們的討論群后,可以向管理員申請免費的64核RISC-V服務器SUDO權限試用賬號。
展開 Abaqus & AMD,兼容和并行效率的那些事~
拿到小張給我的測試數據,我傻眼了……
一個100萬個自由度的算例,采用Abaqus/Standard求解,使用直接求解器,并行規模分別選取8核、16核、32核、64核,8核增加到16核還有點提速,16核增加到32/64核不僅沒有提速,速度反而越來越慢。
我趕緊讓小張切換Abaqus的并行模式(其默認是MPI模式,THREADS為可選),結果居然是沒有區別。
我急忙讓小張多測幾次,同時我登錄后臺查看進程情況。
果不其然,無論啥并行模式,后臺只顯示一個進程,也就是說MPI并行根本沒有起來,都是共享內存并行。
根據我的經驗,這個直接求解器很可能是混合并行模式,也就是在單個節點內部的時候,強制采用共享內存并行,節點之間是MPI通信。
很快,小張的測試驗證了這一點,同時帶來了一個非常Amazing的結果——
16核之后的并行效率為負的情況得到了扭轉
。
下面是計算時間結果對比,采用相同的核數,一面是單個節點運行,一面是將作業平均分配到4個節點上。在核數相同的情況下,采用混合并行模式將大大降低計算時間。
展開 Abaqus并行效率二三事
拿到小張給我的測試數據,我傻眼了……
一個100萬個自由度的算例,采用Abaqus/Standard求解,使用直接求解器,并行規模分別選取8核、16核、32核、64核,8核增加到16核還有點提速,16核增加到32/64核不僅沒有提速,速度反而越來越慢。
我趕緊讓小張切換Abaqus的并行模式(其默認是MPI模式,THREADS為可選),結果居然是沒有區別。
我急忙讓小張多測幾次,同時我登錄后臺查看進程情況。
果不其然,無論啥并行模式,后臺只顯示一個進程,也就是說MPI并行根本沒有起來,都是共享內存并行。
根據我的經驗,這個直接求解器很可能是混合并行模式,也就是在單個節點內部的時候,強制采用共享內存并行,節點之間是MPI通信。
很快,小張的測試驗證了這一點,同時帶來了一個非常Amazing的結果——
16核之后的并行效率為負的情況得到了扭轉
。
下面是計算時間結果對比,采用相同的核數,一面是單個節點運行,一面是將作業平均分配到4個節點上。在核數相同的情況下,采用混合并行模式將大大降低計算時間。
展開 
2023RISC-V中國峰會,澎峰科技成果發布搶先看!
衡山-1(HS-1)
HS-1是全球首款256核RISC-V計算型服務器。主要面向高密度計算場景設計,單主板搭載兩顆64核RISC-V CPU,雙芯CCIX互聯。整機具備有4TFlops 64位浮點算力,滿載支持16條DDR 4,總內存容量高達1024GB,并支持PCIe Gen 4。HS-1在有限的空間內進行了獨具匠心的系統設計和高密度的模塊化部署,特別適用于需要兼顧計算性能和部署密度的高密度計算集群。
衡山-2(HS-2)
HS-2 RISC-V通用主板是澎峰科技與合作伙伴共同研發的一款專為開發者設計的標準mATX主板,它預裝了澎峰科技為RISC-V高性能服務器定制開發的軟件包,包括各種標準bencmark、支持V擴展的GCC編譯器、計算庫、中間件以及多種典型服務器應用程序。
HS-2主要面向高校、研究院、社區開發者推出的RISC-V高性能計算工作站,配備64核RISC-V@2.0GHz的處理器,致力于推動我國RISC-V軟件生態、芯片設計、指令集研究等方向發展
展開 RISC-V公測平臺發布:如何在SG2042上玩轉OpenMPI
歡迎投稿~(發送Blog全文至郵箱riscvinfo@perfxlab.com)
歡迎RISC-V愛好者和生態建設志愿者持續關注和參與進來~加入討論群后,向管理員申請可免費試用64核RISC-V服務器SUDO權限賬號。
發郵件到riscvinfo@perfxlab.com
加入微信討論群:加iYuta-R2為好友后可拉入群
3. 加入QQ討論群:906962594(RVBoards·Only RISC-V)
掃描二維碼加群??
這是我們的開放的云測平臺
對服務器平臺有任何的疑問都可以查閱《快速使用指南》(實時更新),也可以加群一起討論。
64核RISC-V高性能處理器公共測試云平臺 ·快速使用指南
https://www.kdocs.cn/l/cmnYcyFIlVRx
展開 CCF HPC China2023 | 盛大開幕,邀您關注澎峰科技
HS-1是全球首款256核RISC-V計算型服務器。主要面向高密度計算場景設計,單主板搭載兩顆64核RISC-V CPU,雙芯CCIX互聯。整機具備有4TFlops 64位浮點算力,滿載支持16條DDR 4,總內存容量高達1024GB,并支持PCIe Gen 4。HS-1在有限的空間內進行了獨具匠心的系統設計和高密度的模塊化部署,特別適用于需要兼顧計算性能和部署密度的高密度計算集群。
HS-2主要面向高校、研究院、社區開發者推出的RISC-V高性能計算工作站,配備64核RISC-V@2.0GHz的處理器,致力于推動我國RISC-V軟件生態、芯片設計、指令集研究等方向發展。
展開 RISC-V中國峰會 | 256核服務器高調亮相,誰與爭鋒?
全球首款256核RISC-V計算型服務器產品發布
倪光南院士、包云崗研究員、RISC-V首席執行官Calista參觀HS-S1-2服務器
目前衡山系列推出了兩款產品:衡山-1(HS-S1-2)、衡山-2(HS-2)。
HS-S1-2是全球首款256核RISC-V計算型服務器。主要面向高密度計算場景設計,單主板搭載兩顆64核RISC-V CPU,雙芯CCIX互聯。整機具備有4TFlops 64位浮點算力,滿載支持16條DDR4,總內存容量高達1024GB,并支持PCIe Gen 4。HS-1在有限的空間內進行了獨具匠心的系統設計和高密度的模塊化部署,特別適用于需要兼顧計算性能和部署密度的高密度計算集群。
HS-2是主要面向高校、研究院、社區開發者推出的RISC-V高性能計算工作站,配備64核RISC-V@2.0GHz的處理器,致力于推動我國RISC-V軟件生態、芯片設計、指令集研究等方向發展。
在本次峰會上,澎峰科技CEO張先軼博士將針對RISC-V 高性能開源計算庫OpenMPL進行分享,簡要介紹OpenMPL的現狀和優勢,分享OpenMPL對RVV0.7.1、RVV1.0的支持情況,配合實際測試結果闡述OpenMPL在RISC-V高性能計算領域的優勢和前景。
展開