根據(jù)中國半導體行業(yè)協(xié)會IC設計分會的數(shù)據(jù),2021年中國大陸有2810家芯片設計企業(yè),同比增長了26.7%,廣泛分布在消費電子、汽車、智慧城市等多個行業(yè)。
這些企業(yè)大多為中小微企業(yè),且大多面臨人手短缺,設計能力匱乏等問題。盡早實現(xiàn)芯片流片是企業(yè)實現(xiàn)生存發(fā)展的關鍵一環(huán)。要及時將產(chǎn)品交付客戶,設計效率至關重要。
從前端設計到后端設計再到制造,我們以算力需求為出發(fā)點提取出了以下幾個關鍵詞:
同時我們分析了各個階段的需求,總結了幾個半導體行業(yè)面臨的難題:
以一個為期18月的芯片設計為例,涉及前端,驗證,后端三個周期:
前4周,只涉及到前端布局以及架構,對算力需求不高,因此月度需求較少。
從第5個月開始,前端,驗證,后端均開始工作,算力開始逐步提升。
第16個月達算力最高峰
,月度調度峰值達到百萬級核時以上;算力波峰和波谷的核數(shù)差距在20倍以上。
當業(yè)務增長進入高峰期,自建資源需要升級本地資源來應對業(yè)務高峰,隨著增長放緩,運維成本逐漸凸顯,資源閑置成本依然居高不下。
前端設計中涉及到高敏感數(shù)據(jù),需要非常高的安全級別,后端的網(wǎng)表安全級別較低但對資源要求較高。
由于近年的疫情,
很多芯片設計
公司轉向居家
辦公
。
線上線下的協(xié)同
也成了一大難題。多團隊,多地域團隊協(xié)同辦公時部署需求復雜。
彈性算力,本地計算資源不足時,靈活的將作業(yè)溢出到云上,云上計算資源多樣,支持大規(guī)模并行,線性加速比,深度整合EDA軟件特性,提供不改變設計師操作習慣的上云體驗。
北鯤云針對傳統(tǒng)部署模式無法滿足算力的波峰波谷彈性需求的問題,充分發(fā)揮平臺在資源管理和調度方面的優(yōu)勢。使出以下四招:
對SLURM開源集群調度系統(tǒng)進行二次開發(fā):一個SLURM集群可同時使用多個地域的資源;按照設定的優(yōu)先級進行資源調度, 防止由于單地域資源不足導致的Job Pending
指定周期鎖定資源(Pre-alloc)防止Job Pending
用戶也可以使
用SLURM命令提前
鎖定資源,在資源鎖定成功后,再運行任務,如salloc –N 100 –p c-32-2 –t 1-00:00:00 鎖定100臺32核64G資源,鎖定期為1天
隊列集(partition-set)支持大規(guī)模資源使用
在大規(guī)模資源調度的場景如千臺規(guī)模時,單個實例類型(隊列)容易缺貨導致調度失敗,北鯤云對SLURM進行二次開發(fā),實現(xiàn)隊列集功能,
可在一個Job中指定多個隊列按優(yōu)先級調度資源
在絕大部分場景下,
用戶無需關注資源本身
,
只需要提交作業(yè),平臺會自動根據(jù)作業(yè)申請的資源數(shù)量,
自動彈性申請云上資源,并在作業(yè)結束后5分鐘自動釋放資源
北鯤云平臺通過了等保三級、GDPR等多項安全認證,在EDA場景中,可以通過建立多個VPC,利用ACL網(wǎng)絡控制策略來管理接入子網(wǎng)、管理子網(wǎng)、計算子網(wǎng)、存儲子網(wǎng),使用
雙通道的安全網(wǎng)絡隔離手段
,打造網(wǎng)絡隔離安全區(qū),保障數(shù)據(jù)安全。
多地域團隊協(xié)同辦公時,北鯤云可以為各地團隊按需調用距離最近的云上資源,一個地域資源不足時,可以靈活地切換至臨近地域地域,保障資源高可用性。
在廣州VPC構建EDA廣州計算區(qū), 并將廣州VPC同北京VPC通過云連接CC打通,此時云超算平臺本身無需在廣州地域重新部署,一套系統(tǒng)可管理多個地域的計算集群(北鯤云超算平臺支持跨地域雙活)。
兩個計算區(qū)之間的數(shù)據(jù)可以互相通過如rsync進行備份,既可以確保數(shù)據(jù)安全,也能做到某地域中斷后可在另一個地域使用;在某個地域中斷的情況下,可以臨時回退到另外一個地域做設計與仿真工作。
方案一:EDA仿真上云
解決峰值需求下本地算力不足的問題
方案二:EDA設計與仿真一體云平臺
幫助企業(yè)更有效的控制成本,適應多樣化的辦公場景需求
方案三:EDA設計仿真多地域協(xié)同
一地部署,多地資源調度管控,效率與管理兩手抓
以混合云為例,
國內某芯片設計企業(yè)存在以下業(yè)務挑戰(zhàn):
-
本地集群無法在業(yè)務高峰期(年底、年中)滿足仿真計算需求,
作業(yè)排隊情況嚴重
-
原有云上解決方案嚴重改變了芯片設計工程師線下操作方式,
降低了工作效率
-
云上資源調度策略不靈活,導致Job pending,
影響仿真工作穩(wěn)定
-
-
本地建立專門的上云節(jié)點,用于仿真數(shù)據(jù)自動同步
-
將云上資源與virtuoso軟件ade_L、ade_XL、maestro等提交作業(yè)方式深度整合,芯片設計工程師僅需切換環(huán)境變量即可無感化上云
-
LSF-Slurm Wrapper讓工程師按原有命令習慣提交作業(yè),不改變操作習慣,降低使用成本
-
多地域資源調度保證了業(yè)務高峰能夠預留、隨需調度充足的計算資源
北鯤云作為Cloud-HPC的先行者,致力于將技術、工程融合于科學中釋放科研人員精力。為大家搭建
數(shù)字化全流程研發(fā)平臺。
我們?yōu)槟鷾蕚淞烁尤娴谋宾H云EDA行業(yè)解決方案,歡迎添加大魚了解詳情!