
發布
注冊
/
登錄異構計算的案例
John Glossner:新一代異構計算正在成為人工智能的加速引擎,中國是全球異構計算生態的重要一
如果按照馬云的觀點,數據是人工智能的生產資料,計算是人工智能的生產力,那么異構計算就是提升人工智能生產力的引擎。
9月17日,在2018世界人工智能大會的主論壇上,全球異構系統架構(HSA)聯盟主席John Glossner博士發表了《面向人工智能的新一代異構計算標準》的演講。John Glossner在演講中以華夏芯(北京)通用處理器技術有限公司的異構多核處理器平臺為例,介紹了最新的人工智能芯片的設計趨勢。他還表示,中國是全球異構計算生態的重要一環。異構計算是一種將不同指令架構的計算單元(例如傳統的CPU、GPU、DSP、還有創新的TPU、DLA等)融合在一起、實現高效協同運行的計算技術。如果說傳統架構的芯片是一種燒汽油的引擎,那么異構計算的芯片就是一種混合動力引擎,甚至新能源引擎。
John Glossner主席認為,大量人工智能應用的出現,如無人駕駛、機器視覺、智能手機等等,對于人工智能的發動機——芯片,提出了非常高的要求,包括性能、功耗、成本、應用開發等等。芯片既是人工智能持續增長的動力引擎,又是人工智能規模化商用的算力瓶頸。面對大數據、人工智能對計算性能的爆發式需求,各種創新的神經網絡算法及相應的計算實現架構層出不窮,之前的傳統芯片設計架構已經難以滿足應用對計算能力的需求。正因為如此,不僅眾多創新的芯片公司,甚至包括亞馬遜、百度這些互聯網公司都在開始設計新架構的人工智能芯片。異構計算這種將傳統與創新架構融合、通用和專用計算協同的技術路徑,非常好地滿足了人工智能芯片不僅要性能好、成本低,還要可演進、易開發的設計理念。因此,業界的共識是新一代異構計算架構是未來人工智能芯片設計創新的主要突破口。
異構計算并不是全新的概念,但由于產品設計難度大、生態系統需要重新構建等挑戰,在過去很長一段時間里一直處在不斷演進當中。
展開 異構集成 與 異構計算
5)異 構 時 代
異構時代(Heterogeneous Era)
異構技術逐漸成為主流的時代,被業界稱為異構時代,這里的異構既包括異構計算也包括異構集成。
異構計算概念興起于上世紀80年代,其熱起來也是近十年間的事情,異構集成概念出現的時間不到十年,是隨著先進封裝技術的興起而逐漸為業界所認可。
異構計算和異構集成兩者的目的都為了提升算力。當今這個時代,異構逐漸成為一個熱門詞匯,因此被稱為異構時代。
異構集成、異構計算都因為時代而生,這個時代,就是異構時代。
總 結
這篇文章主要搞清楚了以下幾個問題:
1)異構集成全稱為異構異質集成,主要是指封裝層面的集成,其概念是在近十年間隨著先進封裝技術的興起而日益受到業界的重視。
2)異構計算是指將CPU、GPU、FPGA、DSP等不同架構的運算單元整合到一起進行并行計算,以提高算力。
3)算力就是計算、數據處理的能力。
4)異構集成、異構計算其主要目的都是為了提升系統的算力。
5)異構集成、異構計算都因為時代而生,這個時代,就是異構時代。
展開 智芯文庫 | 一文讀懂異構集成與異構計算
5)異 構 時 代
異構時代(Heterogeneous Era)
異構技術逐漸成為主流的時代,被業界稱為異構時代,這里的異構既包括異構計算也包括異構集成。
異構計算概念興起于上世紀80年代,其熱起來也是近十年間的事情,異構集成概念出現的時間不到十年,是隨著先進封裝技術的興起而逐漸為業界所認可。
異構計算和異構集成兩者的目的都為了提升算力。當今這個時代,異構逐漸成為一個熱門詞匯,因此被稱為異構時代。
異構集成、異構計算都因為時代而生,這個時代,就是異構時代。
總 結
這篇文章主要搞清楚了以下幾個問題:
1)異構集成全稱為異構異質集成,主要是指封裝層面的集成,其概念是在近十年間隨著先進封裝技術的興起而日益受到業界的重視。
2)異構計算是指將CPU、GPU、FPGA、DSP等不同架構的運算單元整合到一起進行并行計算,以提高算力。
3)算力就是計算、數據處理的能力。
4)異構集成、異構計算其主要目的都是為了提升系統的算力。
5)異構集成、異構計算都因為時代而生,這個時代,就是異構時代。
| 來源: SiP與先進封裝技術,Suny Li
展開 異構計算,要全面爆發了?
結語
來到2022年,異構計算大戰,一觸即發。
芯片廠商不遺余力的布局CPU、GPU、FPGA、DPU等計算芯片,放出你爭我趕的時間軸,代工廠和封裝廠也在鉚足勁向異構計算的先進封裝布局,不止這些廠商,EDA廠商、半導體設備廠商、材料廠商、測試企業等都在為異構計算的來臨做準備,異構計算的發展需要全產業鏈的共同協作,各產業鏈成熟起來,才能真正迎來大爆發。

異構計算是挑起人工智能大梁的最優選擇
因此,具有GPU、ASIC、FPGA或其它加速器(Accelerator)等高并行、高密集的計算能力的異構計算持續火熱,而異構計算也將成為支撐先進和以后更復雜AI 應用的必然的選擇。
異構計算(Heterogeneous Computing)是指使用不同類型指令集和體系架構的計算單元組成的計算系統。異構計算是性能、成本和功耗均衡的技術,同時也是讓最適合的專用硬件去做最適合的事如密集計算或外設管理等,從而達到性能和成本的最優化。
異構計算大廚房里的CPU
我們熟知的CPU(中央處理器,Central Processing Unit)作為通用處理器,是更偏重支持控制流數據。CPU每個物理核中大部分的硬件資源被做成了控制電路和緩存,用來提高指令兼容性和效率,只有小部分是真正用來做計算的邏輯運算單元(ALU)。在沒有AI或其它高計算力要求時,CPU可以應付得綽綽有余,在AI或高計算力要求時,從計算任務執行效率來看,盡管CPU能兼容大量指令,但是實際的計算效率并不高。相反,CPU在異構系統當中,可以扮演和發揮非常重要的指揮統籌,控制核心的功能。
做個比喻吧,CPU可以看成一個“大廚”,各大菜系烹飪了如指掌,可以做出各式各樣不同口味的菜品滿足各類人群的需求。
展開 異構加速計算崛起,不應只是關注計算芯片
從(國內)芯片公司的角度,不想&也不愿去考慮用戶可能需要面對多個異構機器編寫應用程序。但這是市場需要的,這種革命性的想法,只會來自于第三方。????????
我知道Codeplay 今年被intel全資收購了。但國內有這樣的公司生存的土壤嗎?像澎峰科技、一流科技這樣的從事基礎軟件研發的公司,是近年中國少有的火苗,如果他們都不能生存,中國的計算產業有能有什么希望?也希望投資者別去扭曲這種小而美的軟件企業,去幫助他們,大家一起獲得成功。
?
UNAT加速庫:突破異構計算瓶頸,實現跨平臺高效仿真
隨著高性能計算機性能的不斷躍升,傳統的基于CPU的摩爾定律逐漸失效,因此,采用眾核處理器來構建異構計算機已成為行業主流趨勢。然而,異構眾核處理器的迅猛發展也為異構計算領域帶來了一系列挑戰。
目前,異構眾核處理器的架構呈現出多樣化的特點,涵蓋了CPU+GPU架構、CPU+FPGA架構、CPU+ASIC架構、多核CPU架構以及國產申威架構等多種形式。與此同時,并行編程模型同樣呈現多樣化的趨勢,包括用于GPU加速的CUDA、跨硬件的OpenCL、加速CPU和GPU的OpenACC、共享內存的OpenMP以及跨節點并行的MPI等編程語言。在工業仿真領域,多種數據結構并存,如結構網格和非結構網格等,都對異構計算提出了更高的要求。
目前較為流行的性能可移植加速庫為Kokkos,其C++庫巧妙地統一了細粒度數據并行和內存訪問模式的抽象,使得應用程序和函數庫能在不同的眾核架構上實現性能的可移植。Kokkos解決了異構節點上編程模型不統一的問題,并通過運用C++特性定義接口,極大簡化了編程接口。GraphBLAS則是統一不同數據結構和算法領域的代表者,它采用了類BLAS庫的矩陣、向量算子接口,不同之處在于允許用戶自定義類型及類型相關的算子,相對傳統數學庫大大擴展了可用性。GraphBLAS屏蔽了底層數據結構的接口,為上層應用開發者減輕了負擔,同時也為數據結構、算法與硬件架構的協同優化提供了更多空間。
Kokkos應用場景
GraphBLAS中矩陣的圖抽象
鑒于上述因素,針對非結構網格開展屏蔽硬件架構差異、封裝數據結構和算法實現細節的統一加速庫開發工作顯得尤為重要。為此,我們提出了一個名為UNAT(UNstructured Acceleration Toolkit)的性能可移植統一加速庫。
展開 芯片巨頭的新戰場
在Sapphire Rapids的這些新特性中,除了chiplet這一個廣為人知的技術之外,最值得關注的就是使用了異構計算的架構,集成了許多為專門計算領域優化的加速器(domain specific accelerator,DSA)。在過去的幾十年中,由于CPU性能借著摩爾定律的高速發展而飛速提升,大多數時候用戶會考慮只使用CPU來處理所有的算法,即使用一個通用架構來解決所有問題。然而,隨著摩爾定律的發展接近瓶頸,使用一個通用架構解決所有問題已經不再現實,因為CPU性能的發展速度已經跟不上應用的需求,因此異構計算的思路得到了越來越多的重視,即為了重要的應用專門設計相關的計算加速模塊,從而加速計算性能,同時也改善效率。
我們認為Intel在下一代CPU Sapphire Rapids中引入大量異構計算是一個里程碑式的事件,這是因為傳統上來說通用型CPU和異構計算是兩個芯片設計陣營,通用CPU設計的時候會嘗試改善性能從而說服用戶無需使用異構計算;而Intel這次在Sapphire Rapids中主動引入大量異構計算加速器,這也說明了異構計算確實已經成為極其重要的主流設計方案,與其單獨設計CPU然后讓其他公司去設計相關的異構計算芯片搶走市場,還不如在自己的CPU中主動擁抱異構計算,集成相關的加速器,來確保滿足用戶的需求。
具體來看,這次Intel在Sapphire Rapids中集成的獨立加速器主要包括動態負載平衡模塊(DLB),數據流加速器(DSA),內存內分析加速器(IAA),以及快速協助模塊(QAT)。這些獨立的加速器是作為一個單獨模塊集成在CPU之外的。
展開 HOT CHIPS 30周年,產業界都關注什么?
有趣的是,今年的芯片主題集中在高性能計算和IoT,恰好是芯片光譜的兩端。在高性能計算領域,我們看到異構計算正在占據主流;在IoT領域,安全則成了關注點。
異構計算:Xilinx、 Intel、AMD、Nvidia紛紛秀肌肉
在詳細介紹Xilinx、Intel、AMD、Nvidia等展出的芯片之前,我們先來梳理一下什么是異構計算。事實上,“異構計算”的反面是“通用計算”。通用計算是用一種通用芯片架構處理絕大多數問題,而異構計算則主張使用不同的芯片架構處理不同的應用。如果我們回顧半導體行業快速發展的這幾十年,尤其是上世紀九十年代到本世紀第一個十年,我們會發現這是通用計算發展的黃金時代——處理器芯片隨著半導體工藝的進步而快速提升性能,因此普遍的看法是只要把處理器做好就行,如果這一代處理器沒法解決算力問題,等到半導體工藝進步到了下一代就一定能解決。這種用一種處理器來解決所有問題的思路就是通用計算。
雖然通用計算在摩爾定律快速發展的時代獨占鰲頭,但是異構計算其實并沒有走遠。大家熟悉的智能手機SoC就是異構計算的典型例子:在智能手機SoC中,我們除了ARM核處理常用計算以外,還有.H265解碼器處理視頻解碼,ISP執行白平衡等攝像頭相關算法,DSP用來處理傳感器相關的計算等等。為什么手機SoC要用異構計算而不是用一個處理器解決所有問題?關鍵的原因在于手機的電池有限,對于SoC能效比的要求很高,因此需要不同的應用使用專用的模塊以提升能效比。
展開 自適應計算:AI與碳中和融合時代的完美答案
只需要細心留意身邊的諸多應用,我們就能發現,兼顧能源效率和處理能力的先進系統中已經很少依靠單一處理器架構運作,比如最近流行的卷積神經網絡因為依靠大量簡單的矩陣乘法和矩陣加法運算,因此在效率方面密度更大的GPU甚至更專業的NPU的計算效率都要遠勝于通用的CPU。基于不同任務的處理需求去選擇不同的處理結構讓異構計算成為系統設計的主流,無論是板級異構體系還是芯片級異構SoC,都將考驗應用設計者對多種處理架構協同工作的融合能力。異構計算的出現,根據實際應用的運算架構差異,選擇更為恰當的處理器進行針對性任務執行,能大幅提升計算效率和能源效率,更充分的實現能效和處理能力的優化融合。
但隨之而來的問題是,器件或微系統的復雜度大幅度提升,對應用的開發者提出了更為苛刻的要求,即必須從熟練掌握圍繞單一處理架構設計轉變為精通至少兩種處理器架構應用層設計的復合型人才,而熟練掌控兩種處理器體系所需要的知識積累并非1+1=2那么簡單。這個時候開發者最需要的是什么?是可以幫助他們快速跨過不同處理架構的基礎硬件設計,盡可能縮減不同硬件體系的應用程序開發兼容性,理想狀況下只需要他們針對自己應用開發上層的系統級設計。能夠快速幫助開發者消除異構計算中的處理資源分配的選擇問題,實現充分發揮異構體系不同內核的最高任務執行效率,這就是自適應計算出現的價值。
作為自適應計算概念的提出者,賽靈思很早就開始對優化異構計算開發的探索,從十幾年前的Zynq架構的誕生開始,賽靈思秉承幫助開發者簡化對異構計算中底層硬件開發所需的知識積累,采用更為系統化的設計理念去發揮異構SoC內不同處理架構的優勢,進而實現更為高效的任務處理和系統設計。特別是伴隨著FPGA這種并行處理架構在大規模計算和原型設計中越來越受歡迎,FPGA+XXX的異構設計已經成為主流。
展開 邀請函|澎峰科技邀您參加CCF HPC China2023
以“算力互聯·智領未來”為主題的第十九屆全國高性能計算學術年會(CCF HPC China 2023)將于8月24-26日(展覽23-25日)在青島·紅島國際會議展覽中心舉辦。
· 九大院士領銜 打造頂級超算盛會
力邀中外院士、戈登貝爾獎獲得者等行業身具影響力人物,為行業發展指明方向。
匯聚CCF、IEEE、ACM等國際協會Fellow和行業重磅嘉賓,前瞻創新學術和技術演進路徑。
80+論壇活動聚焦解析“算力互聯·智領未來”,從產業、技術、政策等多維角度前瞻行業。
· 榮耀見證 澎湃超算創新力量
征集匯編高性能計算優秀論文,評選“2023年度中國超算最佳應用”,舉辦第七屆國產CPU并行應用挑戰賽,引領學術產業應用發展。
會議期間,澎峰科技將在展區F18展位恭候您的蒞臨,向您重點展示衡山系列最新成員——RISC-V高密度高性能計算型服務器及RISC-V mATX通用計算主板,并于8月26日(周六)舉辦第三屆異構計算軟件棧與應用論壇。
· 線下:青島·紅島國際展覽中心的望海樓(北)A305會議室
· 線上:騰訊會議平臺—ID:750946700
異構計算軟件棧從編程語言、性能庫和框架等多方面支持科學計算、人工智能等多種行業應用在高性能計算平臺,邊緣計算平臺的部署與優化。本論壇主要探討異構計算軟件棧相關的底層軟件技術、硬件平臺適配與優化、軟件產品以及行業應用案例等。
展開 
從高通驍龍855的AI加速器看行業的趨勢
其他廠商(如華為等)試圖用異構計算的思路打造一款非常強勁的專用AI加速器模組以滿足手機端AI加速的需求,但是異構計算的另一面卻是dark silicon,即AI任務僅僅由專用的AI加速器來完成,雖然能效比來看是提升了,但是從另一個角度來看,芯片上的其他模塊在芯片處理AI任務的時候卻是閑置了,造成了浪費。在測量芯片發熱的時候,常常使用紅外線來估計溫度,在紅外照片上越忙碌的芯片部分亮度會越高,而閑置的芯片部分則會看上去很暗,這也是“dark silicon”一詞的來源。
隨著異構計算越來越流行,Dark Silicon的問題也會隨之出現
高通顯然知道異構計算的優勢以及伴隨的dark silicon問題,因此在驍龍855中即集成了專用的張量計算單元用于AI加速,另一方面,又在系統層面將所有能執行AI計算的CPU、GPU和DSP劃歸一個統一的AI Engine來調度,這樣當張量加速模組忙于AI計算時,其他的模組也能助其一臂之力幫助分擔一些計算負擔,而不是在旁邊閑置。當然,這樣的動態調度設計一定會比簡單地“一個模塊負責一個任務”這樣的模式要復雜許多,同時也會引入一些硬件和軟件上的額外開銷,具體的效果還需要看實際使用中的情況,讓我們拭目以待。
驍龍855對于手機SoC AI加速器市場的影響
在高通之前,大多數面向中高端智能手機的手機SoC廠商,包括蘋果、華為等都已經推出了包含AI加速能力的SoC,今天高通終于也加入了這一行列。除了手機SoC廠商之外,Cadence,CEVA等廠商也都推出了(可以應用在手機SoC中的)AI加速器IP。在這樣的情況下,我們認為對于AI的加速將不再是手機的亮點,而將成為近期手機的一個常規功能 。
從應用端來看,隨著手機SoC對于AI的支持,必然會鼓勵更多的手機App引入AI相關功能。
展開 CCF HPC China2023|澎峰科技:使能先進計算,賦能行業應用
衡山系列預裝澎峰自研的高性能計算行業解決方案HPC SDK:數學計算庫PerfMPL、異構計算框架PerfXAPI、科學計算軟件PerfXPy等,使能先進計算硬件,賦能科研創新與行業應用,適用于科學計算、工程計算、AI計算、融合計算等應用場景,助力實現高效和綠色的算力成本。目前衡山系列推出了兩款產品:衡山-1(HS-1)、衡山-2(HS-2)。
——HS-1是全球首款256核RISC-V計算型服務器。主要面向高密度計算場景設計,單主板搭載兩顆64核RISC-V CPU,雙芯CCIX互聯。整機具備有4TFlops 64位浮點算力,滿載支持16條DDR 4,總內存容量高達1024GB,并支持PCIe Gen 4。HS-1在有限的空間內進行了獨具匠心的系統設計和高密度的模塊化部署,特別適用于需要兼顧計算性能和部署密度的高密度計算集群。
——HS-2主要面向高校、研究院、社區開發者推出的RISC-V高性能計算工作站,配備64核RISC-V@2.0GHz的處理器,致力于推動我國RISC-V軟件生態、芯片設計、指令集研究等方向發展。
看點二·論壇|異構計算軟件棧與應用
2023年8月26日上午9:00-12:00,第三屆異構計算軟件棧于應用論壇在紅島國際展覽中心望海樓(北)A305室成功舉辦。澎峰科技創始人張先軼博士,為大家介紹了澎峰自研的統一跨平臺API異構計算框架——PerfXAPI。
展開 北鯤云告訴你足夠的存儲空間在高性能計算有多重要
對于很多有高性能計算需求的用戶來說,通常比較關注的是計算的硬件配置是否是最新的,因為這往往關系到計算效率。但性能計算與任何一項技術一樣,都需要分步驟完成,除了計算速度,在高性能完成一項計算任務后,所用到的存儲空間最終了決定這項任務是否能夠成功執行。北鯤云計算小編就帶你一起來了解一下存儲的重要性。
隨著異構計算越來越多的應用,包括傳統高性能計算和新興的云計算都開始大規模的采用異構計算方式,包括GPU、FPGA、ARM等諸多架構芯片的出現,讓整個計算市場呈現出“百花齊放”的情形。
網絡層面上,北鯤云小編注意到,從每年兩屆的超算TOP500榜單的數據來看,100G網絡是以太網的“標配”;而在注重傳輸效率和低延遲的InfiniBand網絡中,200G的HDR標準則成為主流。從這個角度來說,高性能計算的發展可謂是突飛猛進,從計算到網絡的變化使得數據的處理和傳輸越發效率,在這樣飛速發展的狀態下,存儲空間就成為高性能計算發展中另一個不可忽視的重要環節。
存儲對于高性能計算有多重要?
以往在談到高性能計算的時候,我們更在意計算的速度,因為那時候計算能力還有較大的提升空間;而如今,異構計算的出現讓計算效率呈指數級提升,而高速網絡也讓這些計算成果讓數據本身能夠發揮更大的價值,在高性能計算主體升級后,作為高性能計算重要組成部分的存儲環節,如果沒有隨之升級,就會成為制約高性能計算發展瓶頸。
從上個世紀90年代提出的生物基因工程測序到最近大火出圈的AlphaFold2模型,無一不說明高性能計算在生命科學領域的成功應用。無論是計算過程中出現的臨時數據,還是計算完成后的結果輸出,都是相當龐大的數據。因此,如果存儲不足,也就意味著計算不得不中斷,當然,如果沒有足夠的存儲空間,計算結果數據同樣不能順利地發揮其價值。
展開 被AMD收購后,FPGA的未來如何?賽靈思CEO這樣說
而且Victor Peng認為結果與大家擔心的恰恰相反,隨著時間的一個推移,“大家會發現在自適應計算,在FPGA方面有了AMD這樣一種規模性的效應和投入,我們只會更多的去創新,更快的去創新,更好的服務市場和客戶”。
首次公開面對中國媒體評價這次并購,作為曾經AMD高管的Victor Peng這樣去看待合并后的發展,“合并后的AMD 和賽靈思,公司規模將會明顯擴大,并將活動更加強勁的增長動力。而且,我們也將會處于一個絕佳的位置,可以進一步擴大我們的生態系統以及合作伙伴關系。同時,我們的合并,將使得兩家公司現有的產品和平臺增長勢頭雙雙進一步提升。合作伙伴關系與生態系統的擴張將促成一個良性循環,進而為我們的客戶創造更高的價值,使得我們的產品和平臺擁有更多的客戶。”
正如文章開頭所提及,隨著兩大CPU巨頭收購FPGA雙雄,異構計算的格局正式形成,并且參考GPU龍頭NVIDIA收購Arm,三大陣營的實力都空前強大,未來的計算競爭三足鼎立之勢已成。Victor Peng直指收購的重要驅動力就在于對異構計算生態的掌控,他認為現在已經很難在從頭去構建一個處理器架構的生態,通過收購獲得關鍵技術的同時獲得客戶和生態系統,這樣的結合是能夠節省很多的時間和資源的高效解決方式。另一方面則是面對強大的對手,需要規模化來壯大自己的實力并更好的發揮異構計算的生態趨勢。
而面對三大異構計算巨頭的未來,Victor Peng滿懷信心,AMD和Intel都將擁有CPU、GPU和FPGA,不過在GPU和FPGA方面未來AMD將有明顯的技術優勢,而CPU的性能和市場占有率這一兩年來AMD持續走強,綜合起來競爭優勢已經非常明顯。
展開