
發布
注冊
/
登錄芯片架構的案例
芯片帝國架構:英偉達GPU獨占風騷,英特爾掉隊、谷歌奮力追趕
CPU、GPU、FPGA、英特爾、英偉達、賽靈思等等隨著深度學習帶來的AI的興起,芯片領域最近可謂是風起云涌,一個個科技名詞走進公眾視野,成為網紅。AI創企也在不斷吸金,用芯片燃燒著一個又一個神話;與此同時,老牌芯片廠商,英偉達、賽靈思也在不斷被挑戰的同時,續寫自己的輝煌。
芯片,作為高端制造業的“皇冠明珠”,在不斷變小、改變架構的同時,不斷凝縮著新的科技結晶,逐漸構建出更龐大、更精致的科技帝國。
億歐推出“芯片帝國”系列分析稿件,從芯片的核心架構、應用場景、國內外主要玩家和下游晶圓代工廠等方面呈現芯片業的產業圖景。當前AI芯片主要分為GPU、FPGA、ASIC及類腦芯片等。以下為第一篇架構篇,從通用芯片CPU及它的創始者英特爾說起,梳理AI浪潮下不同的芯片架構,及它們所構筑的科技帝國。
英特爾和CPU:開山鼻祖,集成通用芯片、PC界老大
芯片中,最令人熟悉的恐怕是中央處理器CPU了。作為一種超大規模的集成通用芯片,CPU可完成多種不同種類的任務,在PC世界里起著大腦的作用。而CPU的誕生也開始了PC時代的巨頭——英特爾的輝煌歷史。
英特爾是主要以研制CPU處理器的巨頭,全球最大的個人計算機零件和CPU制造商,1971年,英特爾推出了全球第一個微處理器,它引發的微處理器所帶來的計算機和互聯網革命,可以說改變了整個世界。
但CPU雖統治了PC時代,隨著人工智能興起,傳統的CPU算力不足這一問題便越來越突出,尤其基于CPU的傳統計算架構無法滿足人工智能并行計算的需求。AI所需的深度學習需要很高的內在并行度、大量浮點計算能力以及矩陣運算,因此在通用芯片之下,需發展適合人工智能架構的專屬芯片。這也帶來了英特爾地位的下降。
展開 主流芯片架構即將變天!
芯片制造商正在研究一種新的結構,這種結構能夠顯著增加每能耗和每個時鐘周期上可以處理的數據量,并為未來幾十年內芯片架構的重大改變打下基礎。
所有主要的芯片廠商
和系統廠商都在改變方向
所有主要的芯片廠商和系統廠商都在改變方向,他們引發了一場架構方面的競賽,包括了從向內存中讀取數據的方法到數據的處理和管理方式,以及最終各種元素如何打包到單個芯片中等方方面面。盡管節點的縮小依然會持續,但沒有人會為了應對隨著各種傳感器和越來越多的機器間通信的爆炸式數據增長而把一切賭在擴展性上。
在這些改變之中,有一些值得我們注意:
新的處理器架構專注于在每個時鐘周期內處理大塊數據,根據應用程序的不同需要,有時可以選擇較低的精確度,或讓一些操作有更高的優先級。
新的內存架構正在開發,它將改變數據的存儲、讀取、寫入和訪問方式。
更多定向的處理元素被分散到系統中的各個部分,以配置到距離內存最近的地方。以后會根據數據類型和應用程序來選擇加速器。
AI方面也有許多研究,以期將不同數據類型混合在一起組成模式,從而有效地增加數據密度,并將數據間的差異降低到最低。
封裝(packaging)現在是架構中的核心組成部分,而且越來越強調修改設計的方便性。
Rambus的杰出發明家Steven Woo說:“有幾個趨勢促使人們希望從已有方案中獲得最大的收益。在數據中心,人們希望壓榨硬件和軟件的一切性能。這使得人們重新認識數據中心的經濟模式。創新的代價非常高。但技術切換才是瓶頸,所以我們才會看到專用芯片,才會看到許多提高計算效率的方式。
展開 AI芯片架構競相走向邊緣
芯片的面積和功率的目標規格將在明年上半年完成,并在下半年流片。推理引擎將充當CPU,而不僅僅是一個更大,更漂亮的加速器。它提供了模塊化、可擴展的架構,旨在通過減少移動數據的需要以及通過改進數據和矩陣計算的加載方式來減少瓶頸,從而降低移動數據的時間和精力成本。
該芯片將DRAM專用于單個處理器塊,而不是將其作為一個大內存池進行管理。DRAM不能同時將數據饋送到芯片的多個部分。Tate說:“將DRAM作為流入一個處理器塊的大內存池處理,這是范諾依曼架構的典型特征,但它不會成為神經網絡的成功架構。”
早期
Wawrzyniak表示,Xilinx,Flex Logix和其他公司蜂擁到了一個仍處于發展中的邊緣推理市場,顯示出市場和SoC、FPGA制造商提供良好技術以應對它們的能力的廣泛信心,但這并不能保證他們能夠克服安全、隱私、現狀的慣性和其他無形的問題。同樣,FPGA、ASIC和SoC加速ML的市場仍處于起步階段。
Linley Group的Linley GwenNap表示,當一個新市場發展起來時,看到許多新的參與者和新方法是正常的。FPGA和ASIC供應商也在其中,因為這些技術使一家知道自己在做什么的公司能夠快速生產出合理的產品。不過,標準最終將在一兩年內回歸,這將穩定所涉及的參與者的數量和專長,并確保與其他市場的互通性。
來源:半導體行業觀察(ID:icbank)翻譯自「Semiconductor Engineering」
展開 網絡芯片架構的新改變
Walia表示:“無論是CPU芯片組、GPU、加速器、適配器卡、交換機、存儲陣列還是安全系統,根據它們的功能,又會出現不同的要求。第三,從PHY的角度來看,它們在系統中的位置很重要,無論是在刀片服務器卡內,還是在中間卡上,或是在交換機架的頂部。所以它們的位置決定了它們的需求。市場整體上非常分散,因為它變得越來越復雜。”
Walia說,除此之外,還有一群開發人員在談論芯片,因為它們被逼到了芯片裸片尺寸或光罩的邊緣。“他們現在想要進入chiplets,我們正在從那些想要做所謂的USR(超短距離)SerDes的客戶那里獲得需求。這是另一個需要解決的市場。”
今天,大多數網絡設計活動都在云端,其中大部分都是由AI和機器學習應用驅動的。Walia表示:“有趣的是,所有網絡公司現在都在嘗試遵循垂直整合模式,他們甚至在嘗試自己制作芯片組。無論是中國的阿里巴巴、騰訊、百度,還是美國的Facebook、谷歌,都在嘗試自己的AI芯片組。他們不想使用商業芯片。因此,至少從IP的角度來看,我們的業務指標不是芯片量。更多的是從設計開始的,當然,我們在此處看到了云計算驅動了我們大部分IP業務。”
西門子Mentor事業部IP部門總經理Farzad Zarrinfar對此表示贊同:“基本的處理器并沒有達到要求,所以我們看到主要的OEM、搜索領導者、游戲領導者和通信領導者都在開發他們自己的ASIC。顯然,這些ASIC很多取決于應用。如果它是數據中心應用,或是某種汽車應用,亦或物聯網應用,我們就會看到很多構建模塊。例如,如果你觀察一個三層千兆交換機,那么你就會發現1千兆位和10千兆位MAC(媒體訪問控制器)。有些人在芯片內部加入了ASIC、收發器、SerDes和PHY,以進一步提高整合度,并最大限度地降低成本。有些人希望基于自己的架構來保持它。
展開 
Arm推出Armv9架構:芯片產品最快年底面世 華為也能用
Arm近日宣布推出Armv9架構,以滿足對安全、人工智能和無處不在的專用處理的需求。這也是Armv8之后十年來最新的Arm架構。
基于Arm架構的芯片出貨量在持續加速,過去五年基于Arm架構的設備出貨量超過1000億。Arm在Armv9中提供更多的安全性和性能,順應AI、物聯網和5G在全球范圍內的發展,加速每個產業應用從通用計算轉向專用計算。
Arm首席執行官Simon Segars表示,“在展望由AI定義的未來時,我們必須夯實先進的計算基礎,以應對未來的獨特挑戰。Armv9就是我們給出的答案。在通用計算所具備的經濟性、設計自由度和可及性的基礎上,市場需要普適專用、安全而強大的處理能力,這將驅動下一個3000億個基于Arm架構的芯片發展,而Armv9就是這些芯片的技術先驅。”
在安全、AI和性能進行升級 芯片最快年底面世
在安全方面,Armv9架構路線圖引入了Arm機密計算架構。機密計算通過打造基于硬件的安全運行環境來執行計算,保護部分代碼和數據,免于被存取或修改,甚至不受特權軟件的影響。
Arm機密計算架構將引入動態創建機密領域的概念,機密領域面向所有應用,運行在獨立于安全或非安全環境之外的環境中,以實現保護數據安全的目的。
展開 自動駕駛主流芯片及平臺架構:低算力平臺
Mobileye 在 2016 年開始設計 EyeQ5,選定了 MIPS 的 I6500 做架構。
MIPS 在 I6500 架構之上,推出了特別針對車規的 I6500-F,而后續的 I7200 是針對無線市場的。
因此,Mobileye 在之后的一代芯片上,放棄了 MIPS 架構,而決定采用英特爾的 Atom 內核。
Atom 是英特爾處理器系列的常青樹,典型車載平臺是 Apollo Lake。
2016 年 6 月,英特爾從 Apolllo Lake 切換到 Goldmont 架構,并先后在特斯拉、寶馬、卡迪拉克、紅旗、現代、沃爾沃、奇瑞的車機上大量使用。
EyeQ6 要到 2024 年才量產,在各家的競爭中也顯得有些落后了。
瑞薩自動駕駛平臺方案介紹
瑞薩是全球第二大汽車半導體廠家,全球第一大汽車 MCU 廠家,也是日本除索尼(索尼的主營業務主要是圖像傳感器)外最大的半導體廠家。
瑞薩在整個座艙芯片(包括液晶儀表+中控導航)和自動駕駛全部都有布局,在不同系列的產品都有分入門級和高階版本。比如座艙的中間級別的芯片等級及時M級別,大眾邁騰與帕薩特用的M3系列芯片,定位為中檔座艙。
在高性能車載計算方面,瑞薩目前最頂級的產品是 R-CAR H3,主要用在座艙領域,目前最新款的長城H6的檸檬平臺就是使用的這個平臺。
展開 AI芯片技術架構的4種類型,哪種能笑到最后?
02、基于FPGA的半定制化芯片
代表如深鑒科技DPU、百度XPU等
DPU:Deep-Learning Processing Unit深度學習處理器
Deephi Tech深鑒,一家位于北京的清華背景start-up,深鑒將其開發的基于FPGA的神經網絡處理器稱為DPU。
深鑒已經公開發布了兩款DPU:亞里士多德架構和笛卡爾架構,分別針對CNN以及DNN/RNN。
百度也發布了XPU,這是一款256核、基于FPGA的云計算加速芯片,合作伙伴是賽思靈(Xilinx)。XPU的目標是在性能和效率之間實現平衡,并處理多樣化的計算任務。
XPU的256個內核,集成了一個共享內存用于數據同步,所有內核都運行在600MHz
03、全定制化ASIC芯片
代表如TPU、寒武紀 Cambricon-1A等
ASIC:Application Specific Integrated Circuit
ASIC在集成電路界被認為是一種為專門目的而設計的集成電路。ASIC芯片技術發展迅速,目前ASIC芯片間的轉發性能通常可達到1Gbs甚至更高,于是給交換矩陣提供了極好的物質基礎。
TPU:Tensor Processing Unit Google 的張量處理器
Google在2017年5月的開發者大會上正是公布了TPU2,又稱Cloud TPU.相比于TPU1,TPU2既可以勇于training,又可以用于inferrence.TPU1實用了脈動陣列的流處理結構。
展開 英偉達收購Arm再有變數?高通CEO:若失敗,愿接盤
據報道,美國芯片巨頭高通(Qualcom)近日向外界表示,如果英偉達(Nvidia)對英國芯片設計公司Arm的400億美元收購案被監管機構叫停,那么它將對投資Arm的建議持開放態度。
媒體在周日報道,高通即將上任的首席執行官克里斯蒂亞諾·阿蒙(Cristiano Amon)已經表示,如果Arm目前的所有者軟銀(SoftBank)決定將其上市,而不是出售給英偉達,高通將愿意與其他行業投資者一起購買Arm的股份。
阿蒙還補充稱,高通“肯定會對投資Arm持開放態度”,公司已經“與其它有同樣想法的公司進行了討論”。
當媒體試圖就此消息聯系高通、英偉達和Arm三家公司時,高通拒絕置評,英偉達則表示IPO上市并不足以支持Arm的成長,而Arm沒有立即做出回應。
英偉達發言人稱,如果Arm想充分發揮其潛力,它需要的不僅僅是IPO。這位發言人說:“Arm需要注入新的技術,并將該技術提供給世界各地的芯片架構許可證持有人,這就是為什么我們愿意收購Arm的原因。”“我們的技術和高通的技術具有高度互補性,我們歡迎高通和我們一起為整個Arm生態系統創造新的技術和產品。”
Arm于1990年從一家名為Acorn Computers的早期計算機公司中剝離出來。該公司設計的節能芯片架構被應用于全球95%的智能手機。Arm將其芯片架構授權給500多家公司,這些公司則利用這些芯片架構來制造自己的芯片。
英偉達在去年9月宣布將收購Arm,整個過程預計將耗時18個月。但從那時起,高通就一直向監管機構表示,它反對這項交易。此外,微軟和谷歌也同樣反對這樁交易。
展開 一家芯片公司的收購為何遭全球政府阻撓?
縱觀全球芯片產業鏈公司,除了威名赫赫的英特爾、臺積電、高通等巨頭外,有一家公司雖然在臺前露臉的機會不多,卻一直深處幕后深藏功與名但依然死死的卡住了絕大多數芯片領域大佬們的脖子,這家公司就是發源自英國、如今屬于日本軟銀麾下,正處于被收購的風口浪尖之上的半導體IP(知識產權)供應商Arm(Advanced RISC Machine)。
要說Arm有多NB,看幾組數據就知道了:迄今為止,全球已誕生1800億顆基于Arm架構的芯片;僅在2020年第4季,全球基于Arm架構的芯片出貨就達到了創紀錄的67億顆,超越了x86、ARC、Power 和MIPS 等其他架構芯片出貨的總和;目前,基于Arm架構的處理器已經占據了手機處理器90%的市場份額,平板電腦處理器80%的市場份額,上網本處理器30%的市場份額。
總而言之,Arm公司自己本身雖然沒有設計制造任何一顆芯片,但基于Arm的底層架構的芯片,卻統治了幾乎全球全部智能手機、平板電腦以及部分PC市場,并正逐漸侵蝕服務器芯片、網絡設備芯片、工業機器人芯片和自動駕駛芯片領域。
也正因如此,當美國芯片設計巨頭英偉達宣布要以660億美元的天價收購Arm時,全球芯片領域企業都緊張起來,各國政府都針對性開展細致審查,唯恐這么強大的一家公司的所有權變動導致本國芯片企業受損。
而就算是與美國關系好的不得了歐盟,在英偉達收購Arm一事上也表現出異常的謹慎。英國《金融時報》援引匿名信源(歐盟官員)稱,英偉達收購英國芯片巨頭Arm的計劃面臨歐盟的反對,這名官員表示:“這家美國芯片制造商做出的讓步不足以減輕對競爭對手的潛在損害。”
展開 方之熙:RISC-V架構將是我國物聯網芯片逆襲機會
方之熙建議,中國應該從更高的層次上看到RISC-V的戰略意義,及早對運算平臺進行布局,推行指令集國家標準,是基于開源指令集RISC-V、還是其它已有的成熟的指令集,亦或重新設計一套自己的指令集,來開發我們物聯網及其它領域的運算平臺芯片,做更多的考量。
我國于2017年進口以ARM為系統架構的物聯網芯片約300億元。據預測,再過幾年,物聯網芯片全球需求為2000-3000億人民幣,方之熙相信,如我們有自主的系統架構及其上的生態系統,我國的芯片產業不光能滿足中國智能制造的需要,還能出口芯片,占有這3000億元中相當大的份額。
展開 汽車芯片需要怎樣的處理器架構?
傳統上,這些較大SoC中的汽車MCU是基于RISC的架構。然而,為了滿足性能要求,系統需要一種具有最先進的安全功能的處理器架構,這種架構是一種平衡了性能、功耗、面積、安全等多個因素的組合。這種組合將為未來汽車行業內的先進安全設計以及未來其他生死攸關的安全應用奠定基礎(圖2)。
圖2.

深度解讀特斯拉自研芯片架構
簡而言之,這就是特斯拉的 Project Dojo 芯片、互連和超級計算機工作的全部內容。
關于Dojo系統
在Hot Chips 34大會上,曾在Dojo超級計算機上工作的芯片、系統和軟件工程師首次公開了該機器的許多架構特性,并承諾將在特斯拉AI日上談論Dojo系統的性能。
Emil Talpes 在 AMD 工作了近 17 年,研究各種 Opteron 處理器以及命運多舛的“K12”Arm 服務器芯片,他介紹了他的團隊創建的 Dojo 處理器。Debjit Das Sarma 則同期在 AMD 擔任 CPU 架構師,他在演講中受到贊譽,目前是特斯拉的自動駕駛硬件架構師,Douglas Williams 也是如此,我們對他一無所知。這家汽車制造商的首席系統工程師 Bill Chang 在 IBM Microelectronics 工作了 15 年,設計 IP 模塊并致力于制造工藝,然后幫助 Apple 將 X86 處理器轉移到自己的 Arm 芯片上,而Rajiv Kurian一開始在特斯拉工作,然后在Waymo工作。據我們所知,在去年 8 月的 Tesla AI Day 1 上發言特斯拉自動駕駛硬件高級總監Ganesh Venkataramanan負責Dojo項目。過去十五年里,Venkataramanan 還是 AMD CPU 設計團隊的領導者。
所以以一種奇怪的方式,Dojo 代表了一個可替代的人工智能未來,如果特斯拉來幫助從頭開始設計定制的人工智能超級計算機,從全新核心內核中的向量和整數單元一直到一個完整的 exascale 系統,專為 AI 訓練用例的規模化和易于編程而設計。
與來自 AI 初創公司的許多其他相對較新的平臺一樣,Dojo 設計優雅而徹底。最引人注目的是特斯拉工程師在關注規模時拋出的東西。
展開 汽車芯片需要怎樣的處理器架構?
傳統上,這些較大SoC中的汽車MCU是基于RISC的架構。然而,為了滿足性能要求,系統需要一種具有最先進的安全功能的處理器架構,這種架構是一種平衡了性能、功耗、面積、安全等多個因素的組合。這種組合將為未來汽車行業內的先進安全設計以及未來其他生死攸關的安全應用奠定基礎(圖2)。
圖2.
系統和芯片架構正在走向異構世界
架構的核心是組塊陣列,每個組塊相互連接,有各自的本地存儲,而且可以擴展,以針對特定的應用。Xilinx將提供一系列針對廣闊的新市場的SKU。可編程邏輯將包括DSP、LUT、URAM和BRAM。根據Peng的設想,該架構將允許用戶對架構進行編程,以最好地滿足應用的需求。這使得組織能夠將相同的芯片部署到不同的工作中。
Peng 表示:“這將使內核和DSA進出的速度更快,同時減少設計限制。它適用于多個市場。關于數據中心和云有很多討論,但由于其靈活性和深度,它將服務于所有市場。該架構是可擴展的,因此它將用于汽車應用、云應用,以及介于兩者之間的東西,例如通信、基礎設施。它不僅軟件可編程,硬件也可編程。”
它還將帶來更高的吞吐量、更低的延遲和更低的功耗,在談論現代工作任務時,這些因素都與頻率一樣重要。
Peng 表示:“如今,尤其是由于人們對機器學習的關注,我們陷入了對于尖端技術的狂熱。這讓我想起了上世紀90年代的兆赫戰爭。這真的不重要,重要的是應用的加速。我們運行這些東西通常是幾百兆赫或一千兆赫左右,并不會太高。原因在于,由于我們的架構普遍具有適應性,我們有很多分布式片上存儲器和連接性可以自定義,甚至端口的部分配置也可以自定義。你不僅可以優化數據路徑和數據流,還可以優化內存層次和帶寬,以及大量的片上帶寬。”
展開 AI芯片,是中國實現彎道超車最好的機會!
來源:公開資料整理
5
原因之三:開源且免費的RISC-V芯片架構
RISC-V芯片架構的指令集是開源的,任何人都可以下載并在架構基礎上設計芯片,且無須付費。該芯片架構始于2010年,在加州伯克利分校創建,采用第五代“精簡指令集計算機”架構類型。
對于制造商而言,開源方法可以降低構建定制芯片的相關風險。如果你想用ARM實現這一點,你必須向其開發方英國安謀國際科技公司支付數百萬美元的許可費。如果你想使用x86,那你就很不走運了,因為英特爾只將其指令集授權給超微半導體公司(AMD)。
多年來,科技公司巨頭們已經設計了自己的芯片來處理和其設備相關的特殊任務。利用RISC-V,科技公司現在能夠從指令集入手,然后雇用CPU架構師和其他工程師來構建和測試芯片,而無須支付巨額的預先許可費。
開源且免費的RISC-V芯片架構,這對中國AI芯片產業來說也是有利條件。因為,該技術降低了創建定制芯片的成本,意味著越來越多的公司開源選擇構建自己的定制芯片,同時也不需要支付巨額許可費。
6
原因之四:中國有海量的應用市場
從目前情況來看,AI芯片主要應用在物聯網、自動駕駛、工業機器人、智能手機等領域,根據《2017-2023年中國人工智能芯片行業研究及未來發展趨勢報告》顯示,以安防芯片為例,預計國內2018年攝像機產量約2億臺,每臺攝像機配置一顆圖像處理芯片,參考IPC芯片15元/顆價格,整個芯片市場規模約30億元。
展開