深度學習訓練與推理計算平臺硬件配置完美選型2020v1

人工智能隨著核心算法、計算能力的迅速提升,以及海量聯網數據的支持,在本世紀終于迎來了質的飛躍,人工智能將是未來應用最廣泛的技術之一,在市場經濟領域帶來更多的機遇與機會,在醫學領域可以大大加快診斷速度和準確性,在軍事領域人工智能武器將成為未來武器的王牌……

(一)了解深度學習算法
深度學習兩個主要過程:訓練(Training)和推理(Inference)。其中:
訓練(Training)是將大量數據加載到機器中并分析數據以建立用于分類,識別,預測等的模式的過程(已建立的模式稱為訓練后的模型),訓練需要高速密集并行計算---“高性能計算”

任務領域

原始輸入

淺層特層   中層特征    高層特征

訓練目標

語音

樣本

頻段  聲音   音調      音素   單詞

語音識別

圖像

像素

線條  紋理   圖案    局部   物體

圖像識別

文本

字母

單詞   詞組  短語    段落   文正

語義理解

推理(Inference)是將未知數據輸入到通過學習過程創建的訓練模型中,然后根據已建立的模式對數據進行實際分類,識別和預測的過程,推理需要快速將推理結果轉化為行動—“邊緣計算”、實時要求高

深度學習是指多層神經網絡上運用各種機器學習算法解決圖像、文本、語音等各種問題的算法集合

典型算法

應用領域

CNN卷積神經網絡

計算機視覺:醫學圖像分析、圖像識別、面部檢測、識別系統、全動態視頻分析,自動駕駛,衛星圖像

藥物發現、推薦引擎、游戲

RNN遞歸神經網絡

變體:LSTM、GRU、NTM、雙向RNN

自然語言處理(NLP):機器翻譯、情感處理,語言生成,文本分類和句子完成:

時間序列預測:股票預測、金融工程,應用物理、醫學醫藥

順序圖像處理:圖像分類、圖像字幕

分割的手寫識別、語音識別  

問題解答系統,機器人控制,

DBN深度信念網絡

圖像識別、信息檢索、自然語言理解、故障預測

DSN深度堆棧網絡

信息檢索、連續語音識別

GAN生成對抗網絡

圖像樣式轉換,高分辨率圖像合成,文本到圖像合成,圖像超分辨率[例如小劑量PET重建,異常檢測,3D對象生成[例如牙齒修復],音樂生成,科學模擬加速度(例如天體物理學或高能物理

Autoencoder自動編碼器

推薦系統,圖像重構、聚類、機器翻譯,異常值檢測、數據去噪(圖像、音頻),圖像修復,信息檢索


(二)深度學習主流算法計算特點

2019年,Nvidia(英偉達)公司上市Turing架構的RTX系列的GPU卡,增加了Tensor張量計算單元,大幅提升了深度學習關鍵的矩陣乘法計算、卷積計算(借助張量Tensors),GPU卡性能的關鍵指標:Tensor張量核數、顯存帶寬、FP16/FP32計算精度

目前可選GPU型號(2020年1季度)的主要技術參數

型號

CUDA核

張量

核數

顯存1

顯存帶寬2

張量計算3

FP16半精度計算4

FP32單精度計算5

Quadro GV100

5120

640

32

870

133

33.32

16.66

Quadro RTX8000

4608

576

48

672

130

32.62

16.31

Quadro RTX6000

4608

576

24

672

130

32.62

16.31

Titan RTX

4608

576

24

672

130

32.62

16.31

TITAN V

5120

640

12

651

119

29.80

14.90

TESLA V100

5120

640

16

897

113

28.26

14.13

RTX2080Ti

4352

544

11

616

108

26.90

13.45

Quadro RTX5000

3072

384

16

448

89

22.30

11.15

RTX2080S

3072

368

8

496

85

22.30

11.15

TESLA T4

2560

320

16

320

65

65.13

8.14

RTX2070S

2560

288

8

448

65

18.12

9.06

Quadro RTX4000

2304

288

8

416

57

14.24

7.12

RTX2060S

2176

272

6

336

57

14.36

7.18

標注1 顯存單位GB,標注2 顯存帶寬單位GB/s,標注3-5 單位Tflops(每秒萬億次)

應用1  CNN(卷積神經網絡)計算特點
這類應用主要是計算機視覺應用,計算機獲得對圖像的高級“理解”。為了評估模型是否真正“理解”了圖像,研究人員開發了不同的評估方法來衡量性能
主要算法:卷積神經網絡(CNN)

  • CNN主要模型:AlexNet,VGG,GoogleNet, ResNet, Inception 等

  • 主流深度學習框架:Theano、Caffe、MXNet、TensorFlow、Torch/Pytorch

  • CNN多GPU并行計算特點:非常理想

利用GPU加速主要是在conv(卷積)過程上,conv過程可以像向量加法一樣通過CUDA實現并行化。具體的方法很多,最好的是用FFT(快速傅里葉變換)進行快速卷積,NVIDIA提供了cuFFT庫實現FFT,復數乘法則可以用cuBLAS庫里的對應的level3的cublasCgemm函數。

GPU加速的基本準則就是“人多力量大”。CNN說到底主要問題就是計算量大,但是卻可以比較有效的拆分成并行問題。隨便拿一個層的filter來舉例子,假設某一層有n個filter,每一個需要對上一層輸入過來的map進行卷積操作。那么,這個卷積操作并不需要按照線性的流程去做,每個濾波器互相之間并不影響,可以大家同時做,然后大家生成了n張新的譜之后再繼續接下來的操作。既然可以并行,那么同一時間處理單元越多,理論上速度優勢就會越大。所以,處理問題就變得很簡單粗暴,就像NV那樣,暴力增加顯卡單元數(當然,顯卡的架構、內部數據的傳輸速率、算法的優化等等也都很重要)。

GPU計算性能出眾的根本原因是處理矩陣算法能力的非常強大,CNN中涉及大量的卷積,也就是矩陣乘法等,所以在這方面具有優勢,GPU上的TFLOP是ResNet和其他卷積架構性能的最佳指標。Tensor Core可以顯著增加FLOP,使用卷積網絡,則應首先確定具有高GPU張量計算能力的優先級,然后分配高FLOPs的CUDA數量,然后分配高內存帶寬,然后分配具有FP16位精度數據

  • CNN硬件配置要點:Tensors> FLOP> 顯存> 半精度計算(FP16)

GPU可選型號:

No

型號

CUDAs

Tensors

顯存1

顯存帶寬2

張量計算3

F16半精度4

F32單精度5

1

Quadro GV100

5120

640

32

870

133

33.32

16.66


Quadro   RTX8000

4608

576

48

672

130

32.62

16.31


Quadro RTX6000

4608

576

24

672

130

32.62

16.31


Titan RTX

4608

576

24

672

130

32.62

16.31

2

TITAN V

5120

640

12

651

119

29.80

14.90


TESLA V100

5120

640

16

897

113

28.26

14.13


RTX2080Ti

4352

544

11

616

108

26.90

13.45

3

Quadro RTX5000

3072

384

16

448

89

22.30

11.15


RTX2080S

3072

368

8

496

85

22.30

11.15

4

TESLA T4

2560

320

16

320

65

65.13

8.14


RTX2070S

2560

288

8

448

65

18.12

9.06


Quadro RTX4000

2304

288

8

416

57

14.24

7.12


RTX2060S

2176

272

6

336

57

14.36

7.18

標注1—單位GB,標注2—單位GB/s, 標注3~5 ---單位TFlops

說明:


GPU卡型號

顯存

計算規模

說明

1

RTX2070s

RTX2080s

RTX2080ti

8GB

8GB

11GB

小型模型開發

較小的GPU內存占用空間,

高吞吐量工作負載應用

渦輪式散熱,單臺工作站中最多配置8個

2

Titan   RTX

24GB

中等模型開發

大顯存支持使用更大的批處理

需要訓練大型計算機視覺模型,TITAN   RTX可以做到。

最多4塊,不支持密集地裝進工作站

3

RTX6000

24GB

中大等規模開發

配備渦輪風扇,支持密集安裝

支持單機最大9塊

4

RTX8000

48GB

超大規模

擁有所有NVIDIA GPU中最大的內存容量,

配備渦輪風扇,支持密集安裝

支持單機最大9塊



應用2  RNN(循環神經網絡)計算特點
這類典型應用主要是自然語言處理(NLP),包括語音識別,語言翻譯,語音轉文本和Q&A系統。

  • 主要算法:RNN(包括變體: LSTM、GRU、NTM、雙向RNN等)、Transformer

  • 主流框架:CNTK、Torch/PyTorch、Keras

  • 多GPU并行計算: 不明確,跟程序設計、算法、框架、SDK以及具體應用都有很大關系,一些應用CPU多核并行反倒更快。

RNN和LSTM的訓練并行計算是困難的,因為它們需要存儲帶寬綁定計算,這是硬件設計者的噩夢,最終限制了神經網絡解決方案的適用性。簡而言之,LSTM需要每個單元4個線性層(MLP層)在每個序列時間步驟中運行。線性層需要大量的存儲帶寬來計算,事實上,它們不能使用許多計算單元,通常是因為系統沒有足夠的存儲帶寬來滿足計算單元。而且很容易添加更多的計算單元,但是很難增加更多的存儲帶寬(注意芯片上有足夠的線,從處理器到存儲的長電線等)

GPU內存非常重要,因為諸如XLNet和BERT之類的transformer網絡需要大量的內存才能達到最高的精度,考慮矩陣乘法A*B=C的一種簡單有效的方法是受內存(顯存)帶寬限制:將A,B的內存復制到芯片上比進行A * B的計算要昂貴。這意味著如果您要使用LSTM和其他執行大量小矩陣乘法的循環網絡,則內存(顯存)帶寬是GPU的最重要功能。矩陣乘法越小,內存(顯存)帶寬就越重要,介于卷積運算和小型矩陣乘法之間的transformer在整體求解過程環節中并行效率低,加快方式提升顯存帶寬和足夠的顯存容量

  • RNN硬件配置要點: 顯存帶寬+顯存> 半精度計算(FP16) > Tensors> FLOP

GPU可選型號

No

型號

CUDAs

Tensors

顯存1

顯存帶寬 2

張量計算3

F16半精度4

FP32單精度5

1

TESLA V100

5120

640

16

897

113

28.26

14.13


Quadro GV100

5120

640

32

870

133

33.32

16.66

2

Quadro RTX8000

4608

576

48

672

130

32.62

16.31


Quadro RTX6000

4608

576

24

672

130

32.62

16.31


Titan RTX

4608

576

24

672

130

32.62

16.31


TITAN V

5120

640

12

651

119

29.80

14.90


RTX2080Ti

4352

544

11

616

108

26.90

13.45

3

RTX2080S

3072

368

8

496

85

22.30

11.15


Quadro RTX5000

3072

384

16

448

89

22.30

11.15


RTX2070S

2560

288

8

448

65

18.12

9.06


Quadro RTX4000

2304

288

8

416

57

14.24

7.12

4

RTX2060S

2176

272

6

336

57

14.36

7.18


TESLA T4

2560

320

16

320

65

65.13

8.14


說明


GPU卡型號

顯存

可選

說明

1

RTX5000

16GB

Good

擁有16GB顯存,

2

Titan   RTX

24GB

Better

支持NVLink橋接,加速訓練更大的NLP網絡模型,


RTX6000

24GB

Better

類似TITAN RTX性能指標,

渦輪散熱設計允許密集配置,支持單機最大9塊卡擴展

3

Quadro   GV100

32GB

Best

擁有最高的顯存帶寬870GB/s和最高的張量算力

3

RTX8000

48GB

Best

擁有最大48GB顯存,是NLP的最佳GPU

渦輪散熱設計允許密集配置,支持單機最大9塊卡擴展



(四)深度學習計算系統平臺配備

4.1深度學習框架對比

框架

重點應用

編程語言

多GPU速度

深度學習主要算法




CNN

RNN

/LTSM

GAN

RBM/

DBN





TensorFlow

自然語言處理,文本分類/摘要,語音/圖像/手寫識別,預測和標記

Python ,

C++,

R語言

++

+++

++ 


支持

Caffe

視覺識別

C,C++,Python,Matlab

+

++




CNTK

手寫和語音識別.處理圖像

C++,Python

++

+

+++

支持


PyTorch

處理圖像,手寫和語音識別

CUDA,C/C++

+++

+++

++

支持

支持

MXNet

圖像,手寫/語音識別,預測和NLP

Python,R,C++

Julia,CUDA

+++

+++

+

支持


Chainer

情感分析,機器翻譯,語音識別

CUDA


支持

支持



Keras

分類,文本生成和摘要,標記和翻譯,以及語音識別

Python


支持

支持



DL4J

圖像識別,欺詐檢測,文本挖掘,詞性標記和自然語言處理

Java


支持

支持


支持

Theano


Python

+

++

++



4.2 深度學習開發庫SDK
開發環境:CUDA Toolkit
訓練SDK:cuDNN (7.0版本支持Tensor Core)、NCCL、cuBLAS、cuSPARSE
推理SDK:TensorRT(版本3.0支持Tensor Core)、DALI

4.3 深度學習操作系統
操作系統:Windows 10 Pro 64位+ Ubuntu 18.04或RHEL 7.5
容器:Docker 18.06.1,NVIDIA Docker運行時v2.0.3
容器:RAPIDS容器

(五)深度學習計算硬件配置推薦

打造一個快速高效的深度學習計算平臺,涉及到多方面因素:
(1)超算硬件設備-—GPU、CPU、內存、硬盤io…
(2)深度學習算法---CNN、RNN…
(3)深度學習框架---Tensorflow、PyTorch…
(4)開發庫SDK---CUDA、cuDNN…
(5)程序設計算法優化—-張量單元、FP16精度數據計算、針對算法SDK優化、多卡并行優化算法…

5.1 深度學習工作站配置推薦(科研類)
機型:UltraLAB GX380i/GT410
支持2~4塊GPU卡
配備nvidia RTX---配置張量計算單元Tensor,支持inte X-512

No

產品型號

主要配置

FP16半精度性能

顯存帶寬

顯存

理想算法

價格

1.1

GX380i 14932-SA2X

intel第9代處理器(6核@4.9Ghz )/32GB   DDR4 /2*RTX2070s/960GB SSD /4TB SATA/微塔式(2000w)/23"圖顯

36Tops

448GB/s

16GB

CNN

29,990

1.2

GX380i 14964-SB2X

intel第9代處理器(6核@4.9Ghz)/64GB   DDR4/ 2*RTX2080Ti/1.9TB SSD/4TB SATA/微塔式(1200w)/23"圖顯

54Tops

616GB/s

22GB

CNN

49,990

1.3

GX380i 14964-SB2D

intel第9代處理器(6核@4.9Ghz) /64GB   DDR4 / 2*RTX5000/1.9TB SSD/6TB SATA/微塔式(2000w)/23"圖顯

45Tops

448GB/s

32GB

RNN

69,990

1.4

GX380i 14996-SB2T

intel第9代處理器(8核4.9Ghz) /96GB   DDR4 / 2*Titan RTX /1.9TB SSD/6TB SATA/微塔式(2000w)/23"圖顯

65Tops

672GB/s

48GB

CNN+ RNN

97,500

1.5

GX380i 15096-SB2T

intel第9代處理器(8核5.0Ghz) /128GB   DDR4 /2*Quadro GV100 /960TB SSD+2TB M2.SSD /6TB   SATA/微塔式(2000w)/23"圖顯

67Tops

870GB/s

64GB

RNN

169,990

1.6

GT410i 14664-SB4X

intel第10代至尊處理器(10核4.6Ghz) /64GB   DDR4 /4*RTX2080s /1.92TB SSD/4TB SATA/微塔式(2000W)/23"圖顯

89Tops

496GB/s

32GB

CNN

69,990

1.7

GT410i 14596-SB4X

intel第10代至尊處理器(12核4.5Ghz ) /96GB   DDR4 /4*RTX2080Ti /1.92TB SSD /6TB SATA/微塔式(2000W)/23"圖顯

108Tops

616GB/s

44GB

CNN

89,990

1.8

GT410i 145192-SC4E

intel第10代至尊處理器(12核4.5Ghz ) /192GB   DDR4 /4*RTX6000/ 3.84TB SSD/10TB SATA/微塔式(2000W)/23"圖顯

131Tops

672GB/s

96GB

CNN+ RNN

210,000

1.9

GT410i 142256-SC4F

intel第10代至尊處理器(18核4.2Ghz ) /256GB   DDR4 /4*RTX8000/3.84TB SSD/10TB SATA/微塔式(2000W)/23"圖顯

131Tops

672GB/s

192GB

RNN

330,000

1.10

GT410i 142256-SC4G

intel第10代至尊處理器(18核4.2Ghz ) /256GB   DDR4/4*Qudro GV100/3.84TB SSD /10TB SATA/微塔式(2000W)/23"圖顯

133Tops

870GB/s

64GB

RNN

350,000


5.2 深度學習工作站配置推薦(高性能類)
機型:UltraLAB GT410P
支持支持5~7塊GPU

No

產品型號

主要配置

FP16半精度性能

顯存帶寬

顯存

理想算法

價格

2.1

GT410P 14696-SB5X

intel第10代至尊處理器      (10核4.6Ghz)、96GB DDR4 /5*RTX2080s/1.92TB   SSD+6TB SATA /雙塔式(雙2000w)/27"-4K圖顯

112Tops

496GB/s

40GB

CNN

97,000

2.2

GT410P 14596-SB6X

intel第10代至尊處理器      (12核4.5Ghz)、96GB DDR4 /6*RTX2080s/1.9TB   SSD+ 8TB SATA /雙塔式(雙2000w)/27"-4K圖顯

134Tops

496GB/s

48GB

CNN

108,000

2.3

GT410P 145128-SB7X

intel第10代至尊處理器      (12核4.5Ghz)、128GB DDR4 /7*RTX2080s/1.9TB   SSD+ 10TB SATA/ /雙塔式(雙2000w)/27"-4K圖顯

156Tops

496GB/s

56GB

CNN

118,000

2.4

GT410P 145192-SC7X

intel第10代至尊處理器      (12核4.5Ghz)、192GB DDR4 /7*RTX2080Ti 3.84TB   SSD+ 8TB SATA/ 雙塔式(雙2000w)/27"-4K圖顯

188Tops

616GB/s

77GB

CNN

148,000

2.5

GT410P 145192-SC5T

intel第10代至尊處理器      (12核4.5Ghz)、192GB DDR4 /5*Titan RTX/3.84TB   SSD+ 10TB SATA/雙塔式(雙2000w)/27"-4K圖顯

163Tops

672GB/s

120GB

CNN+ RNN

228,000

2.6

GT410P 142256-SC7E

intel第10代至尊處理器      (18核4.2Ghz)、256GB DDR4 /7*RTX6000/3.84TB   SSD+ 14TB SATA/雙塔式(雙2000w)/27"-4K圖顯

228Tops

672GB/s

168GB

CNN+ RNN

370,000

2.7

GT410P 142256-SC7F

intel第10代至尊處理器      (18核4.2Ghz)、256GB DDR4 /7*RTX8000/3.84TB   SSD+ 14TB SATA/雙塔式(雙2000w)/27"-4K圖顯

228Tops

672GB/s

240GB

RNN

535,000


5.3 深度學習工作站配置推薦(超級類)
機型:UltraLAB GX630M)
支持8~9塊GPU

No

產品型號

主要配置

FP16半精度性能

顯存帶寬

內存/顯存

理想算法

價格

3.1

GX630M 237192-MB9X

2*Xeon金6234(16核3.7GHz)/  睿頻4GHz /192GB DDR4 /9*RTX2080s/960GB SSD+2TB M2.SSD/28TB存儲/雙塔/27"-4K圖顯

201Tops

496GB/s

40GB

CNN

199,990

3.2

GX630M 243192-MB8X

2*Xeon金6244(16核4.3GHz)/  睿頻4.3GHz /192GB DDR4 /8*RTX2080Ti/1.9TB SSD+2TB M2.SSD/42TB存儲/雙塔/27"-4K圖顯

215Tops

616GB/s

88GB

CNN

245,000

3.3

GX630M   241384-60T7T

2*Xeon金6246(24核4.1GHz)/  睿頻4.2GHz /384GB DDR4 /7*Titan RTX/3.84TB SSD /60TB并行存儲/雙塔/27"-4K圖顯

228Tops-   

672GB/s

168GB

CNN+ RNN

399,990

3.4

GX630M   241384-42T8E

2*Xeon金6246(24核4.1GHz)/  睿頻4.2GHz /384GB DDR4 /8*RTX6000/1.92TB SSD+2TB M2.SSD/42TB并行存儲/雙塔/32"-4K圖顯

261Tops

672GB/s

192GB

CNN+ RNN

499,990

3.5

GX630M   239768-150T8F

2*Xeon金6254(36核3.9GHz)/  睿頻4.0GHz /768GB DDR4 /8*RTX8000/3.84TB SSD+3.2TB P-SSD/150TB并行存儲/雙塔/32"-4K圖顯

261Tops

672GB/s

384GB

CNN+  RNN+  推理

750,000

3.6

GX630M   235768-210T8G

2*Xeon白金8268(48核3.5GHz)/睿頻3.9GHz  /768GB   DDR4 /8*QGV100 /3.84TB SSD /6.4TB P-SSD/210TB并行存儲/雙塔/32"-4K圖顯

266Tops

870GB/s

256GB

CNN+  RNN+  推理

850,000

3.7

GX630M   2331T-266T9F

2*Xeon白金8280(56核3.3GHz/ 睿頻4.0GHz   /1TB DDR4 /9*RTX8000/3.84TB SSD系統盤/6.4TB P-SSD/266TB并行存儲/雙塔/32"-4K圖顯

293Tops-地球最強

672GBs

432GB

CNN+  RNN+  推理

999,990

 

 

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP