深度學習訓練與推理計算平臺硬件配置完美選型2020v1

UltraLAB

2020年4月20日 14:21

人工智能隨著核心算法、計算能力的迅速提升，以及海量聯網數據的支持，在本世紀終于迎來了質的飛躍，人工智能將是未來應用最廣泛的技術之一，在市場經濟領域帶來更多的機遇與機會，在醫學領域可以大大加快診斷速度和準確性，在軍事領域人工智能武器將成為未來武器的王牌……

（一）了解深度學習算法
深度學習兩個主要過程：訓練（Training）和推理（Inference）。其中：
訓練（Training）是將大量數據加載到機器中并分析數據以建立用于分類，識別，預測等的模式的過程（已建立的模式稱為訓練后的模型），訓練需要高速密集并行計算---“高性能計算”

任務領域	原始輸入	淺層特層中層特征高層特征	訓練目標
語音	樣本	頻段聲音音調音素單詞	語音識別
圖像	像素	線條紋理圖案局部物體	圖像識別
文本	字母	單詞詞組短語段落文正	語義理解

推理（Inference）是將未知數據輸入到通過學習過程創建的訓練模型中，然后根據已建立的模式對數據進行實際分類，識別和預測的過程，推理需要快速將推理結果轉化為行動—“邊緣計算”、實時要求高

深度學習是指多層神經網絡上運用各種機器學習算法解決圖像、文本、語音等各種問題的算法集合

典型算法	應用領域
CNN卷積神經網絡	計算機視覺：醫學圖像分析、圖像識別、面部檢測、識別系統、全動態視頻分析，自動駕駛，衛星圖像藥物發現、推薦引擎、游戲
RNN遞歸神經網絡變體：LSTM、GRU、NTM、雙向RNN	自然語言處理(NLP)：機器翻譯、情感處理，語言生成，文本分類和句子完成：時間序列預測：股票預測、金融工程，應用物理、醫學醫藥順序圖像處理:圖像分類、圖像字幕分割的手寫識別、語音識別問題解答系統，機器人控制，
DBN深度信念網絡	圖像識別、信息檢索、自然語言理解、故障預測
DSN深度堆棧網絡	信息檢索、連續語音識別
GAN生成對抗網絡	圖像樣式轉換，高分辨率圖像合成，文本到圖像合成，圖像超分辨率[例如小劑量PET重建，異常檢測，3D對象生成[例如牙齒修復]，音樂生成，科學模擬加速度（例如天體物理學或高能物理
Autoencoder自動編碼器	推薦系統，圖像重構、聚類、機器翻譯，異常值檢測、數據去噪(圖像、音頻)，圖像修復，信息檢索

（二）深度學習主流算法計算特點

2019年，Nvidia（英偉達）公司上市Turing架構的RTX系列的GPU卡，增加了Tensor張量計算單元，大幅提升了深度學習關鍵的矩陣乘法計算、卷積計算（借助張量Tensors）,GPU卡性能的關鍵指標：Tensor張量核數、顯存帶寬、FP16/FP32計算精度

目前可選GPU型號（2020年1季度）的主要技術參數

型號	CUDA核	張量核數	顯存¹	顯存帶寬²	張量計算³	FP16半精度計算⁴	FP32單精度計算⁵
Quadro GV100	5120	640	32	870	133	33.32	16.66
Quadro RTX8000	4608	576	48	672	130	32.62	16.31
Quadro RTX6000	4608	576	24	672	130	32.62	16.31
Titan RTX	4608	576	24	672	130	32.62	16.31
TITAN V	5120	640	12	651	119	29.80	14.90
TESLA V100	5120	640	16	897	113	28.26	14.13
RTX2080Ti	4352	544	11	616	108	26.90	13.45
Quadro RTX5000	3072	384	16	448	89	22.30	11.15
RTX2080S	3072	368	8	496	85	22.30	11.15
TESLA T4	2560	320	16	320	65	65.13	8.14
RTX2070S	2560	288	8	448	65	18.12	9.06
Quadro RTX4000	2304	288	8	416	57	14.24	7.12
RTX2060S	2176	272	6	336	57	14.36	7.18

標注1 顯存單位GB，標注2 顯存帶寬單位GB/s，標注3-5 單位Tflops（每秒萬億次）

應用1 CNN（卷積神經網絡）計算特點
這類應用主要是計算機視覺應用，計算機獲得對圖像的高級“理解”。為了評估模型是否真正“理解”了圖像，研究人員開發了不同的評估方法來衡量性能
主要算法：卷積神經網絡（CNN）

CNN主要模型：AlexNet，VGG，GoogleNet, ResNet, Inception 等
主流深度學習框架：Theano、Caffe、MXNet、TensorFlow、Torch/Pytorch
CNN多GPU并行計算特點：非常理想

利用GPU加速主要是在conv（卷積）過程上，conv過程可以像向量加法一樣通過CUDA實現并行化。具體的方法很多，最好的是用FFT（快速傅里葉變換）進行快速卷積，NVIDIA提供了cuFFT庫實現FFT，復數乘法則可以用cuBLAS庫里的對應的level3的cublasCgemm函數。

GPU加速的基本準則就是“人多力量大”。CNN說到底主要問題就是計算量大，但是卻可以比較有效的拆分成并行問題。隨便拿一個層的filter來舉例子，假設某一層有n個filter，每一個需要對上一層輸入過來的map進行卷積操作。那么，這個卷積操作并不需要按照線性的流程去做，每個濾波器互相之間并不影響，可以大家同時做，然后大家生成了n張新的譜之后再繼續接下來的操作。既然可以并行，那么同一時間處理單元越多，理論上速度優勢就會越大。所以，處理問題就變得很簡單粗暴，就像NV那樣，暴力增加顯卡單元數（當然，顯卡的架構、內部數據的傳輸速率、算法的優化等等也都很重要）。

GPU計算性能出眾的根本原因是處理矩陣算法能力的非常強大，CNN中涉及大量的卷積，也就是矩陣乘法等，所以在這方面具有優勢,GPU上的TFLOP是ResNet和其他卷積架構性能的最佳指標。Tensor Core可以顯著增加FLOP，使用卷積網絡，則應首先確定具有高GPU張量計算能力的優先級，然后分配高FLOPs的CUDA數量，然后分配高內存帶寬，然后分配具有FP16位精度數據

CNN硬件配置要點：Tensors> FLOP> 顯存> 半精度計算(FP16)

GPU可選型號：

No	型號	CUDAs	Tensors	顯存¹	顯存帶寬²	張量計算³	F16半精度⁴	F32單精度⁵
1	Quadro GV100	5120	640	32	870	133	33.32	16.66
	Quadro RTX8000	4608	576	48	672	130	32.62	16.31
	Quadro RTX6000	4608	576	24	672	130	32.62	16.31
	Titan RTX	4608	576	24	672	130	32.62	16.31
2	TITAN V	5120	640	12	651	119	29.80	14.90
	TESLA V100	5120	640	16	897	113	28.26	14.13
	RTX2080Ti	4352	544	11	616	108	26.90	13.45
3	Quadro RTX5000	3072	384	16	448	89	22.30	11.15
	RTX2080S	3072	368	8	496	85	22.30	11.15
4	TESLA T4	2560	320	16	320	65	65.13	8.14
	RTX2070S	2560	288	8	448	65	18.12	9.06
	Quadro RTX4000	2304	288	8	416	57	14.24	7.12
	RTX2060S	2176	272	6	336	57	14.36	7.18

標注1—單位GB，標注2—單位GB/s, 標注3~5 ---單位TFlops

說明：

	GPU卡型號	顯存	計算規模	說明
1	RTX2070s RTX2080s RTX2080ti	8GB 8GB 11GB	小型模型開發	較小的GPU內存占用空間，高吞吐量工作負載應用渦輪式散熱，單臺工作站中最多配置8個
2	Titan RTX	24GB	中等模型開發	大顯存支持使用更大的批處理需要訓練大型計算機視覺模型，TITAN RTX可以做到。最多4塊，不支持密集地裝進工作站
3	RTX6000	24GB	中大等規模開發	配備渦輪風扇，支持密集安裝支持單機最大9塊
4	RTX8000	48GB	超大規模	擁有所有NVIDIA GPU中最大的內存容量，配備渦輪風扇，支持密集安裝支持單機最大9塊

應用2 RNN（循環神經網絡）計算特點
這類典型應用主要是自然語言處理（NLP），包括語音識別，語言翻譯，語音轉文本和Q＆A系統。

主要算法：RNN（包括變體: LSTM、GRU、NTM、雙向RNN等）、Transformer
主流框架：CNTK、Torch/PyTorch、Keras
多GPU并行計算：不明確，跟程序設計、算法、框架、SDK以及具體應用都有很大關系，一些應用CPU多核并行反倒更快。

RNN和LSTM的訓練并行計算是困難的，因為它們需要存儲帶寬綁定計算，這是硬件設計者的噩夢，最終限制了神經網絡解決方案的適用性。簡而言之，LSTM需要每個單元4個線性層（MLP層）在每個序列時間步驟中運行。線性層需要大量的存儲帶寬來計算，事實上，它們不能使用許多計算單元，通常是因為系統沒有足夠的存儲帶寬來滿足計算單元。而且很容易添加更多的計算單元，但是很難增加更多的存儲帶寬（注意芯片上有足夠的線，從處理器到存儲的長電線等）

GPU內存非常重要，因為諸如XLNet和BERT之類的transformer網絡需要大量的內存才能達到最高的精度，考慮矩陣乘法A*B=C的一種簡單有效的方法是受內存(顯存)帶寬限制：將A，B的內存復制到芯片上比進行A * B的計算要昂貴。這意味著如果您要使用LSTM和其他執行大量小矩陣乘法的循環網絡，則內存(顯存)帶寬是GPU的最重要功能。矩陣乘法越小，內存(顯存)帶寬就越重要，介于卷積運算和小型矩陣乘法之間的transformer在整體求解過程環節中并行效率低，加快方式提升顯存帶寬和足夠的顯存容量

RNN硬件配置要點：顯存帶寬+顯存> 半精度計算(FP16) > Tensors> FLOP

GPU可選型號

No	型號	CUDAs	Tensors	顯存¹	顯存帶寬 ²	張量計算³	F16半精度⁴	FP32單精度⁵
1	TESLA V100	5120	640	16	897	113	28.26	14.13
	Quadro GV100	5120	640	32	870	133	33.32	16.66
2	Quadro RTX8000	4608	576	48	672	130	32.62	16.31
	Quadro RTX6000	4608	576	24	672	130	32.62	16.31
	Titan RTX	4608	576	24	672	130	32.62	16.31
	TITAN V	5120	640	12	651	119	29.80	14.90
	RTX2080Ti	4352	544	11	616	108	26.90	13.45
3	RTX2080S	3072	368	8	496	85	22.30	11.15
	Quadro RTX5000	3072	384	16	448	89	22.30	11.15
	RTX2070S	2560	288	8	448	65	18.12	9.06
	Quadro RTX4000	2304	288	8	416	57	14.24	7.12
4	RTX2060S	2176	272	6	336	57	14.36	7.18
	TESLA T4	2560	320	16	320	65	65.13	8.14

說明

	GPU卡型號	顯存	可選	說明
1	RTX5000	16GB	Good	擁有16GB顯存，
2	Titan RTX	24GB	Better	支持NVLink橋接，加速訓練更大的NLP網絡模型，
	RTX6000	24GB	Better	類似TITAN RTX性能指標，渦輪散熱設計允許密集配置，支持單機最大9塊卡擴展
3	Quadro GV100	32GB	Best	擁有最高的顯存帶寬870GB/s和最高的張量算力
3	RTX8000	48GB	Best	擁有最大48GB顯存，是NLP的最佳GPU 渦輪散熱設計允許密集配置，支持單機最大9塊卡擴展

（四）深度學習計算系統平臺配備

4.1深度學習框架對比

框架	重點應用	編程語言	多GPU速度	深度學習主要算法
CNN	RNN /LTSM	GAN	RBM/ DBN
TensorFlow	自然語言處理，文本分類/摘要，語音/圖像/手寫識別，預測和標記	Python ， C++， R語言	++	+++	++		支持
Caffe	視覺識別	C,C++，Python，Matlab	+	++
CNTK	手寫和語音識別.處理圖像	C++，Python	++	+	+++	支持
PyTorch	處理圖像，手寫和語音識別	CUDA，C/C++	+++	+++	++	支持	支持
MXNet	圖像，手寫/語音識別，預測和NLP	Python,R,C++ Julia，CUDA	+++	+++	+	支持
Chainer	情感分析，機器翻譯，語音識別	CUDA		支持	支持
Keras	分類，文本生成和摘要，標記和翻譯，以及語音識別	Python		支持	支持
DL4J	圖像識別，欺詐檢測，文本挖掘，詞性標記和自然語言處理	Java		支持	支持		支持
Theano		Python	+	++	++

4.2 深度學習開發庫SDK
開發環境：CUDA Toolkit
訓練SDK：cuDNN （7.0版本支持Tensor Core）、NCCL、cuBLAS、cuSPARSE
推理SDK：TensorRT（版本3.0支持Tensor Core）、DALI

4.3 深度學習操作系統
操作系統：Windows 10 Pro 64位+ Ubuntu 18.04或RHEL 7.5
容器：Docker 18.06.1，NVIDIA Docker運行時v2.0.3
容器：RAPIDS容器

（五）深度學習計算硬件配置推薦

打造一個快速高效的深度學習計算平臺，涉及到多方面因素：
（1）超算硬件設備-—GPU、CPU、內存、硬盤io…
（2）深度學習算法---CNN、RNN…
（3）深度學習框架---Tensorflow、PyTorch…
（4）開發庫SDK---CUDA、cuDNN…
（5）程序設計算法優化—-張量單元、FP16精度數據計算、針對算法SDK優化、多卡并行優化算法…

5.1 深度學習工作站配置推薦（科研類）
機型：UltraLAB GX380i/GT410
支持2~4塊GPU卡
配備nvidia RTX---配置張量計算單元Tensor，支持inte X-512

No	產品型號	主要配置	FP16半精度性能	顯存帶寬	顯存	理想算法	價格
1.1	GX380i 14932-SA2X	intel第9代處理器(6核@4.9Ghz )/32GB DDR4 /*2RTX2070s**/960GB SSD /4TB SATA/微塔式(2000w)/23"圖顯	36Tops	448GB/s	16GB	CNN	￥29,990
1.2	GX380i 14964-SB2X	intel第9代處理器(6核@4.9Ghz)/64GB DDR4/ *2RTX2080Ti**/1.9TB SSD/4TB SATA/微塔式(1200w)/23"圖顯	54Tops	616GB/s	22GB	CNN	￥49,990
1.3	GX380i 14964-SB2D	intel第9代處理器(6核@4.9Ghz) /64GB DDR4 / *2RTX5000**/1.9TB SSD/6TB SATA/微塔式(2000w)/23"圖顯	45Tops	448GB/s	32GB	RNN	￥69,990
1.4	GX380i 14996-SB2T	intel第9代處理器(8核4.9Ghz) /96GB DDR4 / *2Titan RTX** /1.9TB SSD/6TB SATA/微塔式(2000w)/23"圖顯	65Tops	672GB/s	48GB	CNN+ RNN	￥97,500
1.5	GX380i 15096-SB2T	intel第9代處理器(8核5.0Ghz) /128GB DDR4 /*2Quadro GV100** /960TB SSD+2TB M2.SSD /6TB SATA/微塔式(2000w)/23"圖顯	67Tops	870GB/s	64GB	RNN	￥169,990
1.6	GT410i 14664-SB4X	intel第10代至尊處理器(10核4.6Ghz) /64GB DDR4 /*4RTX2080s** /1.92TB SSD/4TB SATA/微塔式(2000W)/23"圖顯	89Tops	496GB/s	32GB	CNN	￥69,990
1.7	GT410i 14596-SB4X	intel第10代至尊處理器(12核4.5Ghz ) /96GB DDR4 /*4RTX2080Ti** /1.92TB SSD /6TB SATA/微塔式(2000W)/23"圖顯	108Tops	616GB/s	44GB	CNN	￥89,990
1.8	GT410i 145192-SC4E	intel第10代至尊處理器(12核4.5Ghz ) /192GB DDR4 /*4RTX6000**/ 3.84TB SSD/10TB SATA/微塔式(2000W)/23"圖顯	131Tops	672GB/s	96GB	CNN+ RNN	￥210,000
1.9	GT410i 142256-SC4F	intel第10代至尊處理器(18核4.2Ghz ) /256GB DDR4 /*4RTX8000**/3.84TB SSD/10TB SATA/微塔式(2000W)/23"圖顯	131Tops	672GB/s	192GB	RNN	￥330,000
1.10	GT410i 142256-SC4G	intel第10代至尊處理器(18核4.2Ghz ) /256GB DDR4/*4Qudro GV100**/3.84TB SSD /10TB SATA/微塔式(2000W)/23"圖顯	133Tops	870GB/s	64GB	RNN	￥350,000

5.2 深度學習工作站配置推薦（高性能類）
機型：UltraLAB GT410P
支持支持5~7塊GPU

No	產品型號	主要配置	FP16半精度性能	顯存帶寬	顯存	理想算法	價格
2.1	GT410P 14696-SB5X	intel第10代至尊處理器 (10核4.6Ghz)、96GB DDR4 /*5RTX2080s**/1.92TB SSD+6TB SATA /雙塔式(雙2000w)/27"-4K圖顯	112Tops	496GB/s	40GB	CNN	￥97,000
2.2	GT410P 14596-SB6X	intel第10代至尊處理器 (12核4.5Ghz)、96GB DDR4 /*6RTX2080s**/1.9TB SSD+ 8TB SATA /雙塔式(雙2000w)/27"-4K圖顯	134Tops	496GB/s	48GB	CNN	￥108,000
2.3	GT410P 145128-SB7X	intel第10代至尊處理器 (12核4.5Ghz)、128GB DDR4 /*7RTX2080s/1.9TB SSD+ 10TB SATA**/ /雙塔式(雙2000w)/27"-4K圖顯	156Tops	496GB/s	56GB	CNN	￥118,000
2.4	GT410P 145192-SC7X	intel第10代至尊處理器 (12核4.5Ghz)、192GB DDR4 /*7RTX2080Ti 3.84TB SSD+ 8TB SATA**/ 雙塔式(雙2000w)/27"-4K圖顯	188Tops	616GB/s	77GB	CNN	￥148,000
2.5	GT410P 145192-SC5T	intel第10代至尊處理器 (12核4.5Ghz)、192GB DDR4 /*5Titan RTX/3.84TB SSD+ 10TB SATA/雙塔式(雙2000w)/**27"-4K圖顯	163Tops	672GB/s	120GB	CNN+ RNN	￥228,000
2.6	GT410P 142256-SC7E	intel第10代至尊處理器 (18核4.2Ghz)、256GB DDR4 /*7RTX6000/3.84TB SSD+ 14TB SATA/雙塔式(雙2000w)/**27"-4K圖顯	228Tops	672GB/s	168GB	CNN+ RNN	￥370,000
2.7	GT410P 142256-SC7F	intel第10代至尊處理器 (18核4.2Ghz)、256GB DDR4 /*7RTX8000/3.84TB SSD+ 14TB SATA/雙塔式(雙2000w)/**27"-4K圖顯	228Tops	672GB/s	240GB	RNN	￥535,000

5.3 深度學習工作站配置推薦（超級類）
機型：UltraLAB GX630M）
支持8~9塊GPU

No	產品型號	主要配置	FP16半精度性能	顯存帶寬	內存/顯存	理想算法	價格
3.1	GX630M 237192-MB9X	2Xeon金6234(16核3.7GHz)/ 睿頻4GHz* /192GB DDR4 /*9RTX2080s/960GB SSD+2TB M2.SSD**/28TB存儲/雙塔/27"-4K圖顯	201Tops	496GB/s	40GB	CNN	￥199,990
3.2	GX630M 243192-MB8X	2Xeon金6244(16核4.3GHz)/ 睿頻4.3GHz* /192GB DDR4 /*8RTX2080Ti/1.9TB SSD+2TB M2.SSD**/42TB存儲/雙塔/27"-4K圖顯	215Tops	616GB/s	88GB	CNN	￥245,000
3.3	GX630M 241384-60T7T	2Xeon金6246(24核4.1GHz)/ 睿頻4.2GHz* /384GB DDR4 /*7Titan RTX**/3.84TB SSD /60TB并行存儲/雙塔/27"-4K圖顯	228Tops-	672GB/s	168GB	CNN+ RNN	￥399,990
3.4	GX630M 241384-42T8E	2Xeon金6246(24核4.1GHz)/ 睿頻4.2GHz* /384GB DDR4 /*8RTX6000**/1.92TB SSD+2TB M2.SSD/42TB并行存儲/雙塔/32"-4K圖顯	261Tops	672GB/s	192GB	CNN+ RNN	￥499,990
3.5	GX630M 239768-150T8F	2Xeon金6254(36核3.9GHz)/ 睿頻4.0GHz* /768GB DDR4 /*8RTX8000**/3.84TB SSD+3.2TB P-SSD/150TB并行存儲/雙塔/32"-4K圖顯	261Tops	672GB/s	384GB	CNN+ RNN+ 推理	￥750,000
3.6	GX630M 235768-210T8G	2Xeon白金8268(48核3.5GHz)/睿頻3.9GHz* /768GB DDR4 /*8QGV100 /3.84TB SSD /6.4TB P-SSD**/210TB并行存儲/雙塔/32"-4K圖顯	266Tops	870GB/s	256GB	CNN+ RNN+ 推理	￥850,000
3.7	GX630M 2331T-266T9F	2Xeon白金8280(56核3.3GHz/ 睿頻4.0GHz* /1TB DDR4 /*9RTX8000/3.84TB SSD系統盤/6.4TB P-SSD/266TB**并行存儲/雙塔/32"-4K圖顯	293Tops-地球最強	672GBs	432GB	CNN+ RNN+ 推理	￥999,990