基因測序、生物信息分析平臺工作站硬件配置探討(2020)

(一)了解生物信息學
 
基因測序、生物信息分析平臺工作站硬件配置探討(2020)的圖1

生物信息學(Bioinformatics)利用應用數學、信息學、統計學和計算機科學的方法研究生物學的問題。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。

生物信息學典型工作流程

基因測序、生物信息分析平臺工作站硬件配置探討(2020)的圖2
 
這個過程是由一系列鏈接的步驟組成,這些步驟將原始輸入(測序原始數據RAW)轉換為有意義或可解釋的輸出,例如,高通量測序NGS數據而生成的fastq文件。然后用于基因組序列分析的特定功能方面的特定工具執行。根據執行的分析類型,工作流可以具有可變數量的步驟,因此可以是簡單的或復雜的。


生物信息學主要研究方向:DNA/RNA/蛋白質測序,序列比對,基因發現,基因組組裝,藥物設計,藥物發現,蛋白質結構比對和預測,通過使用計算密集型技術(用于模式識別,數據挖掘,機器學習算法和可視化)來加深對生物過程的理解。因此需要配備先進的計算設備和豐富專業的分析軟件

(二)生物信息學分析的計算特點

如何選購一個理想的圖形工作站硬件配置,可能很多人思考過:
什么是用于生物信息學和計算生物學研究的最佳PC/工作站?
用于生物信息學分析的服務器配置
全基因組序列分析實驗室的硬件配置
高通量序列分析服務器有什么要求
下一代測序數據分析硬件配置推薦
用于分析NGS宏基因組學數據的計算機配置?

2.1 生物信息分析的計算特點

生物信息數據分析涉及到基因組學、轉錄組學、蛋白質組學、宏基因組學、代謝物組學等,下圖是全基因組數據分析流程

基因測序、生物信息分析平臺工作站硬件配置探討(2020)的圖3

生物信息學數據分析所涉及的計算主要是De novo的序列組裝計算(Assembly)、重測序過程中的序列/映射比對計算(Mapping)

序列組裝計算分析:
如果要進行從頭組裝(例如Velvet),假設一個人的全基因組測序數據,采用二代測序的方法,人的基因組3G,10倍數據30G,那么這30G的堿基,在切成更小的kmer,假設數據增加到了100G,還不算存儲序列的一些其他信息,序列拼接的時候必須一次將所有數據同時存入內存,如果內存達不到100G,拼接根本無法完成。
因此,對于大型基因組裝而言,需要的硬件資源特別多,不緊cpu要有足夠的計算能力,內存在150G以上,但是如細菌基因組,數據集和基因組數據量不太大,內存128GB足夠了

序列比對計算分析:
對于使用BWA/Bowtie等程序進行映射讀取,對內存RAM要求不高(例如32GB即可),但CPU內核數量(及其頻率)將決定計算過程需要多長時間。如果要進行大量對齊和比對(例如使用BWA),那么擁有大量CPU核心比擁有大量內存更為重要。
當然配置規格取決于您的預算和計劃進行的分析類型。
RNASeq中計算量較大的就是比對步驟了,而比對往往只需要一次就可以! 一般32核CPU+64GB RAM硬件配置,可以滿足對基因組/轉錄組/虹基因組分析的標準映射(maping)以及下游分析。

為了使NGS(下一代測序)分析的工作負荷最大化,硬件配置三個關鍵瓶頸:可用的CPU核數、內存容量以及I/O帶寬

2.2 生信分析對硬件配置要求

如何處理454和Illumina數據? 全基因組裝配/組裝?序列拼接?映射讀取到參考基因組?
(1)需要多少存儲空間才能保持數據實時讀取(硬盤容量)?
開發下一代測序(高通量測序)的臨床應用的瓶頸是存儲和分析所生成的大量數據。應用程序多種多樣,但共同的主題在計算和分析上具有挑戰性。
(2)要分析的每個文件有多大(RAM容量,硬盤讀寫速度)?
(3)要使用的軟件準備好使用多處理器運行時間是否有要求(CPU核數)?

配置參考:
(1)基于基因組計劃的大小

NO

基因組計劃

配置參考

1

細菌(最高10MB)

32GB RAM,8個以上內核,10Gb磁盤空間

2

昆蟲(高達500MB)

128GB RAM,16個以上內核,1Tb磁盤空間

3

禽類/小型植物基因組(最大1GB)

256GB RAM,32個以上內核,1TB磁盤空間

4

哺乳動物基因組(最大3GB)

512GBBb RAM,32個以上內核,3TB磁盤空間

5

植物基因組(高達30GB)

1TB RAM,64 +核,10Tb磁盤空間

(2)基于課題組研究人員數量

NO

課題組

配置參考

1

單人

16核+64G~256GB+ 8TB硬盤

2

1到5人課題組

64核+512GB內存+64TB硬盤

3

5人以上的課題組

100核以上+1TB內存+海量并行存儲

 

(三)生物信息學分析的硬件配置推薦

NO

品牌與型號

配置規格

價格

備注

1

H380 150128-10TA

8核5.0GHz /128GB DDR4 /QuaroP620   /1.9TB SSD系統盤 +10TB   SATA企業級/塔式(750w)/23寸-高清圖顯

35000


2

AX400 142256-12TA

18核4.2GHz / 256GB DDR4 /QuaroP620   /1.9TB SSD系統盤 +12TB   SATA企業級/塔式(750w)/23寸-高清圖顯

58500


3

EX630i 226256-20TA

2顆Xeon 金5218R處理器(40核2.6GHz )/ 256GB DDR4 /QuaroP620   /1.9TB SSD系統盤+20TB SATA企業級/塔式(865w)/23寸-高清圖顯

69990


4

EX630i 228384-20TA

2顆Xeon 金6230R處理器(52核2.8GHz )/ 384GB DDR4 /QuaroP620   /3.84TB SSD系統盤+20TB SATA企業級/塔式(865w)/23寸-高清圖顯

98000


5

Alpha730i   427512-42TA

4顆Xeon 金5218處理器(72核2.7GHz )/ 512GB DDR4 /QuaroP1000   /3.84TB SSD系統盤 +42TB并行存儲/塔式(1400w冗余)/27"-4K圖顯

165000


6

Alpha730i   428512-70TA

4顆Xeon 金6230處理器(80核2.8GHz )/ 512GB DDR4 /QuaroP1000   /1.92TB SSD系統盤 +1TB高速緩存/70TB并行存儲/塔式(1400w冗余)/27"-4K圖顯

199990


7

Alpha730i   432768-84TB

4顆Xeon 金6248處理器(80核3.2GHz )/ 768GB DDR4 /QuaroP1000   /1.92TB SSD系統盤 +2TB高速緩存/84TB并行存儲/塔式(1400w冗余)/27"-4K圖顯

279000


8

Alpha730i   431768-84TB

4顆Xeon 白金8260處理器(96核3.1GHz )/ 768GB DDR4 /QuaroP2000   /3.84TB SSD系統盤 +2TB高速緩存/98TB并行存儲/塔式(1400w冗余)/27"-4K圖顯

330000


9

Alpha730i   4341T-112TB

4顆Xeon 白金8270處理器(104核3.4GHz )/ 1TB DDR4 /QuaroP2000   /3.84TB SSD系統盤 +4TB高速緩存/112TB并行存儲/塔式(1400w冗余)/27"-4K圖顯

428000


10

Alpha730i   4332T-112TB

4顆Xeon 白金8280處理器(112核3.3GHz )/ 1.5TB DDR4 /QuaroP2000   /3.84TB SSD系統盤 +4TB高速緩存/112TB并行存儲/塔式(1400w冗余)/27"-4K圖顯

585000


 

上述所有配置,代表最新硬件架構,可提供測試,歡迎交流。

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP

3