使用北鯤云在AWS上運(yùn)行基因分析HPC任務(wù)

背景

      近三十年來,生命科學(xué)與計(jì)算科學(xué)飛速發(fā)展。生物信息學(xué)是一門生命科學(xué)與計(jì)算科學(xué)的前沿交叉學(xué)科。生物信息學(xué)產(chǎn)生和迅猛發(fā)展的主要推動力來自于新一代測序等高通量技術(shù)在生命科學(xué)領(lǐng)域越來越廣泛的應(yīng)用。 基因組學(xué)是這一趨勢的一個(gè)主要例子,其中高通量下一代測序 (NGS) 設(shè)備被用于對 DNA、mRNA、調(diào)控區(qū)域、腸道微生物組等進(jìn)行測序。計(jì)算工作流程也在快速開發(fā)和標(biāo)準(zhǔn)化,并且支持動態(tài)進(jìn)行擴(kuò)展。隨著大量基因組數(shù)據(jù)的收集,處理時(shí)間通常在數(shù)十億核心小時(shí)的數(shù)量級,處理成本也相應(yīng)增加。因此,客戶正在尋找運(yùn)行時(shí)間最短、成本最低的優(yōu)化工具和系統(tǒng)。通常清況下有2種方式可供選擇。 第一種是建設(shè)本地計(jì)算集群。一方面建設(shè)本地大型計(jì)算集群成本昂貴,同時(shí)峰值負(fù)載的能力有限,項(xiàng)目的周期也相對較長,前期成本投入很大。第二種是構(gòu)筑云上的HPC平臺。利用云資源可以快速構(gòu)建云上HPC平臺,云上還提供了最新技術(shù)和資源的快速訪問,包括最新加速卡或減少計(jì)算所需時(shí)間的最新一代處理器。通過選擇合適的實(shí)例類型,可以縮短總體計(jì)算時(shí)間。

    在這篇博文中,我們將展示如何利用北鯤云HPC平臺在AWS運(yùn)行運(yùn)行基因分析HPC任務(wù)。


 

概述

    本指南將向您展示如何通過北鯤云控制臺啟動基于Amazon EC2構(gòu)建的slurm集群,該集群提供有一個(gè)登錄節(jié)點(diǎn),您可以在此節(jié)點(diǎn)上通過簡單配置結(jié)合AWS S3存儲快速投遞多個(gè)基因分析任務(wù)。


 

前置條件

在開始使用北鯤云平臺之前您需要做下面準(zhǔn)備:

1.擁有訪問指定S3 bucket權(quán)限的1對AWS AK/SK。

2.用于存放計(jì)算輸入文件的S3 bucket。

3.用于存放計(jì)算結(jié)果文件的S3 bucket,也可以使用輸入文件bucket的不同目錄作為區(qū)分。


 

您可以通過AWS S3控制臺來快速創(chuàng)建S3 bucket并上傳輸入文件,如果已有bucket可跳過此步驟。這是一個(gè)簡單的過程,僅涉及四個(gè)步驟:

1. 登錄AWS S3控制臺。

2. 創(chuàng)建s3 bucket。

3. 設(shè)置bucket權(quán)限,推薦私有讀寫或者使用S3 bucket ACL策略進(jìn)行更細(xì)粒度控制。

通過ACL限制只有指定的IAM角色ROLENAME可以訪問指定bucket下的資源(可選步驟):

參考示例:https://aws.amazon.com/cn/blogs/security/how-to-restrict-amazon-s3-bucket-access-to-a-specific-iam-role/

4. 上傳輸入文件。


 

任務(wù)整體流程

用戶只需要準(zhǔn)備好存放輸入和輸出文件的s3 bucket即可,無需關(guān)心集群內(nèi)部調(diào)度細(xì)節(jié),非常容易上手使用。


 

使用北鯤云在AWS上運(yùn)行基因分析HPC任務(wù)的圖1


 

注冊并登錄北鯤云控制臺

您可能需要先注冊北鯤云賬號,賬號注冊后聯(lián)系客服可以獲得200算力金。

 

使用北鯤云在AWS上運(yùn)行基因分析HPC任務(wù)的圖2


 


 

創(chuàng)建Workspace

Workspace是北鯤云為您在AWS上創(chuàng)建的一片虛擬空間,對應(yīng)了AWS的某個(gè)region,后續(xù)使用的AWS相關(guān)服務(wù)和資源都在這個(gè)region下進(jìn)行配置。

您需要先將賬號免費(fèi)升級到企業(yè)版才能使用此功能,請聯(lián)系我們!

您需要選擇數(shù)據(jù)存放相同的地域創(chuàng)建Workspace,選擇相同地域的好處是數(shù)據(jù)在AWS EC2上和S3之間上傳下載可以使用內(nèi)網(wǎng)進(jìn)行訪問,速度更快而且更加安全。

支持免費(fèi)創(chuàng)建多個(gè)Workspace以支持不同的研發(fā)團(tuán)隊(duì)使用就近的AWS資源。


 

創(chuàng)建并登錄集群登錄節(jié)點(diǎn)

登錄到北鯤云控制臺后,首先要選擇與您數(shù)據(jù)存放地域一致或相鄰的Workspace,  后續(xù)使用的EC2集群及其他資源都在此地域下進(jìn)行配置。

可通過webssh方式通過瀏覽器直接登錄,也可以通過xShell等其他連接工具連接到集群登錄節(jié)點(diǎn)內(nèi)部。

集群登錄節(jié)點(diǎn)內(nèi)部已內(nèi)置虛擬用戶,可用于提交基因分析任務(wù)。


 

使用北鯤云在AWS上運(yùn)行基因分析HPC任務(wù)的圖3


 

配置AWS AK/SK

AWS CLI 將使用 aws configure 指定的敏感憑證信息存儲在主目錄中名為 credentials 的文件夾中名為 .aws 的本地文件中。

在集群登錄節(jié)點(diǎn)內(nèi)根據(jù)提示輸入AK/SK進(jìn)行快速配置。

```

aws configure

```

特別申明:北鯤云不會在未經(jīng)用戶授權(quán)的情況下訪問用戶的EC2,也不會獲取用戶的數(shù)據(jù),用戶在使用平臺前需要簽署電子版法律協(xié)議。


 

準(zhǔn)備作業(yè)腳本

大部分計(jì)算所需要的軟件在平臺上已經(jīng)預(yù)裝好,IT人員不需要安裝和配置軟件運(yùn)行環(huán)境,缺少您想要的軟件請點(diǎn)擊這里。

以常用的序列對比軟件blast+為例:

使用vim編輯器編寫您的作業(yè)計(jì)算腳本

```

vim job.sbatch

#!/bin/bash

#SBATCH --job-name=example //作業(yè)名稱

#SBATCH --partition c-64-1  //硬件類型 64核64G

#SBATCH --ntasks=64 //任務(wù)數(shù)量


 

#從s3下載您的輸入文件

aws s3 cp --quiet s3://genomics-cloudam/input.tar.gz  /home/cloudam/

tar -zxvf input.tar.gz


 

#加載軟件blast+

module add BLAST+/2.2.31


 

#提交blast+計(jì)算任務(wù)  相關(guān)參數(shù)需要替換為實(shí)際參數(shù)值

blastx -i <input-file> -o <output-file> <other-options> -num_threads <num-threads>


 

#將結(jié)果文件打包上傳至s3

tar -zcvf result.tar.gz /home/cloudam/result

aws s3 cp --quiet /home/cloudam/result.tar.gz s3://genomics-cloudam/

```


 

提交作業(yè)

```

sbatch job.sbatch

```

作業(yè)結(jié)束后,將會進(jìn)行后置處理,結(jié)果將被寫入到s3 bucket內(nèi),閑置的EC2服務(wù)器將被銷毀并立即停止計(jì)費(fèi)。

恭喜!您已使用北鯤云HPC平臺在 AWS上成功運(yùn)行基因分析任務(wù)。還有更多的功能等待您來探索。


 

北鯤云平臺和AWS ParallelCluster的對比


 


AWS ParallelCluster

CLOUDAM  Platform

數(shù)據(jù)安全

數(shù)據(jù)在自己云賬號下

不保留用戶數(shù)據(jù),數(shù)據(jù)落地都在用戶自己云賬號下,無需擔(dān)心數(shù)據(jù)安全

成本

EC2,  網(wǎng)絡(luò),存儲都需要收費(fèi)

僅收取EC2按量使用費(fèi)用

功能

僅提供基礎(chǔ)計(jì)算能力,并且都是基于命令行操作

除了基礎(chǔ)計(jì)算能力還提供了一系列可視化功能例如文件傳輸,鏡像中心,數(shù)據(jù)集,團(tuán)隊(duì)協(xié)作,配額管理,操作審計(jì),賬單報(bào)表,安全管理,系統(tǒng)管理等功能,并提供完善的技術(shù)支持服務(wù)

易用性

IT人員需要手動配置和維護(hù)集群,需要單獨(dú)安裝軟件和配置使用環(huán)境,僅支持命令行操作

配置簡單,IT人員無需手動配置集群,無需安裝計(jì)算軟件,提供命令行提交,可視化作業(yè)提交和圖形界面提交等多種作業(yè)提交方式


 

結(jié)論

在這篇博文中,我們演示了如何使用北鯤云平臺在AWS來提交基因分析任務(wù)。快速訪問北鯤云用戶手冊并親自試用演示。有關(guān)北鯤云的更多信息,請查看主頁和文檔。

 

 

登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺客服

TOP