如果說 18、19 世紀是蒸汽機、電動機的時代,20 世紀是信息化的時代,那么 21 世紀可以說是生命科學、人工智能的時代。
物理學家倫琴發(fā)現(xiàn) X 射線,為沃森和克里克提出 DNA 雙螺旋結(jié)構(gòu)提供了重要的技術(shù)基礎(chǔ)。
DNA 雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)標志著人類對生命科學的研究進入了分子水平,預(yù)示著人們即將揭開生命遺傳的神秘面紗,對于更為深入地認知生命過程,進行疾病控制和品種改良等具有劃時代的意義。
“高冷”的超級計算與“神秘”的生命科學
生命科學作為 21 世紀最重要的科學分支之一,離不開信息技術(shù)的突破與發(fā)展;高性能計算作為人工智能模型建立的基礎(chǔ),對生命科學的研究起到非常重要的推動作用。
隨著基因測序技術(shù)的飛速發(fā)展,基因組序列的海量數(shù)據(jù)不斷涌現(xiàn),數(shù)據(jù)正以指數(shù)級增長,對于如此龐大的基因進行同源性搜尋、比對、分析和遺傳發(fā)育分析等等,往往伴隨著巨大的數(shù)據(jù)處理量和并行計算量。
同時,由于生命科學的研究對象往往是蛋白質(zhì)和 DNA 的大分子,對這些分子的三維結(jié)構(gòu)的預(yù)測,動力學特性、熱力學特性、在生命過程中如何發(fā)生作用,進行分子動力學模擬以及利用計算機輔助藥物設(shè)計等等科學問題,都需要借助計算機來處理。
高性能計算作為一種用于解決計算密集型、海量數(shù)據(jù)處理等計算需求的計算科學形式,正是生命科學所需要的,可以通過計算分析、模擬試驗,來驗證理論的正確性。
高性能計算(High Performance Computing,縮寫 HPC)可以理解為使用很多處理器或者是某一集群中的幾臺計算機的硬件資源、計算系統(tǒng)和環(huán)境,將大規(guī)模的運算任務(wù)拆分成很多小任務(wù),分發(fā)到各個服務(wù)器上并行計算,再將計算結(jié)果匯總成最終的結(jié)果。
前文提到基因組數(shù)據(jù)是非常龐大的,這個“龐大”是什么概念呢?
舉個例子,人類的基因組大約包括 30 億堿基對,相當于 3GB 的數(shù)據(jù),而如果考慮到準確測序所需的深度或覆蓋倍數(shù),比如 30 倍就能取得相當準確的測序數(shù)據(jù),那么一個人的基因組數(shù)據(jù)量將達到 100GB 左右。
有一種植物叫重樓,是一種很有名的中草藥,能清熱解毒、消腫止痛。在重樓中有一個種類叫做重樓百合,重樓百合有著世界上最龐大的基因組,基因組中擁有大約 1500 億個堿基對,差不多是人類基因組數(shù)據(jù)量的 50 倍。考慮準確測序,重樓百合的基因組數(shù)據(jù)量至少有 4TB。
據(jù)專業(yè)人士預(yù)測,基因研究工程需要的計算資源(包括計算速度、內(nèi)存和磁盤存容量以及網(wǎng)絡(luò)通信能力)將超過人類登月工程的上百萬倍。
著名的“人類基因組計劃”于 1990 年啟動,耗時 13 年、花費 30 億美元初步完成人類全基因組測序,當時測一個基因組需要花費 1 億美元;而現(xiàn)在,一個基因組測序費用降到了 1000 美元以下,測序時長縮短到了 1-10 天。
測序的成本和時長均呈現(xiàn)超摩爾定律下降,基因測序逐漸走入尋常百姓家,而讓基因測序變得可用、實用的關(guān)鍵因素之一就是 HPC 技術(shù)的應(yīng)用。
我國一直積極發(fā)展高性能計算技術(shù),相繼出臺“863”、“新基建”、“十四五”和“東數(shù)西算”等政策方針指導(dǎo),數(shù)據(jù)中心市場不斷擴大,國家和企業(yè)自建的數(shù)據(jù)中心規(guī)模穩(wěn)步快速增長。
彈性高性能計算助力破解生命密碼
科學技術(shù)的發(fā)展與應(yīng)用相輔相成。隨著生物學數(shù)據(jù)不斷增長和生命科學研究的不斷深入,傳統(tǒng) HPC 逐漸顯現(xiàn)弊端:過于依賴人工運維與管理,排期和等待時間長;租戶共用超算網(wǎng)絡(luò),面對各種新型網(wǎng)絡(luò)攻擊方式,網(wǎng)絡(luò)安全問題重重;購買硬件設(shè)備自建投入大,周期長,作業(yè)高峰期資源不足,作業(yè)低谷期資源浪費嚴重,等等。
為了更好地適應(yīng)新的計算需求,生物學家們開始使用一種新的計算方式,也就是彈性高性能計算。
彈性高性能計算(Elastic High Performance Computing,縮寫EHPC)提供彈性和可擴展的 HPC 計算資源,是傳統(tǒng) HPC 技術(shù)與云計算技術(shù)的融合升級。
用戶可以同時享有 HPC 計算的超高性能和云計算的彈性與可擴展性,通過快捷、彈性、安全以及互通的公有云高性能計算服務(wù),實現(xiàn)計算資源的彈性定制,大大降低了作業(yè)費用,提高了資源利用率,具有極大的靈活性。
據(jù)報道,近日斯坦福大學研究團隊將人類 DNA 測序的時間縮短至 5 小時 2 分鐘,重新定義了人類基因組測序速度,該研究團隊就是利用了 EHPC,將病例樣本原始信號數(shù)據(jù)實時傳輸?shù)皆拼鎯Γㄟ^云計算系統(tǒng)對算力進行彈性擴容,將數(shù)據(jù)分布到多臺云計算機上實時篩選,使測序后運行時間減少了 93%。
生命科學領(lǐng)域不乏優(yōu)秀的 EHPC 解決方案,以青云 QingCloud EHPC 生命科學云解決方案為例,其基于青云QingCloud 云基礎(chǔ)設(shè)施,面向基因測序分析、藥物虛擬篩選、蛋白質(zhì)結(jié)構(gòu)預(yù)測、分子動力學模擬等應(yīng)用場景,為生命科學行業(yè)用戶提供一站式高性價比解決方案。
計算資源
Intel Xeon 6258R 型號 CPU,雙核,單顆處理器主頻 2.7GHz、28 核,單核心峰值 86.4 GFlops,GPU 計算采用 NVIDIA GPU A100 卡;
存儲資源
采用分布式并行文件系統(tǒng) Lustre 商用版本,提供 GB 級吞吐,百萬級 IOPS;
網(wǎng)絡(luò)資源
采用專用 IB 網(wǎng)絡(luò),計算節(jié)點之間,計算與存儲之間通信最高達 100GB/S;
軟件資源
平臺預(yù)置 300+ 共享軟件倉庫,如,用于生物分子序列數(shù)據(jù)進行同源及相似性分析的 BLAST、FASTA、HMMER、SHAPEIT,用于分子動力學模擬的 AMBER,用于計算機輔助藥物設(shè)計的 AutoDock 等應(yīng)用軟件,一鍵勾選即可快速開啟云上作業(yè)任務(wù),除平臺預(yù)置的軟件外,還支持用戶自研軟件及其他應(yīng)用軟件的安裝。
QingCloud EHPC 架構(gòu)圖
EHPC 在生命科學領(lǐng)域中的應(yīng)用
應(yīng)用場景 1:基因測序分析,解決海量基因測序數(shù)據(jù)對計算、存儲、資源彈性、應(yīng)用軟件、數(shù)據(jù)可視化的需求。
解決方案:
資源豐富:提供豐富的算力資源支持、數(shù)據(jù)管理、軟件應(yīng)用的一站式服務(wù);
彈性伸縮:計算和存儲資源按需擴容,即開即用,無等待時耗;
應(yīng)用軟件:預(yù)置多款應(yīng)用軟件,并支持按需安裝及應(yīng)用,支持基因測序場景使用;
結(jié)果可視化:樣本分析結(jié)果和變異檢測結(jié)果可以直接在線查看、預(yù)覽和下載,也可以直接共享給集群內(nèi)用戶。
QingCloud EHPC 基于基因測序分析的服務(wù)場景圖
應(yīng)用場景 2:蛋白質(zhì)結(jié)構(gòu)預(yù)測,解決蛋白質(zhì)結(jié)構(gòu)建模及預(yù)測對浮點計算能力、分子結(jié)構(gòu)解析精度的需求。
解決方案:
高性能異構(gòu)資源:每個節(jié)點內(nèi)采用“CPU+GPU”異構(gòu)模式,每個節(jié)點可以配置多塊 GPU A100 卡;
強大的訓練能力:提供多種 GPU 實例規(guī)格,靈活滿足蛋白質(zhì)結(jié)構(gòu)模型訓練和數(shù)據(jù)分析所需的算力資源;
優(yōu)異的推理能力:GPU A100 通過全系列精度加速,提供領(lǐng)先的推理能力,實現(xiàn)強大的多元化用途;
巨大的存儲能力:分布式并行文件系統(tǒng) Lustre 商用版本,GB 級吞吐,百萬級 IOPS,有效支撐多軟件大內(nèi)存和 IO 需求。
QingCloud EHPC 基于蛋白質(zhì)結(jié)構(gòu)預(yù)測的服務(wù)場景圖
應(yīng)用場景 3:藥物研發(fā),解決靶標分子合成及測試生物活性對算力、內(nèi)存、時效的需求。
解決方案:
調(diào)度系統(tǒng):EHPC 集群基于 SLURM 等多種調(diào)度系統(tǒng),實現(xiàn)多任務(wù)并行計算,提高研發(fā)時效;
計算資源:提供 CPU 和 GPU 兩種計算資源,并提供不同實例規(guī)格,按需滿足藥物研發(fā)全流程計算需求;
并行文件系統(tǒng):采用 Lustre 并行文件系統(tǒng)及 NAS 共享文件存儲,滿足分布式并行讀寫能力的同時,支持多用戶共享數(shù)據(jù)資源及計算成果;
用戶權(quán)限管理:實現(xiàn)多用戶協(xié)同作業(yè),適應(yīng)藥物研發(fā)多人多作業(yè)項目場景。
QingCloud EHPC 基于藥物研發(fā)的服務(wù)場景圖
應(yīng)用場景 4:分子動力學模擬,解決分子力場的計算量對大規(guī)模并行計算、應(yīng)用軟件、網(wǎng)絡(luò)低延時、經(jīng)濟性價比的需求。
解決方案:
提供豐富的超算算力資源:滿足分子動力學場景下的生信計算對資源的需求;
應(yīng)用軟件:軟件中心預(yù)置 50+ 種分子動力學軟件,無需安裝,直接調(diào)用,簡單快捷享用一鍵式作業(yè)提交;
低延時高帶寬:所有設(shè)備支持 IB 網(wǎng)絡(luò),計算節(jié)點之間、計算與存儲之間通信最高達 100GB/S,包含 IB 交換機、IB 網(wǎng)卡(每個節(jié)點雙卡),最多不超過 2 層轉(zhuǎn)發(fā);
性價比高:按需購買隊列或集群,靈活計費,省時省錢,無額外費用損耗。
QingCloud EHPC 基于分子動力學模擬的服務(wù)場景圖
應(yīng)用場景 5:生命科學行業(yè)對混合云架構(gòu)和數(shù)據(jù)安全性的通用需求。
解決方案:
青云QingCloud 是一家國產(chǎn)自研的企業(yè)級云服務(wù)商與數(shù)字化解決方案提供商,無縫打通公有云和私有云,交付一致功能與體驗的混合云。基于混合云框架和技術(shù)的 QingCloud EHPC 高性能計算平臺提供多租戶隔離機制,可大大提高數(shù)據(jù)安全性和高可用性。
平臺支持 Singularity 容器應(yīng)用,集群集成 Singularity 容器環(huán)境,用戶可以將容器應(yīng)用上傳后使用 EHPC 集群,有效解決應(yīng)用軟件與部署環(huán)境的適配問題,降低軟件部署的復(fù)雜度,提高軟件管理及運維效率。
平臺提供符合網(wǎng)絡(luò)安全等級標準的防護措施和隱私計算,幫助生命科學領(lǐng)域的用戶打破數(shù)據(jù)孤島的同時,有效消除安全隱患。
QingCloud EHPC 基于混合云的服務(wù)場景圖
給時光以生命
2001 年,人類基因組工作草圖的發(fā)布被認為是人類基因組計劃成功的里程碑事件,距今已過去 20 余年。
今年 3 月,科學家首次公布了第一個完整的、無間隙的人類基因組序列,這是對標準人類參考基因組,即 2013 年發(fā)布的參考基因組序列(GRCh38)的“重大升級”。
《科學》雜志這樣總結(jié):最新的人類參考基因組代表著重要的一步,表明可以組裝代表所有人類的基因模型,這將更好地支持個體化醫(yī)療、人口基因組分析和基因組編輯。
這意味著圍繞基因組學進行癌癥、精神疾病等各種疾病的個性化治療有望進一步實現(xiàn)。不禁令人想象,假如穿越 1990 年,為人類基因組計劃插上 EHPC 的“翅膀”,現(xiàn)在的世界將會怎樣?
偉大的數(shù)學家、物理學家帕斯卡曾說過:給時光以生命,而不是給生命以時光。
在科學技術(shù)爆炸式發(fā)展的今天,越來越多的未解之謎將被科學解開,人類在有限的生命中探索著無限的價值,生命科學的發(fā)展注定在新一代科學技術(shù)的引領(lǐng)下更好地造福人類。