物理學(xué)家倫琴發(fā)現(xiàn) X 射線,為沃森和克里克提出 DNA 雙螺旋結(jié)構(gòu)提供了重要的技術(shù)基礎(chǔ)。
DNA 雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)標(biāo)志著人類對生命科學(xué)的研究進(jìn)入了分子水平,預(yù)示著人們即將揭開生命遺傳的神秘面紗,對于更為深入地認(rèn)知生命過程,進(jìn)行疾病控制和品種改良等具有劃時(shí)代的意義。
“高冷”的超級計(jì)算與“神秘”的生命科學(xué)
生命科學(xué)作為 21 世紀(jì)最重要的科學(xué)分支之一,離不開信息技術(shù)的突破與發(fā)展;高性能計(jì)算作為人工智能模型建立的基礎(chǔ),對生命科學(xué)的研究起到非常重要的推動作用。
隨著基因測序技術(shù)的飛速發(fā)展,基因組序列的海量數(shù)據(jù)不斷涌現(xiàn),數(shù)據(jù)正以指數(shù)級增長,對于如此龐大的基因進(jìn)行同源性搜尋、比對、分析和遺傳發(fā)育分析等等,往往伴隨著巨大的數(shù)據(jù)處理量和并行計(jì)算量。
同時(shí),由于生命科學(xué)的研究對象往往是蛋白質(zhì)和 DNA 的大分子,對這些分子的三維結(jié)構(gòu)的預(yù)測,動力學(xué)特性、熱力學(xué)特性、在生命過程中如何發(fā)生作用,進(jìn)行分子動力學(xué)模擬以及利用計(jì)算機(jī)輔助藥物設(shè)計(jì)等等科學(xué)問題,都需要借助計(jì)算機(jī)來處理。
高性能計(jì)算作為一種用于解決計(jì)算密集型、海量數(shù)據(jù)處理等計(jì)算需求的計(jì)算科學(xué)形式,正是生命科學(xué)所需要的,可以通過計(jì)算分析、模擬試驗(yàn),來驗(yàn)證理論的正確性。
高性能計(jì)算(High Performance Computing,縮寫 HPC)可以理解為使用很多處理器或者是某一集群中的幾臺計(jì)算機(jī)的硬件資源、計(jì)算系統(tǒng)和環(huán)境,將大規(guī)模的運(yùn)算任務(wù)拆分成很多小任務(wù),分發(fā)到各個(gè)服務(wù)器上并行計(jì)算,再將計(jì)算結(jié)果匯總成最終的結(jié)果。
前文提到基因組數(shù)據(jù)是非常龐大的,這個(gè)“龐大”是什么概念呢?
舉個(gè)例子,人類的基因組大約包括 30 億堿基對,相當(dāng)于 3GB 的數(shù)據(jù),而如果考慮到準(zhǔn)確測序所需的深度或覆蓋倍數(shù),比如 30 倍就能取得相當(dāng)準(zhǔn)確的測序數(shù)據(jù),那么一個(gè)人的基因組數(shù)據(jù)量將達(dá)到 100GB 左右。
有一種植物叫重樓,是一種很有名的中草藥,能清熱解毒、消腫止痛。在重樓中有一個(gè)種類叫做重樓百合,重樓百合有著世界上最龐大的基因組,基因組中擁有大約 1500 億個(gè)堿基對,差不多是人類基因組數(shù)據(jù)量的 50 倍。考慮準(zhǔn)確測序,重樓百合的基因組數(shù)據(jù)量至少有 4TB。
據(jù)專業(yè)人士預(yù)測,基因研究工程需要的計(jì)算資源(包括計(jì)算速度、內(nèi)存和磁盤存容量以及網(wǎng)絡(luò)通信能力)將超過人類登月工程的上百萬倍。
著名的“人類基因組計(jì)劃”于 1990 年啟動,耗時(shí) 13 年、花費(fèi) 30 億美元初步完成人類全基因組測序,當(dāng)時(shí)測一個(gè)基因組需要花費(fèi) 1 億美元;而現(xiàn)在,一個(gè)基因組測序費(fèi)用降到了 1000 美元以下,測序時(shí)長縮短到了 1-10 天。
測序的成本和時(shí)長均呈現(xiàn)超摩爾定律下降,基因測序逐漸走入尋常百姓家,而讓基因測序變得可用、實(shí)用的關(guān)鍵因素之一就是 HPC 技術(shù)的應(yīng)用。
我國一直積極發(fā)展高性能計(jì)算技術(shù),相繼出臺“863”、“新基建”、“十四五”和“東數(shù)西算”等政策方針指導(dǎo),數(shù)據(jù)中心市場不斷擴(kuò)大,國家和企業(yè)自建的數(shù)據(jù)中心規(guī)模穩(wěn)步快速增長。
彈性高性能計(jì)算助力破解生命密碼
科學(xué)技術(shù)的發(fā)展與應(yīng)用相輔相成。隨著生物學(xué)數(shù)據(jù)不斷增長和生命科學(xué)研究的不斷深入,傳統(tǒng) HPC 逐漸顯現(xiàn)弊端:過于依賴人工運(yùn)維與管理,排期和等待時(shí)間長;租戶共用超算網(wǎng)絡(luò),面對各種新型網(wǎng)絡(luò)攻擊方式,網(wǎng)絡(luò)安全問題重重;購買硬件設(shè)備自建投入大,周期長,作業(yè)高峰期資源不足,作業(yè)低谷期資源浪費(fèi)嚴(yán)重,等等。
為了更好地適應(yīng)新的計(jì)算需求,生物學(xué)家們開始使用一種新的計(jì)算方式,也就是彈性高性能計(jì)算。
彈性高性能計(jì)算(Elastic High Performance Computing,縮寫EHPC)提供彈性和可擴(kuò)展的 HPC 計(jì)算資源,是傳統(tǒng) HPC 技術(shù)與云計(jì)算技術(shù)的融合升級。
用戶可以同時(shí)享有 HPC 計(jì)算的超高性能和云計(jì)算的彈性與可擴(kuò)展性,通過快捷、彈性、安全以及互通的公有云高性能計(jì)算服務(wù),實(shí)現(xiàn)計(jì)算資源的彈性定制,大大降低了作業(yè)費(fèi)用,提高了資源利用率,具有極大的靈活性。
據(jù)報(bào)道,近日斯坦福大學(xué)研究團(tuán)隊(duì)將人類 DNA 測序的時(shí)間縮短至 5 小時(shí) 2 分鐘,重新定義了人類基因組測序速度,該研究團(tuán)隊(duì)就是利用了 EHPC,將病例樣本原始信號數(shù)據(jù)實(shí)時(shí)傳輸?shù)皆拼鎯Γㄟ^云計(jì)算系統(tǒng)對算力進(jìn)行彈性擴(kuò)容,將數(shù)據(jù)分布到多臺云計(jì)算機(jī)上實(shí)時(shí)篩選,使測序后運(yùn)行時(shí)間減少了 93%。
生命科學(xué)領(lǐng)域不乏優(yōu)秀的 EHPC 解決方案,以青云 QingCloud(qingcloud.com,股票代碼:688316) EHPC 生命科學(xué)云解決方案為例,其基于青云QingCloud 云基礎(chǔ)設(shè)施,面向基因測序分析、藥物虛擬篩選、蛋白質(zhì)結(jié)構(gòu)預(yù)測、分子動力學(xué)模擬等應(yīng)用場景,為生命科學(xué)行業(yè)用戶提供一站式高性價(jià)比解決方案。
計(jì)算資源上:Intel Xeon 6258R 型號 CPU,雙核,單顆處理器主頻 2.7GHz、28 核,單核心峰值 86.4 GFlops,GPU 計(jì)算采用 NVIDIA GPU A100 卡。
存儲資源上:采用分布式并行文件系統(tǒng) Lustre 商用版本,提供 GB 級吞吐,百萬級 IOPS。
網(wǎng)絡(luò)資源上:采用專用 IB 網(wǎng)絡(luò),計(jì)算節(jié)點(diǎn)之間,計(jì)算與存儲之間通信最高達(dá) 100GB/S。
軟件資源上:平臺預(yù)置 300+ 共享軟件倉庫,如,用于生物分子序列數(shù)據(jù)進(jìn)行同源及相似性分析的 BLAST、FASTA、HMMER、SHAPEIT,用于分子動力學(xué)模擬的 AMBER,用于計(jì)算機(jī)輔助藥物設(shè)計(jì)的 AutoDock 等應(yīng)用軟件,一鍵勾選即可快速開啟云上作業(yè)任務(wù),除平臺預(yù)置的軟件外,還支持用戶自研軟件及其他應(yīng)用軟件的安裝。
QingCloud EHPC 架構(gòu)圖
EHPC 在生命科學(xué)領(lǐng)域中的應(yīng)用
應(yīng)用場景 1:基因測序分析,解決海量基因測序數(shù)據(jù)對計(jì)算、存儲、資源彈性、應(yīng)用軟件、數(shù)據(jù)可視化的需求。
解決方案:提供豐富的算力資源支持、數(shù)據(jù)管理、軟件應(yīng)用的一站式服務(wù);計(jì)算和存儲資源按需擴(kuò)容,即開即用,無等待時(shí)耗;預(yù)置多款應(yīng)用軟件,并支持按需安裝及應(yīng)用,支持基因測序場景使用;樣本分析結(jié)果和變異檢測結(jié)果可以直接在線查看、預(yù)覽和下載,也可以直接共享給集群內(nèi)用戶。
QingCloud EHPC 基于基因測序分析的服務(wù)場景圖
應(yīng)用場景 2:蛋白質(zhì)結(jié)構(gòu)預(yù)測,解決蛋白質(zhì)結(jié)構(gòu)建模及預(yù)測對浮點(diǎn)計(jì)算能力、分子結(jié)構(gòu)解析精度的需求。
解決方案:提供高性能異構(gòu)資源,每個(gè)節(jié)點(diǎn)內(nèi)采用“CPU+GPU”異構(gòu)模式,每個(gè)節(jié)點(diǎn)可以配置多塊 GPU A100 卡;提供多種 GPU 實(shí)例規(guī)格,靈活滿足蛋白質(zhì)結(jié)構(gòu)模型訓(xùn)練和數(shù)據(jù)分析所需的算力資源;具備優(yōu)異的推理能力,GPU A100 通過全系列精度加速,提供領(lǐng)先的推理能力,實(shí)現(xiàn)強(qiáng)大的多元化用途;帶來巨大的存儲能力,分布式并行文件系統(tǒng) Lustre 商用版本,GB 級吞吐,百萬級 IOPS,有效支撐多軟件大內(nèi)存和 IO 需求。
QingCloud EHPC 基于蛋白質(zhì)結(jié)構(gòu)預(yù)測的服務(wù)場景圖
應(yīng)用場景 3:藥物研發(fā),解決靶標(biāo)分子合成及測試生物活性對算力、內(nèi)存、時(shí)效的需求。
解決方案:EHPC 集群基于 SLURM 等多種調(diào)度系統(tǒng),實(shí)現(xiàn)多任務(wù)并行計(jì)算,提高研發(fā)時(shí)效;提供 CPU 和 GPU 兩種計(jì)算資源,并提供不同實(shí)例規(guī)格,按需滿足藥物研發(fā)全流程計(jì)算需求;采用 Lustre 并行文件系統(tǒng)及 NAS 共享文件存儲,滿足分布式并行讀寫能力的同時(shí),支持多用戶共享數(shù)據(jù)資源及計(jì)算成果;實(shí)現(xiàn)多用戶協(xié)同作業(yè),適應(yīng)藥物研發(fā)多人多作業(yè)項(xiàng)目場景。
QingCloud EHPC 基于藥物研發(fā)的服務(wù)場景圖
應(yīng)用場景 4:分子動力學(xué)模擬,解決分子力場的計(jì)算量對大規(guī)模并行計(jì)算、應(yīng)用軟件、網(wǎng)絡(luò)低延時(shí)、經(jīng)濟(jì)性價(jià)比的需求。
解決方案:提供豐富的超算算力資源,滿足分子動力學(xué)場景下的生信計(jì)算對資源的需求;軟件中心預(yù)置 50+ 種分子動力學(xué)軟件,無需安裝,直接調(diào)用,簡單快捷享用一鍵式作業(yè)提交;所有設(shè)備支持 IB 網(wǎng)絡(luò),計(jì)算節(jié)點(diǎn)之間、計(jì)算與存儲之間通信最高達(dá) 100GB/S,包含 IB 交換機(jī)、IB 網(wǎng)卡(每個(gè)節(jié)點(diǎn)雙卡),最多不超過 2 層轉(zhuǎn)發(fā);按需購買隊(duì)列或集群,靈活計(jì)費(fèi),省時(shí)省錢,無額外費(fèi)用損耗。
QingCloud EHPC 基于分子動力學(xué)模擬的服務(wù)場景圖
應(yīng)用場景 5:生命科學(xué)行業(yè)對混合云架構(gòu)和數(shù)據(jù)安全性的通用需求。
解決方案:青云QingCloud 是一家國產(chǎn)自研的企業(yè)級云服務(wù)商與數(shù)字化解決方案提供商,無縫打通公有云和私有云,交付一致功能與體驗(yàn)的混合云。基于混合云框架和技術(shù)的 QingCloud EHPC 高性能計(jì)算平臺提供多租戶隔離機(jī)制,可大大提高數(shù)據(jù)安全性和高可用性。
平臺支持 Singularity 容器應(yīng)用,集群集成 Singularity 容器環(huán)境,用戶可以將容器應(yīng)用上傳后使用 EHPC 集群,有效解決應(yīng)用軟件與部署環(huán)境的適配問題,降低軟件部署的復(fù)雜度,提高軟件管理及運(yùn)維效率。
平臺提供符合網(wǎng)絡(luò)安全等級標(biāo)準(zhǔn)的防護(hù)措施和隱私計(jì)算,幫助生命科學(xué)領(lǐng)域的用戶打破數(shù)據(jù)孤島的同時(shí),有效消除安全隱患。
QingCloud EHPC 基于混合云的服務(wù)場景圖
給時(shí)光以生命
2001 年,人類基因組工作草圖的發(fā)布被認(rèn)為是人類基因組計(jì)劃成功的里程碑事件,距今已過去 20 余年。
今年 3 月,科學(xué)家首次公布了第一個(gè)完整的、無間隙的人類基因組序列,這是對標(biāo)準(zhǔn)人類參考基因組,即 2013 年發(fā)布的參考基因組序列(GRCh38)的“重大升級”。
《科學(xué)》雜志這樣總結(jié):最新的人類參考基因組代表著重要的一步,表明可以組裝代表所有人類的基因模型,這將更好地支持個(gè)體化醫(yī)療、人口基因組分析和基因組編輯。
這意味著圍繞基因組學(xué)進(jìn)行癌癥、精神疾病等各種疾病的個(gè)性化治療有望進(jìn)一步實(shí)現(xiàn)。不禁令人想象,假如穿越 1990 年,為人類基因組計(jì)劃插上 EHPC 的“翅膀”,現(xiàn)在的世界將會怎樣?
偉大的數(shù)學(xué)家、物理學(xué)家帕斯卡曾說過:給時(shí)光以生命,而不是給生命以時(shí)光。
在科學(xué)技術(shù)爆炸式發(fā)展的今天,越來越多的未解之謎將被科學(xué)解開,人類在有限的生命中探索著無限的價(jià)值,生命科學(xué)的發(fā)展注定在新一代科學(xué)技術(shù)的引領(lǐng)下更好地造福人類。