2020年10月27日,國家基因庫生命大數據平臺(CNGBdb)在第十五屆國際基因組學大會(ICG-15)上重磅發布一項全新功能——生命大數據可信計算平臺CODEPLOT。
CODEPLOT是一個集可信計算環境和多元化在線分析工具于一體的生命大數據分析平臺,是國內首個將數據加密、區塊鏈、安全多方計算、基因安全容器虛擬化等最新安全策略應用于生命大數據分析利用和合作共享的平臺。其正式發布將生命大數據的安全共享和利用轉化帶上了一個新臺階。
上圖:國家基因庫副研究員丁遠彤博士現場介紹CODEPLOT
CODEPLOT是一個靈活、可信的計算平臺,用戶無需任何編程背景,也可使用該平臺的計算工具進行自動化的生物信息學分析。同時,它采用區塊鏈和多方安全計算等前沿技術,確保用戶的數據安全。
數據孤島、數據安全、數據分析門檻……
生命大數據研究面臨新挑戰
大數據時代下,生命科學的研究模式已經轉化為數據驅動的科學發現模式,高效利用多組學、多層次的大數據可有效促進各領域的基礎研究及科研成果轉化。然而,以下痛點仍然有待解決:
當前,生命大數據多分散在科研工作者手中或研究單位內部,數據孤島化問題嚴重,如何打破這一局面?
數據共享有助科學發展,可是信息安全問題日益突出,如何在保障數據安全的情況下進行數據共享?
在數據驅動的科學發現模式中,數據分析必不可少,但需要交叉學科背景,非專業人員如何突破高門檻?
……
為了解決生命大數據研究中的上述新挑戰,CNGBdb打造了集可信計算環境和多元化在線分析工具于一體的生命大數據分析平臺CODEPLOT。
打破孤島/門檻的數據安全共享新模式
可信計算平臺CODEPLOT
CNGBdb可信計算平臺CODEPLOT基于區塊鏈和安全多方計算等技術,以數據匯交模塊存儲的海量數據為支撐,以靈活工作空間管理模式為核心,同時提供多元化分析工具,全面打通各科研機構之間的數據孤島,突破數據分析門檻,提升數據利用率,促進重大科研項目合作共享及成果轉化。
CODEPLOT為用戶提供:
一、可信計算環境
基于多級權限控制,利用數據存儲加密、傳輸加密和安全多方計算等技術,使得用戶能夠在不公布己方數據的前提下,完成自有數據分析;以“雖彼此不可見,但可共享使用”(即“可用不可見”)的方式,完成協同分析。同時結合區塊鏈技術,保證所有數據和計算過程均可回溯且不可篡改,為平臺用戶提供可信的計算環境。
二、多元化工具集
提供常用的生物信息分析流程,包括單細胞聚類scanpy分析、轉錄組差異分析edgeR分析、HMMER基因家族分析、新冠病毒數據BLAST檢索等16種分析流程。同時,支持用戶使用流程管理工具WDL搭建自定義的分析流程。
三、個性化工作空間
采用工作空間構建計算沙箱,用戶可在自己的工作空間內選擇分析工具、數據集和計算模式。采用單方計算模式時,用戶可單獨針對自有數據進行分析,或者與平臺現有的公開數據合并分析;采用多方計算模式時,用戶通過共享空間方式與不同地域研究者/研究團隊進行協作分析。
四、開放式數據資源
用戶可以利用三種不同的數據集進行分析:1.公開數據集,即平臺基于CNGBdb及其他公共數據庫(如NCBI、Pfam等)的數據資源建成的公共數據集,涵蓋植物、動物、微生物、疾病等多個研究領域。2.私有數據集,即用戶自行上傳的自有數據集。3.授權數據集。合作伙伴可以授權對方使用自己的私有數據集,以進行聯合分析。