人工智能時代,人們對數據的重視程度越來越高,數據的價值已經被普遍認可。但是依然存在數據孤島、沒有被廣泛挖掘和重視的情況。
隨著云計算以及人工智能的發展,生物信息數據已被視為重要的生產要素和戰略資產。但生物信息行業仍面臨挖掘數據價值的痛點。如何打破數據孤島,實現價值共享,是當下整個行業亟待解決的難題。
因隱私數據嚴苛保護導致無法使用,成生物信息領域痛點
數字經濟時代,數據就是最關鍵、最重要的生產要素。各行各業都應做到數據要素化,數據要流通、挖掘更深層次的價值。
2020年4月,國家《關于構建更加完善的要素市場化配置體制機制的意見》首次將數據與土地、勞動力、資本、技術等傳統要素并列為生產要素之一,數據已成為了數字化時代的“新能源”。
目前,人們對數據的重視程度越來越高,數據的價值已經被普遍認可。但是依然存在數據孤島、沒有被廣泛挖掘和重視的情況。美國市場研究機構force research的調查就顯示,目前有60%~73%的數據沒有被充分利用。
然而,隱私數據泄露、數據濫用、數據市場粗放式管理卻與數據要素地位的日益提升難以匹配。數據安全問題已成為完善數據要素市場首先要解決的問題。
具體到生物信息領域,也存在同樣的問題。
表面上看人工智能已經在醫療、保險等很多場景得到應用,但實際上數據的價值并沒有得到充分的挖掘。由于生物信息領域專業性高、門檻高,對使用的人來說數據導入導出不方便,隱私安全保護也不能得到確認。而醫療平臺的數據核心一旦沒有私密性,造成的會是無法彌補的多方損害,甚至涉及國家安全。
如何保證數據隱私,讓數據可用不可見?如何打破數據孤島,激活數據共享價值?這些都是生物信息領域當下的痛點。
總體而言,一方面是大量數據隱私泄露的泛濫成災,一方面是相關醫療平臺難以獲得有效合規的數字資源。在此矛盾之下,當下最優的解決辦法是通過技術解決,這種技術就是隱私計算。
利用隱私安全計算打破數據孤島 實現價值共享
根據國際調研機構Gartner最新的一份戰略科技趨勢預測,隱私計算成為2021年重點深挖的9項技術之一。Gartner還預測,到2025年,將有一半的大型企業機構使用隱私計算在不受信任的環境和多方數據分析用例中處理數據。
隱私計算,根據中國信息通信研究院的定義,是指在保證數據提供方不泄露敏感數據的前提下,對數據進行分析計算并能驗證計算結果的信息技術。
因其在不對外泄漏數據本身的前提下,實現規范化數據的獲取、分析、計算,原始數據不離開數據平臺,只輸出數據價值,它的最大特點是可以實現數據流通的“可用不可見、可控可計量”,實現了風險的可控。
說得更通俗一些,就是在保證數據安全的前提下,真正做到“數據可用不可見”,讓數據可以自由流通或共享,消除數據孤島問題,從而釋放數據更大的價值,提升生產效率,進而推進產業創新。
由此可見,隱私計算是目前已知的最合適的技術思路。
隱私計算是什么?隱私計算并不是一個單一技術,而是基于不同的信任假設和應用場景可以選擇出適配相應條件的技術,括如基于硬件的TEE、基于密碼學的安全多方計算(MPC)和全同態加密(FHE)、源自人工智能的聯邦學習等,目標在于實現“數據價值”的共享。
目前業界的普遍共識是,要實現數據“可用不可見”,單一技術難以獨挑大梁,不同技術路徑(密碼學、人工智能、區塊鏈等)的互補融合才是發展趨勢。
翼方健數提出以隱私安全計算為基石,通過多方安全計算MPC/同態加密、聯邦學習、安全沙箱計算/TEE等前沿技術,實現數據“可用而不可見”,并在業內提出“數據和計算互聯網”(IoDC)的概念并付諸實踐。
破解生物信息領域矛與盾 翼方健數為醫療健康的數字產業賦能
3月,翼方健數聯合測序中國、南京江北新區生物醫藥公共服務平臺舉辦的“融合•創新—基因大數據驅動下的產學研交叉融合與協同創新”論壇上,翼方健數生信總監陳盛培在分享中強調,對于數據管理不再只是原始數據的管理,而是包含了數據演化過程的全生命周期管理,其中就包括了數據使用過程中如何通過平臺實現高效流通。因此,不同于生物信息領域其他產品服務,在平臺搭建上,翼方健數做了全數據流支持的AI驅動的科研數字平臺——BBT-BIP 生物信息分析平臺,從數據獲取、數據清洗到數據提煉、深入挖掘,最后授權共享,打通全鏈路。
通過XDP翼數坊數據應用開放平臺對接多來源的真實世界數據,如院內診療數據、生信檢測數據、醫保數據、公衛/疾控數據、公安/民政等政務數據。通過隱私安全計算的方式,在數據隱私保護和數據安全的前提下,用多源異構的數據,發掘數據的價值——高質量的真實世界證據。
在技術運用層面,翼方健數自主研發的DaaS服務,可以對多組學數據、表型數據、臨床數據進行數據治理和清洗,達到數據可用的狀態。同時,翼方健數還自研了腫瘤多組學分析工具供平臺用戶自主使用。
此外,生物信息的使用需要進行相關處理和提煉,所以在翼方健數BBT-BIP生物信息分析平臺中可接入豐富的第三方應用,如Sentieon, RNA-Seq, GATK, Bismark等,也具備DAG Editor 流程編輯器。能夠非常便捷地使用到工業級應用,且無需單獨開賬號走繁瑣的流程,在平臺內使用數據,基于沙箱計算等技術也確保了數據的隱私安全。
從而實現不分享原始數據,數據在平臺內授權使用,通過計算來分享數據的價值這一目的。
在醫療領域,翼方健數基于翼數坊的基礎上,還開發了配合醫療行業中各環節的前端應用,實現端到端打通,如:以電子病歷應用場景為核心的產品系列“探路者(PathFinder)”、人工智能圖像分析和自動建模系統“洞察者(Perceptor)”、智能風控服務“守護者(STPA)”、多模態生物科研一體化平臺“先行者(Pioneer)”。
在通過隱私安全計算促進醫療數據價值流通方面,翼方健數已有多個實際落地案例。
其中,在國家首批醫療健康大數據試點城市廈門市,翼方健數基于隱私安全計算搭建了廈門健康醫療大數據應用開放平臺,構建了醫療數據應用開放的數據生態。可實現數據處理、數據存儲、數據計算一體化,構建算法和數據的互聯網,讓醫療數據在封閉環境內同樣也能實現應用輸出和價值輸出。
在醫療醫藥及生物信息領域,臨床科研轉化和藥物研發工作往往需要多學科專家參與,多部門跨地域科研協作成為常態,因此數據安全、倫理、隱私以及科研成果保護也決定著科研成敗的關鍵。
今年初,南京江北新區生物醫藥公共服務平臺與翼方健數達成戰略合作,聯合打造多模態多組學數據的一站式分析協作平臺,通過豐富的功能和優良的生態設計,將大大地提高了科研和臨床轉化的效率。
作為國內深耕醫療健康大數據的隱私安全計算公司,翼方健數還將著重拓展市場業務和持續擴充研發隊伍,進而拓展到醫療和生物信息之外的行業。通過構造全鏈條服務體系,為企業機構的數據合作和聯合分析保駕護航。