雷鋒網消息,近日,騰訊天衍實驗室聯合微眾銀行聯合研發了醫療聯邦學習框架,實現了在保護不同醫院數據隱私下的疾病預測模型,破解醫療行業數據安全與隱私保護難題。
作為醫療AI成長道路不可或缺的“糧食”,數據一直是醫療AI落地的“攔路虎”。我國醫療健康數據領域長期存在“信息孤島”問題,不同地區甚至不同醫院間的醫療數據沒有互聯,也沒有統一的標準。與此同時,數據安全問題也存在著巨大挑戰。
據雷鋒網了解,這是聯邦學習在醫療健康大數據領域應用的一個成功案例,為醫療大健康的各種潛在應用如分診診療、慢病防控、疾病早篩、醫保控費的落地等探索出了新的方向。
醫療聯邦學習——打破數據壁壘,保護數據隱私
在重大疾病早期篩查和預測領域,如果要成功能建立大數據疾病預測模型,就需要將居民在不同醫院的醫療信息與健康檔案進行整合與建模。
但由于信息系統不統一,醫院管理機構對于數據隱私泄露的擔憂,和相關數據保護法規的限制,相關機構之間形成了數據壁壘,很少有醫院愿意進行數據的共享,這就導致了AI難以在疾病預測領域“施展拳腳”。
這也是近年來聯邦學習方法日益受到關注的重要原因。
2016年,谷歌率先提出該技術,而后微眾銀行則在首席人工智能官楊強教授的帶領下首次提出了“聯邦遷移學習”,并開源自研聯邦學習框架Federated AI Technology Enabler(簡稱FATE),推動聯邦學習技術在行業中的落地。
目前,聯邦學習在金融、互聯網、智慧零智等領域已經有多個成功應用案例,但在醫療領域,由于醫療知識的專業性,電子病歷的復雜性對聯邦學習的構建帶來了種種困難。
結合自身醫療機器學習與自然語言處理的先天優勢,騰訊天衍實驗室與微眾銀行共同將聯邦學習與醫療深度融合,通過搭建基于聯邦學習技術的大數據集中與挖掘平臺,開發醫療聯邦學習(Medical Federated Learning)技術。

圖片來源:天衍-微眾投稿給人工智能頂級會議IJCAI 2020的論文
聯邦學習可以繞過醫療機構之間的信息壁壘,不考慮將各自數據做合并,而是通過協議在其間傳遞加密之后的信息,該加密過程具有一定的隱私保護機制,保證加密后的信息不會產生數據泄露。各個醫療機構通過使用這些加密的信息更新模型參數,從而實現在不暴露原始數據的條件下使用全部患者數據的訓練過程。
舉例來說,假設醫院 A 和 B 想聯合訓練一個腦卒中疾病預測模型,兩個醫院各自掌握科研病例數據,此外,醫院 B 還擁有模型需要預測的標簽數據如腦卒中發病標簽。出于數據隱私保護和安全考慮,醫院A和 B無法直接進行數據交換。聯邦學習系統則可以利用基于加密的患者樣本對齊技術,在醫院 A 和 B 不公開各自數據的前提下確認雙方的共有患者,并且不暴露不互相重疊的患者,以便聯合這些用戶的特征進行建模,在確定共有用戶群體后,就可以利用這些數據訓練疾病預測模型。

在這樣的一種方式下,聯邦學習技術就實現了保護不同醫院數據隱私的疾病預測模型,而這項技術也在疾病預測領域落地,天衍實驗室和微眾銀行成功構建了一個“腦卒中發病風險預測模型”。
腦卒中預測準確率達80%
在構建疾病預測模型過程中,不同醫院數據缺乏標準化是關鍵性難題。
首先,雙方通過搭建的大數據集中與挖掘平臺,構建醫療健康領域機器學習、深度學習、自然語言理解、文本特征抽取、多種關系網絡等多種大數據模型,對地區居民連續電子病歷和其它數據進行多重關聯和信息抽取。構建帶有時間標志的重大慢病標簽(腦卒中、冠心病、腫瘤、慢阻肺等)與大健康醫療特征(疾病、用藥、檢查、癥狀、手術、費用、家庭關系、行為、生活、環境),并對不同醫院構建統一的數據標準形成疾病標簽集與特征集。
對疾病預測模型所需特征進行標準與歸一化后,再將標準化模型部署到不同醫院,各醫院按照該標準對自有的疾病、用藥、檢驗檢查、癥狀、手術等方面的數據進行清洗,形成各自的標準化的疾病標簽集與醫療特征集,再以此建立巢式病例對照研究隊列,基于聯邦學習算法協議,有效訓練機器學習模型。
通過使用來自就診記錄數量TOP5的醫院真實就診數據驗證,聯邦學習模型和集中訓練模型表現幾乎一致,在腦卒中預測模型中的準確率達到80%,僅比集中訓練模型準確率降低1%。
同時,聯邦學習技術顯著提升了不同醫院的獨立模型效果,特別是,對于兩家腦卒中確診病例數量較少的醫院而言,聯邦學習分別提升其準確率10%和20%以上。
除疾病預測模型外,雙方還會圍繞聯邦學習在醫療大數據領域的應用落地進行更多維度的合作,包括醫保控費、合理診斷、精準醫療等領域,例如通過聯邦學習助力電子健康卡實現保護用戶隱私建模等等,進而促進醫療健康產業發展,提升醫療服務的質量。