醫(yī)療人工智能的最大挑戰(zhàn)是:醫(yī)療機(jī)構(gòu)之間的數(shù)據(jù)無法互通,任何一家醫(yī)院(或數(shù)據(jù)中心)數(shù)據(jù)量都是有限的,形成了大大小小的很多“數(shù)據(jù)孤島”。本文將介紹如何利用聯(lián)邦學(xué)習(xí)技術(shù)在數(shù)據(jù)不出數(shù)據(jù)中心的情況下,進(jìn)行模型的學(xué)習(xí),達(dá)到或接近數(shù)據(jù)集中情況下的效果?
醫(yī)療領(lǐng)域的不可能三角
在很多領(lǐng)域都存在不可能三角(Impossible trinity)。不可能三角可以理解為在其他外部因素不變的情況下,有三個(gè)目標(biāo)無法同時(shí)滿足,決策中需要彼此權(quán)衡。在金融政策上有蒙代爾-弗萊明模型,資本自由流動(dòng)、匯率穩(wěn)定和貨幣政策獨(dú)立性三者不可能兼得。醫(yī)療領(lǐng)域的不可能三角的三個(gè)目標(biāo)分別為降低醫(yī)療費(fèi)用(Cost)、增加醫(yī)療可及性(Accessibility)和提高醫(yī)療服務(wù)質(zhì)量(Quality),我們可以稱之為CAQ模型。其中,CAQ模型中的醫(yī)療費(fèi)用比較好理解,不再贅述;可及性可以理解為患者在地理、物質(zhì)和經(jīng)濟(jì)上能得到醫(yī)療保健的程度,比如說到醫(yī)院的距離、排隊(duì)掛號(hào)的難度、報(bào)銷的比例等;服務(wù)質(zhì)量也可以進(jìn)行量化,如用再入院率、治愈率、存活時(shí)間等這些指標(biāo)衡量。

AI技術(shù)有望打破醫(yī)療不可能三角
在2016年世界衛(wèi)生組織(WHO)發(fā)布的報(bào)告中,美國(guó)醫(yī)療占GDP的比例為16.9%,中國(guó)僅為6%。在成本差距巨大的前提下,如何在可及性和服務(wù)質(zhì)量上形成彎道超車?在所有新技術(shù)中,人工智能有潛力打破醫(yī)療不可能三角。AI可以通過技術(shù)路徑把專家的智慧標(biāo)準(zhǔn)化、程序化、智能化,提高診斷、治療的準(zhǔn)確性和工作效率。以腦部影像分割任務(wù)為例,影像科醫(yī)生通常需要花3天以上,不一致性為16%;經(jīng)過訓(xùn)練的AI算法可以在10分鐘內(nèi)完成,同時(shí)保證不一致率小于1%。

法律對(duì)隱私的保護(hù) 對(duì)獲取數(shù)據(jù)造成巨大障礙
一個(gè)魯棒性高、性能好的AI模型往往需要大規(guī)模數(shù)據(jù)的訓(xùn)練。但在如GDPR等一系列涉及用戶隱私保護(hù)的法律出臺(tái)后,醫(yī)療AI遇到一個(gè)最大的問題是醫(yī)療數(shù)據(jù)很難出院、出機(jī)構(gòu)、出市、出省、出國(guó)。
在國(guó)外,1996年,克林頓政府簽署了經(jīng)過參議院和眾議院通過的醫(yī)療保險(xiǎn)改革法案:HIPAA/1996;2000年,HIPAA公布了個(gè)人健康信息的隱私保護(hù)標(biāo)準(zhǔn)和實(shí)施指南;2016年,歐盟發(fā)布并于2018年實(shí)施的GDPR是目前最全面、應(yīng)用最廣的隱私保護(hù)法規(guī),界定了數(shù)據(jù)主體權(quán)利、數(shù)據(jù)控制方、處理方的權(quán)利和義務(wù),向第三國(guó)轉(zhuǎn)移個(gè)人數(shù)據(jù)法規(guī),獨(dú)立檢察機(jī)關(guān)角色,關(guān)于合作原則等;美國(guó)加州在2018年頒布,2020年執(zhí)行了CCPA,授予消費(fèi)者了解收集了什么信息以及與誰共享了信息的權(quán)利。
HIPAA:Health Insurance Portability and Accountability Act/1996,Public Law 104-191
GDPR:General Data Protection Regulation
CCPA:California Consumer Private Act

我國(guó)有關(guān)保護(hù)患者隱私權(quán)的法律規(guī)定對(duì)醫(yī)療人工智能獲取患者數(shù)據(jù)同樣有很多限制。2010年施行的《中華人民共和國(guó)侵權(quán)責(zé)任法》規(guī)定,醫(yī)療機(jī)構(gòu)及其醫(yī)務(wù)人員應(yīng)當(dāng)對(duì)患者的隱私保密,要求泄露患者隱私或者未經(jīng)患者同意公開其病歷資料,造成患者損害的,應(yīng)當(dāng)承擔(dān)侵權(quán)責(zé)任。保護(hù)每一個(gè)人數(shù)據(jù)安全的法律體系的逐漸完備對(duì)醫(yī)療人工智能產(chǎn)品落地變得更加艱難。

國(guó)內(nèi)外公司數(shù)據(jù)泄露事件頻發(fā) 遭受處罰或股價(jià)受累
2017年7月,英國(guó)皇家NHS信托基金會(huì)在沒有征得患者同意的前提下,向合作公司——DeepMind人工智能創(chuàng)業(yè)公司,提供了超過160萬名患者的數(shù)據(jù),違反了數(shù)據(jù)隱私法。
2018年3月17日,F(xiàn)acebook上超5000萬用戶信息在用戶不知情的情況下,被政治數(shù)據(jù)公司“劍橋分析”獲取并利用。在截至2018年3月23日當(dāng)周,F(xiàn)acebook股價(jià)累計(jì)跌13.89%。
2018年,我國(guó)科技部公布國(guó)內(nèi)某基因科技服務(wù)有限公司違規(guī)“通過網(wǎng)絡(luò)將基因信息傳遞到境外”造成了基因數(shù)據(jù)泄露,可能會(huì)對(duì)國(guó)家安全造成嚴(yán)重的傷害。
2019年1月22日,法國(guó)監(jiān)管機(jī)構(gòu)對(duì)google開出了首筆GDPR罰款,金額達(dá)5000萬歐元(約3.85億元人民幣)——這是自2018年GDPR法規(guī)生效以來首次對(duì)美國(guó)科技巨頭實(shí)施的重大處罰。
聯(lián)邦學(xué)習(xí)重塑醫(yī)療數(shù)據(jù)生態(tài)
一方面,醫(yī)療服務(wù)走到數(shù)據(jù)驅(qū)動(dòng)年代,數(shù)據(jù)開放共享需求強(qiáng);另一方面,醫(yī)學(xué)數(shù)據(jù)具有強(qiáng)私密性,需采取高度保護(hù)措施。醫(yī)療數(shù)據(jù)管理方往往要求醫(yī)療數(shù)據(jù)不離國(guó)/省/市/機(jī)構(gòu)。因此,在醫(yī)療數(shù)據(jù)利用方面不得不面對(duì)一個(gè)不可避免的問題:?jiǎn)我唤M織缺乏足夠可用樣本用于人工智能算法的訓(xùn)練。
聯(lián)邦學(xué)習(xí)是一種有效打破“數(shù)據(jù)孤島”的技術(shù)途徑。聯(lián)邦學(xué)習(xí)是一種具有以下特征的用來建立機(jī)器學(xué)習(xí)模型的算法框架。具有以下幾個(gè)特點(diǎn):
- 多方參與:有兩個(gè)以上參與協(xié)作構(gòu)建一個(gè)共享的機(jī)器學(xué)習(xí)模型。每個(gè)參與方都擁有若干能夠用來訓(xùn)練模型的數(shù)據(jù)
- 數(shù)據(jù)不動(dòng):聯(lián)邦學(xué)習(xí)模型相關(guān)信息能夠以加密方式在各方之間進(jìn)行傳輸和交換,并保證任何參與方不能推測(cè)出其他方的原始數(shù)據(jù)
- 性能無損:聯(lián)邦學(xué)習(xí)模型性能能夠充分逼近理想模型(數(shù)據(jù)集中訓(xùn)練)的性能

聯(lián)邦學(xué)習(xí)的概念最早由Google提出。Google在一個(gè)針對(duì)Android/ target=_blank class=infotextkey>安卓系統(tǒng)中預(yù)測(cè)下一個(gè)輸入詞的應(yīng)用中設(shè)計(jì)了聯(lián)邦學(xué)習(xí)模型,用來更新數(shù)據(jù)聯(lián)合建模方案:在單個(gè)用戶使用安卓手機(jī)時(shí),不斷在本地更新模型參數(shù)并將參數(shù)上傳到云上,從而使特征維度相同的各數(shù)據(jù)擁有建立聯(lián)合模型的能力。聯(lián)邦學(xué)習(xí)這一概念在2018年后被廣泛應(yīng)用于計(jì)算機(jī)視覺、自然語(yǔ)言處理和推薦系統(tǒng)中。開源生態(tài)逐漸萌芽,業(yè)內(nèi)推出了基于Tensorflow和PyTorch的一系列聯(lián)邦學(xué)習(xí)開源平臺(tái),并于2019年成立IEEE 聯(lián)邦學(xué)習(xí)工作組開展相關(guān)標(biāo)準(zhǔn)的制定。

橫向聯(lián)邦 VS 縱向聯(lián)邦
橫向聯(lián)邦學(xué)習(xí)適用于聯(lián)邦學(xué)習(xí)的參與方的數(shù)據(jù)有重疊的數(shù)據(jù)特征,即數(shù)據(jù)特征在參與方之間是對(duì)齊的,參與方數(shù)據(jù)樣本不同。

上圖為橫向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)結(jié)構(gòu)。比如多家醫(yī)院希望聯(lián)合開展一項(xiàng)某項(xiàng)疾病的因素分析。每家醫(yī)院的數(shù)據(jù)都不足以完成這個(gè)任務(wù),但合起來的病歷足夠豐富,且每家醫(yī)院采集的因素相似度較高。這種情況非常適橫向聯(lián)邦學(xué)習(xí)的應(yīng)用。
縱向聯(lián)邦學(xué)習(xí) 適用于聯(lián)邦學(xué)習(xí)參與方的訓(xùn)練數(shù)據(jù)有重疊的數(shù)據(jù)樣本,即參與方之間的數(shù)據(jù)樣本對(duì)齊的,但數(shù)據(jù)特征上不同。

上圖為縱向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)結(jié)構(gòu)。比如醫(yī)保局在分析醫(yī)保欺詐的時(shí)候,支付數(shù)據(jù)不足以支撐欺詐識(shí)別的準(zhǔn)確性,希望利用同樣用戶群的醫(yī)院就診數(shù)據(jù)和金融信用數(shù)據(jù),但這兩部分?jǐn)?shù)據(jù)無法完全共享。這種情況非常適縱向聯(lián)邦學(xué)習(xí)的應(yīng)用。
聯(lián)邦學(xué)習(xí)在醫(yī)療場(chǎng)景的應(yīng)用
數(shù)據(jù)不足和標(biāo)注不足是實(shí)現(xiàn)醫(yī)療AI的瓶頸。各醫(yī)療機(jī)構(gòu)希望按照約定好的隱私保護(hù)條例共享各自的數(shù)據(jù),并獲得相應(yīng)的收益,聯(lián)邦學(xué)習(xí)是實(shí)現(xiàn)這一目標(biāo)的非常重要的解決方案。作者Kim Y等人在論文《Federated Tensor Factorization for Computational Phenotyping》中在保證無數(shù)據(jù)離開本地醫(yī)院的情況下,利用多醫(yī)院的數(shù)據(jù)聯(lián)合分析發(fā)現(xiàn)特定患者人群的表型。研究表明,單獨(dú)使用UCSD醫(yī)院1的數(shù)據(jù)或UCSD醫(yī)院2的數(shù)據(jù)與聯(lián)合利用兩家醫(yī)院的數(shù)據(jù)分析得出的結(jié)果差異較大,如果利用聯(lián)邦學(xué)習(xí)的方式,在數(shù)據(jù)不出醫(yī)院的情況下,仍然可以得到令人滿意的結(jié)果。在聯(lián)邦學(xué)習(xí)的情況下,算法可以找到單獨(dú)利用一家醫(yī)院無法找到的表征“鐮刀型細(xì)胞/慢性疼痛”,避免由于人群差異和樣本過小對(duì)結(jié)果產(chǎn)生的偏差。

作者Huang L等人在論文《Patient Clustering Improves Efficiency of Federated machine Learning to Predict Mortality and Hospital Stay Time Using Distributed Electronic Medical Records》中研究通過利用特征自編碼器、患者聚類的方式提高聯(lián)邦學(xué)習(xí)用來預(yù)測(cè)死亡率和住院時(shí)間的性能。聚類后的患者群映射到二維空間后的分布如圖所示。患者聚類的操作可以大大降低在聯(lián)邦學(xué)習(xí)梯度傳輸?shù)耐ㄐ咆?fù)載。

另外一個(gè)經(jīng)典案例是Intel支持的多個(gè)醫(yī)療組織聯(lián)合開展的腦部腫瘤分割任務(wù),利用多家機(jī)構(gòu)的頭部MRI數(shù)據(jù),在數(shù)據(jù)不出院的情況下,訓(xùn)練影像分割模型,達(dá)到集中訓(xùn)練的效果。性能的收斂曲線見下圖。

總結(jié)與展望
聯(lián)仁健康非常重視在醫(yī)療人工智能方向的自主研發(fā)與產(chǎn)業(yè)合作,致力于醫(yī)療大數(shù)據(jù)的價(jià)值的深度挖掘。公司利用累積的海量醫(yī)療數(shù)據(jù)訓(xùn)練并對(duì)外發(fā)布業(yè)界具有影響力的中文電子病歷預(yù)訓(xùn)練模型、醫(yī)學(xué)專業(yè)術(shù)語(yǔ)特征向量,在命名實(shí)體識(shí)別、關(guān)系抽取、醫(yī)療知識(shí)圖譜構(gòu)建等方面形成突破,打造電子病歷結(jié)構(gòu)化、智能搜索、相似病歷查詢等核心能力,全面賦能臨床、醫(yī)藥、保險(xiǎn)等行業(yè)。
醫(yī)療人工智能和大數(shù)據(jù)的發(fā)展涉及對(duì)人類社會(huì)的社會(huì)責(zé)任,需要兼顧算法性能、經(jīng)濟(jì)利益和對(duì)隱私和安全的嚴(yán)格要求。面對(duì)這一挑戰(zhàn),聯(lián)仁健康致力于提供一個(gè)隱私安全計(jì)算的環(huán)境,使得各方在保護(hù)用戶隱私和信息安全的前提下提升系統(tǒng)效率。
參考文獻(xiàn):
https://federated.withgoogle.com/
Qiang Yang, et. al, Federated Learning, Publisher: Morgan & Claypool. 2019
Kim Y , Sun J , Yu H , et al. Federated Tensor Factorization for Computational Phenotyping, the 23rd ACM SIGKDD International Conference. ACM, 2017.
Huang L , Shea A L , Qian H , et al. Patient Clustering Improves Efficiency of Federated Machine Learning to Predict Mortality and Hospital Stay Time Using Distributed Electronic Medical Records[J]. Journal of Biomedical Informatics, 2019, 99:103291.
https://www.intel.ai/federated-learning-for-medical-imaging/