日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

7月27日,由中國互聯網協會指導、微博和新浪新聞主辦的人工智能領域峰會——2022新智者大會在線上召開。在主旨演講中,加拿大工程院院士、加拿大皇家科學院院士,香港科技大學講席教授楊強分享了他在可信聯邦學習領域的研究。

2022新智者大會-楊強院士做主題演講

以下為楊強教授演講實錄,內容經編輯略有刪減:

大家好,很高興跟大家討論可信聯邦學習,這是我今天要講座的主題。

首先,我們來看一下今天的人工智能面臨很多挑戰,其中一個瓶頸就是人工智能還過度地依賴中心化的數據。

我們知道中心化的數據在過去一段時間激勵了人工智能的發展,因為有很多好處,包括樣本多,樣本的質量好,特征也足夠的多和好,并且處理起來方便。像今天的大模型,像BERT、GPT-3、悟道等等,都是基于中心化的數據來做的,但是我們真實世界不是這樣的,真實世界的數據是多元的,數據分布在各地,并且每一個數據源有不同的屬主,他的利益也不同的,數據的格式,數據的質量,數據特征也是異構的。

那么隨著時間推移,數據也在發生變化,同時有很多額外的要求,比方說我們要保護用戶隱私,我們要尊重法律的邊界,我們要保證我們的過程能夠被監管和審計等等。

所以真實的世界有很多重要的要求,在中心化的數據里面沒有體現。

同時國內外的數據監管又趨嚴,比方說我們在國外熟知的是《通用數據保護法案(GDPR)》,保護個人對數據的擁有權和對模型里面所用數據的所有權。

美國也有相應的加州消費者隱私法案,那么在我們國內,尤其是去年,我們有三個重要的立法,一個是《數據安全法》,一個是《個人信息保護法》,還有就是《網絡安全法》。

那么這些加在一起,就為我們數據的流通和數據要素的使用提出了一個挑戰,這也是我們希望能夠通過技術手段結合法律和行政手段一起來解決的問題。

那么,我們從技術上來說,我們要解決的問題相當于“魚和熊掌都要兼得”,也就是說我們既要計算結果準確,又要這個過程是安全的。因此我們就引入數據可用不可見這樣的概念,就是在數據里面,有一部分數據是可用的,有一部分是不可用的,那么可用和不可用之間是法律來定的邊界。

那在可用的數據里,可見和不可見,又是法律和利益來定的邊界,那么哪些數據可用,同時又不可讓其他參與方看見,同時你們要聯合起來計算一個結果,那么就屬于隱私計算的范疇了。那么在范疇里有幾個不同的大的研究方向,一個叫做安全多方計算,一個叫做差分隱私,一個叫做安全硬件執行環境,還有一個叫做聯邦學習。

那么我們在做這幾個方面合作的時候,數據持有方、使用方也分別采用不同的角色,比方說甲方的角色就是數據的使用方,包括金融機構,包括醫療機構,還有政務部門。

那么還有乙方就是數據的擁有方,比方說,有一些特殊的行業數據,一些政府數據,還有一些是像醫療,政務等等,那還有就是技術的提供方,有時候技術的提供方就是甲方,有時候技術提供方就是乙方,也有單獨的丙方作為技術提供方,叫隱私計算的服務機構。

那么隱私計算,作為目標來講,就是數據可用而不可見。尤其是在聯合建模,建人工智能模型的時候,不僅原始數據不可以讓對方看見,同時我們在做模型的訓練和模型的使用的時候,我們也不希望模型的關鍵參數被對方看見,這個也是隱私計算和聯邦學習的共同目的。

那么我們這么多年的發展也形成了一個很大的工具包,這個里面包括差分隱私,可信執行環境,縱向橫向的聯邦學習,聯邦遷移學習,同態加密,還有安全多方計算的各個維度,包括秘密共享,混淆電路,不經意傳輸,零知識證明等等。

那么我們看隱私計算,技術的發展歷程,也是經歷了不同的階段,首先從理論的角度來說,安全多方計算最先得到了發展,他的特點是安全可證明,但是如果全程、全生命周期都使用就很難來建立大模型,那么當數據庫大量的多方查詢發生了以后,就有差分隱私出現。

但是差分隱私,同時對建模非常的不友好,因為它會使模型的效果降低,硬件廠商推出了集中加密計算,像TEE,但也會使各方的數據一定要出本地,就增加了安全風險,但是它的一個好處是特別能支持這種集中計算,像云計算。那隨著AI的發展,從2016年以后,多方分布式的,同時安全可信的聯合模型計算就被提出來,2016年谷歌提出了橫向聯邦學習。

2018年,我們中國的學者提出了縱向聯邦學習和聯邦遷移學習。

今年,我們又提出可信聯邦學習,包括知識產權保護。

聯邦學習的目的是利用多方本地的數據聯合計算一個模型,并且聯合使用模型。我們要求是模型不泄露任何本地的數據,同時,本地的數據又不出各自的本地。在此過程中,我們模型同時能夠得到高效的成長,就像我們率領一只羊能夠去拜訪各地的草場,能夠讓羊成長,同時草料不出農場。

我們特別要強調的是,原始數據和模型的私密數據都不動和不可見,也就是說,我們這只羊在訪問一個草場,他離開的時候,他也不帶走任何草場的隱私,泄露給其他的參與方。

那么隱私計算的技術和聯邦學習的算法,應該說來自很多很多家的努力,包括同態加密,包括剛才所說的安全多方計算,還有分布式的機器學習,各種機器學習算法,包括橫向縱向的聯邦學習,包括利用MPC和同態加密的方式來做這種PSI,包括優化算法和博弈論的算法。

那么這個近年來有很多不同的發展。那么我剛才多次提到谷歌提出橫向聯邦學習,它的大意是當我們有多個終端設備,各自擁有一部分數據,大家如何來聯合更新一個本地模型,同時能夠計算一個通用模型,那么假設我們有一個服務器來做一個coordinator的時候,我們就可以把各自的模型,本地模型進行加密,并且把加密的package傳輸給服務器。

服務器在加密的狀態下可以進行各種統計計算,可以計算出一個加密的通用模型,這個通用模型又可以在加密的狀態傳輸到各地的本地去更新本地的模型,這個過程叫做橫向聯邦。

原因是因為它相當于對一個數據表格進行用戶間的,樣本間的切割。那么每一個樣本模塊都分布到一個不同的終端設備上,縱向聯邦是由于企業間的合作需求所引發的,也就是說,當我們每一個企業有不同的特征,這個時候我們可以考慮企業間的樣本有重合,但是他們的特征卻沒有重合,在這種狀態下,我們可以讓兩邊聯合建模,就像右邊圖所示。

在這個過程中,我們需要更新溝通一些模型的參數,比方說梯度,我們也要強調,這個梯度的溝通一定要是在加密狀態下進行的。同時我們還考慮到生態的建設,數據生態,那么這個時候就要建立一個很好的機制,就是數據定價,模型定價,模型貢獻度的決策和計算。這個機制可以通過一個博弈論和信息論來進行。

多方的參與,會不會有安全的隱患?人工智能本身是可以被攻擊的,我們知道,一個模型有一個訓練過程,也有一個使用過程,在訓練過程和使用過程當中,都有一些可能的關鍵節點,是有可能被不謀好意者攻擊的。比方說某一個參與方可以推斷對方的訓練數據,那么這個就屬于一種半誠實的攻擊,還有就是叫拜占庭攻擊,就是一個參與方,他參與的一個目標就是來損害模型的質量。還有就是在模型的使用推理的時候進行攻擊來欺騙模型,以達到某種個人的目的。

因此,我們在聯邦學習設計的時候,就特別的有必要來設計一個對抗攻擊的一個算法,那么攻擊的例子,叫做半誠實攻擊。比方說在共同建立一個計算機人臉識別模型的時候,一個參與方可以根據雙方溝通的梯度來反猜對方的原始人臉數據。

在MIT的一個工作當中,叫做深度泄漏攻擊,他兩邊模型的交流用的是梯度的交流,并且對梯度進行加噪音的這樣的一種梯度保護,但是實踐表明,如果噪音加的不夠多,那么就會使得模型的總體安全性下降。

其實不僅僅有這種半誠實的攻擊,還可能有其他的攻擊,包括外在和內在的攻擊,惡意的攻擊,訓練和推理時候的攻擊。

那么我們提出可信聯邦學習就是要增大攻擊方的成本,使之大于攻擊所獲得的收益,那么這樣就可以勸退攻擊方,使得他無利可圖,所以我們就說,如果我們要保障模型的安全,我們就需要來制定這個方案,我們首先要有一個威脅模型,我們要知道模型來自什么地方,模型攻擊的對象是什么,模型攻擊的模型是什么,還有就是我們采取哪些保護措施,當這些變量定下來以后,我們就可以對整個的保護機制來定一個安全等級,這個也是我們建立標準的一個基礎。

所以可信聯邦學習,是在聯邦學習分布式聯合建模的基礎上,要加入安全可信的機制,同時,又能夠保證整個的模型是高效可用,可管理,可審計,并且是普惠的。我們剛才所說的半誠實攻擊,就是可以用可信聯邦學習來增大攻擊者成本的一個例子。

我們最近也做出一個理論的結果,隱私計算是要滿足一個叫所謂的“no free lunch”,就是“沒有免費午餐”的這樣的一個定理,如果我們要安全和效能全部都提到100%最高是不可能的,因此安全和效能一定要做一個非常巧妙的平衡,使得我們既安全又高效。那么這樣就是對框架算法設計者的一個考驗,這個考驗也取決于我們要建立一個標準,在標準之下,我們用一些標準來建立我們的聯邦學習框架,就可以保證既安全又高效。

這就好像我們蓋房子是用一些標準件來蓋的,雖然每一個標準件都很安全,但是整個房子的安全是取決于我們是不是滿足某種安全標準。

如果我們有這樣的一種共同的安全機制來幫助我們,那么城市基建的速度就會大為提升,因此,聯邦學習這種新基建,標準化相比于定制化系統的建立,效率就會大為的提升。

比方說我們可以用博弈論來設計這種攻防的機制,中間我們看到一個矩陣,這個矩陣就是攻擊者和防御者他們采取不同的策略的時候,所獲得最后的結果。

我們要問的問題,是什么條件下攻擊者不愿意發起攻擊,那么最后發現如果我們有一個有效的溝通機制,使得攻擊者能夠明白我們一些防御的措施,就可以阻止攻擊者,這也是我們在設計算法的時候所需要采納的一個方式。

像左邊的這個方式,我們有了一個安全的機制,我們可以對全世界公布一些安全措施,使得攻擊者可以望而止步。

那么我們的措施也做了各種的實驗,這里的綠色的區域,在圖里面。

一個是安全防護,一個是效果效率。

在這兩個方面,如何能夠得到一個最佳的平衡,我們如果系統整個的參數是調到綠色的區域,我們就能保證這種平衡和這種安全和效率的平衡得到滿足。

剛才所說的這種系統的設計,也可以有效地用在這種惡意攻擊的防御上,比方說拜占庭攻擊,就像我們圖里面,我們有眾多的參與者,每一個小的綠色模塊都是一個參與者,其中有兩個是壞人,并且他們可以參與一個共謀機制。

我們就可以設計一種機制,能夠防止他們在共謀的狀態下,非常難以防御的狀態下,有效地攻擊我們的服務器。

那么我們主要采取的方法是一個圖計算,機器學習的功能,使得我們能夠區分這種惡意的共謀組與正常的合作組的合作特性,使得我們能夠在以圖分解的形式,把這種共謀的壞人的小組給孤立出來,并且把他們剔除出去。

實驗表明,這樣的一個結果,能夠保證系統安全可信、可靠地運行。

第二個,可信聯邦學習,要保證我們模型版權是被保護的,整個過程是被審計的,是透明的,可解釋的。那么版權保護也就是說我們的模型如果有一個輸出,也是大家多方共同參與建設一個模型,真正的參與方都應該有他們自己的一個審計的烙印。我們稱這種烙印叫做“模型水印”。當我們一個模型有10個參與方,但是真正參與貢獻的只有3個參與方,其他7個都是打醬油的,在這種情況下,通過3個參與方的水印,我們就可以清楚的知道,這3個參與者才是對模型真正的貢獻者。這個機制也可以幫助我們做數據的確權和數據的定價,因為我們知道,這3個參與者應該得到最大的收益。

如何能夠把水印放到模型里面?在多方建模的過程當中,訓練當中就在進行。我們設計了在深度學習的多層神經網絡的狀態下,能夠秘密地把水印植入到模型里面,同時滿足以下三個方面:

第一,模型的效率和效果都不被受影響;

第二,我們植入的水印是秘密的,很難被其他的惡意參與者給剔除掉;

第三,通過水印我們可以做模型和數據的確權。

比方說,對于深度學習模型,我們有這個工具,能夠確保最大水印的維度,保證不同的參與者,他們的水印不互相影響,并且保證水印不影響模型的效果,同時,我們有一個檢測機制,當一個模型被購買來的時候,我們能夠檢測模型真正的擁有者是誰,它的源頭是哪些,他的數據來自哪些參與者的數據,也就是能夠給一個全面的審計結構。

聯邦學習因為是多方參與的,因此離不開一個標準的建設,那么我們也是積極的領銜建立了相關標準,像IEEE在去年三月份就發布了全球第一個聯邦學習的國際標準。

信通院也發布了團體標準,現在正在建立國家標準,我們也建立了世界上首個隱私計算的聯邦學習開源社區,社區叫FATE。那么現在也是開源開放和數字化轉型的一個有力工具,也是有很多很多的工程師和參與者貢獻的結果。

中國信通院的調查顯示,55%的國內隱私計算產品是基于或參考了開源項目,其中以FATE開源項目為主。

可信聯邦學習雖然是一個新的技術,但是它的案例卻非常快速的積累起來。

在互聯網金融的服務場景,在這個場景,有很多的機器人,比方說有KYC,就是安全反欺詐的機器人,包括人臉識別,語音識別。還有服務機器人,還有坐席的培訓和審計,客服質量檢測機器人,這些機器人他們的訓練和更新都使用了聯邦學習,因為數據來自很多的數據源。

在醫療領域,多個醫院和醫療機構可以利用各自的數據,可以形成一個橫向或者縱向聯邦可以建立一個共同的模型,共同建的模型可以做各種醫療診斷,可以做各種生物學的科學研究,可以為用戶提供更好的個性化醫療方案。

在廣告營銷場景,聯邦學習也可以聯合廣告方和平臺方,甚至可以聯合多個數據源來做更好的新聞推薦、產品推薦等,推薦更個性化并且能夠保證用戶隱私不被泄露。

我們也積極地建立這樣的生態,一個例子是我們建立了一個叫開放群島的開源社區,開放群島是由深圳數據交易所聯合國家智庫,國家單位,大型金融機構,高校,大型互聯網公司等50家機構建立起來的一個國際化的自主可控的隱私計算的開源社區,能夠推動互聯互通,數據要素流通,數字化轉型有效的發展。

可信聯邦也有一個特性,就是決策過程應該是可解釋的。可解釋人工智能也成為新一代人工智能的一個特征,最近我們也出版了一本書叫做《可解釋人工智能導論》,我們不管在開源軟件上,在學術研究上都積極的正在推動可解釋的聯邦學習。力圖把聯邦學習的決策機制解釋給不同的角色的聽眾,包括用戶,包括監管,也包括工程師和和數據的使用者。

這里舉的一個醫療的例子,就是對于醫療欺詐的檢測,可以對病人和醫生分別給出不同的解釋。

我的講座到此結束,謝謝大家聆聽。

<結束>

分享到:
標簽:可信 智者 聯邦 大會 學習 楊強
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定