在數(shù)據(jù)科學(xué)領(lǐng)域工作過的人都知道,開發(fā)一個人工智能模型通??梢愿爬?3 個階段:訓(xùn)練、驗(yàn)證和測試。在測試模型的準(zhǔn)確性時,選擇驗(yàn)證集來調(diào)整超參數(shù)(hyperparameters)時,通常有很多考慮。
為了進(jìn)行準(zhǔn)確的模型評估,企業(yè)傾向于使用一部分真實(shí)數(shù)據(jù)進(jìn)行驗(yàn)證,但自然會有很多安全和隱私方面的考慮,特別是在處理個人身份信息(PII)方面。
如果你的模型是由一個外部公司開發(fā)的,你基本上有兩個選擇。要么該公司與你分享其模型,這將對其知識產(chǎn)權(quán)保護(hù)構(gòu)成風(fēng)險(xiǎn);要么你與他們分享你的真實(shí)數(shù)據(jù),這對你來說是一種隱私風(fēng)險(xiǎn),也可能導(dǎo)致模型對真實(shí)數(shù)據(jù)過度擬合。在做出這兩種困難的選擇時,也有很多法律障礙需要跳過。因此,雖然企業(yè)希望盡快采用人工智能,但在處理數(shù)據(jù)時,模型開發(fā)過程無論是內(nèi)部還是外部,他們都面臨著挑戰(zhàn)。
為了解決這個問題,微軟正在研究一個名為 EzPC 的新框架,它代表著“輕松安全的多方計(jì)算”。從本質(zhì)上講,EzPC 是基于安全的多方計(jì)算(MPC)的。MPC 使多方能夠使用加密技術(shù)聯(lián)合計(jì)算一個函數(shù),而不向?qū)Ψ酵嘎端麄兊臄?shù)據(jù)。
雖然 MPC 已經(jīng)存在多年,但事實(shí)證明它很難實(shí)現(xiàn),因?yàn)樵谟?jì)算多個函數(shù)時,使其具有可擴(kuò)展性和高效性的挑戰(zhàn)。EzPC 通過使用 MPC 作為構(gòu)建塊來解決這些問題,并使開發(fā)者--不僅僅是密碼學(xué)專家--能夠在此基礎(chǔ)上進(jìn)行擴(kuò)展。
微軟表示
EzPC 的核心是兩項(xiàng)創(chuàng)新。
● CrypTFlow 模塊化編譯器
將用于 ML 推理的 TensorFlow 或 Open Neural Network Exchange(ONNX)代碼作為輸入,并自動生成類似 C 的代碼,然后可以將其編譯為各種 MPC 協(xié)議。這個編譯器既是“MPC感知”的,也是優(yōu)化的,確保了 MPC 協(xié)議的高效和可擴(kuò)展。
●高性能的加密協(xié)議
第二個創(chuàng)新是一套高性能的加密協(xié)議,用于安全地計(jì)算復(fù)雜的ML函數(shù)。
微軟吹噓說,EzPC 在與斯坦福大學(xué)研究人員的測試中實(shí)現(xiàn)了“有史以來第一次對生產(chǎn)級人工智能模型的安全驗(yàn)證”,從而證明你不需要分享數(shù)據(jù)來進(jìn)行驗(yàn)證。盡管微軟的EzPC模型在“兩個標(biāo)準(zhǔn)的云端虛擬機(jī)”上用了15分鐘做帶有驗(yàn)證元素的安全推理--這比普通推理要長 3000 倍,但該公司表示,這并不重要,因?yàn)橛?jì)算并行可以解決這個問題。
根據(jù)目前的方法,驗(yàn)證集中的 500 多個圖像在五天的時間內(nèi)完成了推理,總成本不到 100 美元。微軟聲稱,如果所有的數(shù)據(jù)都是并行運(yùn)行的,它可以在 15 分鐘內(nèi)完成對整個集合的推理。你可以在這里發(fā)表的論文中探討這些發(fā)現(xiàn)。
【來源:希恩貝塔】