01 聯(lián)邦大模型開源平臺FATE-LLM最新版發(fā)布,在橫向聯(lián)邦場景支持ChatGLM-6B的聯(lián)邦化訓(xùn)練
當(dāng)前,AI大模型已成為科技創(chuàng)新和數(shù)字經(jīng)濟領(lǐng)域的熱點,其高速進程中面臨的諸多問題也引發(fā)了業(yè)內(nèi)關(guān)注。FATE開源社區(qū)技術(shù)指導(dǎo)委員會主席楊強教授指出:“即將消耗殆盡的公域數(shù)據(jù),日趨高漲的隱私安全保護需求,以及眾多異構(gòu)小模型的整合需求,已成為AI 大模型發(fā)展之路上亟待突破的瓶頸。而聯(lián)邦大模型正是解決這些問題的有效路徑。”在此背景下,F(xiàn)ATE社區(qū)開源了FATE-LLM聯(lián)邦大模型功能模塊,以聯(lián)邦學(xué)習(xí)+大模型的技術(shù)解決方案破局數(shù)據(jù)隱私保護與數(shù)據(jù)不足等問題,以應(yīng)對行業(yè)發(fā)展的新挑戰(zhàn)。
近期,聯(lián)邦大模型開源平臺FATE-LLM最新版發(fā)布,在橫向聯(lián)邦場景支持ChatGLM-6B中文語言大模型。集成GLM的FATE-LLM將會為國內(nèi)用戶提供更好的中文大模型應(yīng)用落地選擇。
GLM系列大模型由清華大學(xué)和智譜AI聯(lián)合研發(fā),其中ChatGLM-6B是一個開源的、支持中英雙語問答的對話語言模型,并針對中文進行了優(yōu)化。該模型基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù)。結(jié)合模型量化技術(shù),用戶可以在消費級的顯卡上進行本地部署(INT4 量化級別下最低只需 6GB 顯存)。開源兩個月以來,ChatGLM-6B在全球最大開源軟件平臺GitHub上獲得超過26萬星,超過斯坦福同期模型的關(guān)注度和好評度,全球下載量超過200萬,并連續(xù)兩周登上全球最大開源大模型平臺 Hugging Face大模型趨勢榜榜首。
此次更新的FATE-LLM v1.1版本在橫向聯(lián)邦場景支持Adapter,Prompt這類高效聚合方法,可以顯著提升聯(lián)邦大模型訓(xùn)練效率,其中參數(shù)微調(diào)方法支持Lora以及P-Tuning V2 。而在框架層,F(xiàn)ATE實現(xiàn)對DeepSpeed的集成,使得FATE-LLM支持多機多卡訓(xùn)練,支持分布式GPU集群資源調(diào)度和管理,支持數(shù)據(jù)、模型參數(shù)等不同并行化加速方法。用戶只需要任務(wù)提交階段直接增加配置即可享受到多機多卡的加速能力。
02 FATE-LLM v1.1功能介紹
1、亮點概述
1)集成業(yè)界開源的主流中文語言大模型ChatGLM-6B,支持高效的參數(shù)微調(diào)機制Lora、P-Tuning V2等方法,提升聯(lián)邦訓(xùn)練的通信效率和訓(xùn)練效率;
2)FATE實現(xiàn)對DeepSpeed框架集成,使得FATE具備多機多卡聯(lián)邦大模型加速訓(xùn)練能力:支持分布式GPU集群資源調(diào)度和管理;支持數(shù)據(jù)、模型參數(shù)等不同并行化加速方法。
2、 功能一覽
1)ChatGLM-6B聯(lián)邦化支持,并支持LoRa、P-Tuning V2 高效微調(diào)方案;
2)FATE多機多卡聯(lián)邦大模型訓(xùn)練能力支持,在任務(wù)提交階段增加相關(guān)配置即可使用數(shù)據(jù)、模型等不同階段的訓(xùn)練加速能力,與用戶模型訓(xùn)練代碼解耦;
3)FATE支持分布式GPU集群資源管理功能;
4)支持使用transformers庫的data collator類,可以更靈活地處理訓(xùn)練輸入數(shù)據(jù);
5)支持只保存可訓(xùn)練參數(shù),降低訓(xùn)練階段checkpoints保存的硬盤占用,方便模型拷貝使用。
3、 實驗數(shù)據(jù)一覽
1)高效參數(shù)微調(diào)機制的參數(shù)量及其訓(xùn)練參數(shù)占比
2)場景及數(shù)據(jù)、以及配置
聯(lián)邦場景:橫向聯(lián)邦,兩個參與;應(yīng)用場景:兩個參與方各持有部分數(shù)據(jù),數(shù)據(jù)格式:<廣告關(guān)鍵字,廣告宣傳語>,希望模型可以根據(jù)輸入的廣告關(guān)鍵字去自動生成廣告宣傳語,通過聯(lián)邦建模去提升廣告生成詞的效果。
下面給出效果示例:
數(shù)據(jù)集:AdvertiseGen,可參考https://aclanthology.org/D19-1321.pdf,為廣告生成數(shù)據(jù)集;訓(xùn)練數(shù)據(jù)隨機切分,其中client-1數(shù)據(jù)量為57478,client-2數(shù)據(jù)量為57121環(huán)境:局域網(wǎng)環(huán)境,client-1和client-2機器配置完全一致,單個client使用2臺機器,每臺機器有4張V100 32G 資源;配置:DeepSpeed: stage=2,batch_size_per_device=4;數(shù)據(jù)集的提問(content)及回答(summary)兩列tokenize后,token_ids長度超過64的會截斷。
3)訓(xùn)練效果:
03 開源共建,是助推聯(lián)邦大模型快速發(fā)展的不竭動力
未來,支持中文大語言模型ChatGLM-6B聯(lián)邦化訓(xùn)練的FATE-LLM將通過聯(lián)合多家公司和組織,充分利用分散數(shù)據(jù),融合聯(lián)邦學(xué)習(xí)和AIGC相關(guān)技術(shù),實現(xiàn)異構(gòu)數(shù)據(jù)分布式安全訓(xùn)練。其中針對中文方面的優(yōu)化,將為金融、教育、醫(yī)療等領(lǐng)域的應(yīng)用帶來更強大的支持,例如人工智能助手、智能問答、自然語言處理等場景將會得到進一步的效果提升。
FATE-LLM模塊將持續(xù)迭代,未來將持續(xù)解決訓(xùn)練、微調(diào)和使用推理階段的隱私保護問題,并堅持推出后續(xù)版本。聯(lián)邦大模型將大模型與隱私計算核心技術(shù)手段融合,使大模型的“野蠻生長”轉(zhuǎn)向更加安全可靠的發(fā)展賽道,在提升AI通用性的同時不違背監(jiān)管與倫理的要求,推進AI技術(shù)高質(zhì)量發(fā)展。
清華大學(xué)教授唐杰表示:“作為科研人員,我們希望在開展大模型技術(shù)研究與應(yīng)用落地的同時,也進一步降低人工智能的使用門檻,實現(xiàn)技術(shù)普惠,為行業(yè)良性發(fā)展做出一些貢獻。”
飲其流者懷其源。開源不僅是一種技術(shù)選擇,更是一種分享態(tài)度與溝通方式。開源平臺和開源生態(tài)將助推大模型的快速迭代與落地應(yīng)用。我們期待有更多的用戶和開發(fā)者加入FATE開源社區(qū)。在獲得項目發(fā)展成果的同時,通過積極參與項目等方式回饋社區(qū)。形成互惠互助的良性循環(huán),推動社區(qū)生態(tài)健康發(fā)展!