悟道·天鷹 Aquila + 天秤 FlagEval，打造大模型能力與評測標準雙標桿-魔扣目錄

為推動大模型在產業落地和技術創新，智源研究院發布“開源商用許可語言大模型系列+開放評測平臺” 2 大重磅成果，打造“大模型進化流水線”，持續迭代、持續開源開放。

悟道·天鷹（Aquila）開源商用許可語言大模型系列

悟道·天鷹（Aquila）語言大模型是首個具備中英雙語知識、支持商用許可協議、國內數據合規需求的開源語言大模型。

悟道·天鷹（Aquila）語言大模型在中英文高質量語料基礎上從 0 開始訓練，通過數據質量的控制、多種訓練的優化方法，實現在更小的數據集、更短的訓練時間，獲得比其它開源模型更優的性能。系列模型包括 Aquila基礎模型（7B、33B），AquilaChat對話模型（7B、33B）以及 AquilaCode-7B “文本-代碼”生成模型，后續將持續更新迭代并開源更新版本。

Aquila基礎模型（7B、33B）在技術上繼承了 GPT-3、LLaMA 等的架構設計優點，替換了一批更高效的底層算子實現、重新設計實現了中英雙語的 tokenizer，升級了 BMTrain 并行訓練方法，實現了比 Magtron+DeepSpeed ZeRO-2 將近８倍的訓練效率。

AquilaChat 對話模型（7B、33B）支持流暢的文本對話及多種語言類生成任務，通過定義可擴展的特殊指令規范，實現 AquilaChat對其它模型和工具的調用，且易于擴展。例如，調用智源開源的 AltDiffusion 多語言文圖生成模型，實現了流暢的文圖生成能力。配合智源 InstructFace 多步可控文生圖模型，輕松實現對人臉圖像的多步可控編輯。

AquilaChat 訓練過程中，實現了模型能力與指令微調數據的循環迭代，包括數據集的高效篩選與優化，充分挖掘基礎模型的潛力。

圖注：多輪對話

圖注：高考作文生成

AquilaChat 支持可擴展的特殊指令規范，令用戶可在AquilaChat中輕松實現多任務、工具的嵌入，如文圖生成，下圖示例為在對話中調用智源開源的多語言文圖生成模型 AltDiffusion。

圖注：文圖生成

AquilaChat 具備強大的指令分解能力，配合智源InstructFace多步可控文生圖模型，輕松實現對圖片的多步可控編輯。

圖注：多步可控人臉編輯

AquilaCode-7B “文本-代碼”生成模型，基于 Aquila-7B 強大的基礎模型能力，以小數據集、小參數量，實現高性能，是目前支持中英雙語的、性能最好的開源代碼模型，經過了高質量過濾、使用有合規開源許可的訓練代碼數據進行訓練。

此外，AquilaCode-7B 分別在英偉達和國產芯片上完成了代碼模型的訓練，并通過對多種架構的代碼+模型開源，推動芯片創新和百花齊放。

圖注：文本-代碼生成

天秤（FlagEval）大模型評測體系及開放平臺

天秤（FlagEval）大模型評測體系及開放平臺，旨在建立科學、公正、開放的評測基準、方法、工具集，協助研究人員全方位評估基礎模型及訓練算法的性能，同時探索利用AI方法實現對主觀評測的輔助，大幅提升評測的效率和客觀性。目前已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具，并對各種語言基礎模型、跨模態基礎模型實現評測。后續將全面覆蓋基礎模型、預訓練算法、微調算法等三大評測對象，包括自然語言處理（NLP）、計算機視覺（CV）、語音（Audio）及多模態（Multimodal）等四大評測場景和豐富的下游任務。

首期推出的 FlagEval 大語言模型評測體系，創新構建了“能力-任務-指標”三維評測框架，細粒度刻畫基礎模型的認知能力邊界，可視化呈現評測結果，總計 600+ 評測維度，任務維度包括 22 個主觀&客觀評測數據集。除了知名的公開數據集 HellaSwag、MMLU、C-Eval等，FlagEval 還集成了包括智源自建的主觀評測數據集 Chinese Linguistics & Cognition Challenge (CLCC) ，北京大學與閩江學院共建的語義關系判斷、多義詞理解、修辭手法判斷評測數據集。更多維度的評測數據集也在陸續集成中。

FlagEval 評測榜單目前涵蓋了前面談到的22 個主觀和客觀評測集，84433 道題目，細粒度刻畫大模型的認知能力。基于“悟道 · 天鷹”Aquila 基礎模型（7B）打造的 AquilaChat 對話模型，在 FlagEval 大語言模型評測榜單上，目前暫時在“主觀+客觀”的評測上領先其他同參數量級別的開源對話模型。

在我們當前的最新評測結果中，AquilaChat 以大約相當于其他模型 50% 的訓練數據量（SFT 數據+預訓練數據分別統計）達到了最優性能。但由于當前的英文數據僅訓練了相當于Alpaca的40%，所以在英文的客觀評測上還暫時落后于基于 LLaMA 進行指令微調的Alpaca。隨著后續訓練的進行，我們相信很快可以超越。

悟道·天鷹（Aquila）模型還在迭代進步的過程中，天秤（FlagEval）評測能力也在不斷的擴充中，因而此評測結果只是暫時的，新的評測結果還會不斷更新。此外，FlagEval的評測體系方法及相關研究還需要繼續深入，當前對模型能力的覆蓋程度仍有很大的進步空間，智源也期待與多方合作，共同打造全面、科學的評測方法體系。

圖注：在評測時，FlagEval 根據數據集的不同規模進行了自動化采樣，總計采樣 28041 條數據。

天秤（FlagEval）開放評測平臺現已開放申請（flageval.baai.ac.cn），打造自動化評測與自適應評測機制，可輔助模型研發團隊利用評測結果指導模型訓練，同時支持英偉達、昇騰（鵬城云腦）、寒武紀、昆侖芯等多種芯片架構及 PyTorch、MindSpore 等多種深度學習框架。

作為“科技創新2030”旗艦項目重要課題，天秤（FlagEval）正與北京大學、北京航空航天大學、北京師范大學、北京郵電大學、閩江學院、南開大學、中國電子技術標準化研究院、中國科學院自動化研究所等合作單位共建（按首字母排序），定期發布權威評測榜單。

總的來說，智源此次發布的 2 大重磅成果僅僅是一個新的起點：

一方面，悟道 · 天鷹 Aquila 語言大模型將不斷完善訓練數據、優化訓練方法、提升模型性能，在更優秀的基礎模型基座上，培育枝繁葉茂的“模型樹”，持續開源開放。

另一方面，天秤 FlagEval 大模型評測體系及開放平臺將繼續拓展“大模型認知能力”框架，集成豐富的數據集與評測指標，并探索與心理學、教育學、倫理學等社會學科的交叉研究，以期更加科學、全面地評價語言大模型。

「模型 + 評測」雙輪驅動，加速大模型技術創新與產業落地。歡迎學界、產業界同仁提供建議。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

悟道·天鷹 Aquila + 天秤 FlagEval，打造大模型能力與評測標準雙標桿

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03