當金融業務進入智能化深水區,對 AI 模型的專業深度、推理精度和合規可靠性提出了前所未有的要求。螞蟻集團推出的 Agentar-Fin-R1 系列金融大語言模型,以 8B 和 32B 參數規模為支點,通過三大核心創新構建起金融智能體開發平臺Agentar的 “最強服務引擎”,重新定義了金融 AI 的技術邊界與應用可能。
一、直擊行業痛點:金融智能體的 “能力斷層” 與解決方案
現有金融 LLM 存在顯著能力短板:非推理型模型雖整合領域知識,卻缺乏復雜決策所需的多步分析能力;推理增強型模型則在場景適配性上不足,難以應對市場動態、合規約束等金融特有需求。
Agentar-Fin-R1 的突破在于構建了 “知識 - 推理 - 合規” 三位一體的架構:
專業標簽體系:通過場景(銀行、證券、保險等)與任務類型(實體識別、意圖分類等)的二維標簽系統,實現金融任務的精準拆解與數據對齊,確保模型理解金融業務的 “語境特殊性”。
多層級可信框架:從源頭(權威金融數據)、合成(多智能體驗證)到治理(去重、 detox 等),全鏈路保障數據可信度,解決金融領域 “幻覺輸出” 的合規風險。
動態歸因系統:通過實時追蹤模型錯誤來源,定向優化數據分配與訓練策略,讓模型在風險評估、 portfolio 優化等復雜任務中持續進化。
二、技術突破:讓金融智能體 “會思考、可信賴、高效率”
Agentar-Fin-R1 的技術架構直指金融智能體開發的核心訴求 ——高性能與高可靠的平衡。
難度感知的加權訓練框架
傳統訓練對簡單與復雜任務 “一視同仁”,導致模型在高價值復雜任務(如多步風險定價)上表現薄弱。該模型通過 pass@k 分數動態評估任務難度,對低通過率任務賦予更高訓練權重,例如在信貸違約預測等高頻復雜場景中,模型關注度提升 30% 以上,顯著降低決策誤差。
兩階段訓練的效率革命
第一階段:通過監督微調(SFT)注入金融知識,整合 300K + 高質量金融推理數據,構建基礎能力底座;
第二階段:采用 GRPO 強化學習與靶向微調結合,專攻復雜場景(如動態合規校驗),使模型在 Finova 基準的復雜推理維度得分達 56.33,超越 GPT-o1 等通用大模型 15% 以上。
Finova 基準:定義金融智能體的 “實戰標準”
螞蟻創新推出的 Finova 基準,從智能體能力(意圖識別、工具規劃等)、復雜推理(金融數學、代碼理解)、安全合規三大維度,全面模擬真實金融業務場景。Agentar-Fin-R1-32B 在該基準中以 69.93 的總分登頂,尤其在 “金融表達式生成”(69 分)和 “安全合規”(87 分)上表現碾壓,證明其能直接支撐高風險業務的落地。
三、服務賦能:為金融智能體開發平臺注入 “最強動力”
對于金融智能體開發平臺Agentar而言,Agentar-Fin-R1 的價值體現在三個層面:
開箱即用的專業能力:模型在 Fineva(92.38)、Fineval 1.0 (87.70)等權威金融基準中均居榜首,開發者無需從零訓練,可直接集成到智能投顧、風控審核等系統,縮短開發周期 60% 以上。
靈活適配的技術接口:支持 8B(輕量化)與 32B(全能力)雙版本,滿足從移動端客服智能體到企業級量化交易系統的差異化需求,且保持通用推理能力(MATH-500 得分 93.8),避免 “專精廢全”。
合規兜底的安全保障:通過多智能體數據驗證與動態合規校驗,模型在反洗錢、信息披露等敏感場景的錯誤率低于 0.5%,為平臺提供 “合規即服務” 的底層支撐。
結語:從 “模型能力” 到 “產業價值” 的跨越
Agentar-Fin-R1 的推出,不僅是技術層面的突破,更標志著金融 AI 從 “通用賦能” 向 “深度滲透” 的轉型。其通過標簽化數據治理、動態訓練優化和場景化評估體系,為金融智能體開發平臺提供了 “最強服務” 的技術范式 —— 讓 AI 不僅能處理金融任務,更能理解金融業務的本質邏輯與風險邊界。這一創新,或將推動智能投顧、自動化合規、跨境金融等領域的效率革命,成為螞蟻集團在金融科技賽道的核心競爭力支點。