階躍星辰團隊近期向公眾揭開了其最新研發的基礎大模型Step3的神秘面紗,并宣布該模型已在Github、Hugging Face及魔搭ModelScope三大平臺上正式開源。Step3是針對性能與成本尋求最佳平衡點的企業和開發者量身打造的,旨在滿足推理時代對應用模型的高要求。
Step3采用先進的MoE架構,總參數量高達3210億,而激活參數量則控制在380億。這款模型不僅視覺感知敏銳,推理能力卓越,還能跨越不同領域,精準理解復雜知識,進行數學與視覺信息的綜合分析,解決日常生活中的各類視覺難題。通過引入MFA(多矩陣分解注意力)和AFD(注意力與前饋網絡解耦)兩項優化技術,Step3在各種芯片上的推理效率均實現了顯著提升。
尤為Step3的核心設計中融入了自研的MFA注意力機制,這一創新有效減少了注意力計算中的KV緩存開銷和算力消耗,實現了資源利用與推理效率的雙重優化。這意味著,即便在配置為8張48GB顯卡的環境下,Step3也能完成大吞吐量的推理任務,具備極高的實際應用價值。在多模態能力方面,Step3配備了5B視覺編碼器,并通過雙層2D卷積對視覺特征進行降采樣,顯著減少了視覺token的數量,從而提升了推理效率。
在訓練過程中,Step3采用了分階段策略:第一階段強化編碼器的感知能力,第二階段則凍結視覺編碼器,僅對主干與連接層進行優化,以減少梯度干擾。訓練語料涵蓋了Pair、Interleave及多任務數據,并通過相似度過濾、重采樣和任務比例控制等清洗環節,進一步提升了圖文協同質量和訓練魯棒性。在系統架構層面,Step3對解碼流程進行了重構,解決了Attention與FFN混合執行帶來的推理瓶頸和資源不匹配問題。為此,團隊研發了高性能的AFD方案,將兩類計算任務解耦為兩個子系統,并通過多級流水線并行調度,大幅提升了整體吞吐效率。
為了滿足解耦后子系統間的高數據傳輸需求,階躍星辰團隊還開發了面向AFD場景的StepMesh通信庫。該通信庫基于GPU Direct RDMA技術,實現了跨卡的低延遲、高帶寬傳輸,同時不占用GPU計算資源,并適配多種異構硬件。在50ms解碼的服務水平協議(SLA)前提下,Step3在Hopper GPU上的吞吐量達到了4039token/gpu/s,遠超同類設置下的DeepSeek V3(2324token/gpu/s),特別是在特定硬件和長文場景下,性能增益更為顯著,可達300%。
Step3在多個評測集上均表現出色,包括MMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond及LiveCodeBench(2024.08-2025.05)等。在同類開源模型中,Step3的成績名列前茅。例如,在處理“安排商務宴座”的任務時,Step3能準確識別圖中結構,解析禮儀規則、角色關系與空間邏輯,并結合中文社交禮儀推理出完整的12人角色分布邏輯,最終輸出角色明確、位置清晰、結構合理的全局排座方案,并通過表格和ASCII圖直觀展示。在卡路里計算任務中,Step3能準確識別復雜的小票信息,對菜品進行分類并匹配熱量值,最終估算出兩人一頓飯的總熱量攝入為5710大卡,人均2855大卡,整個過程邏輯清晰,形成了一個完整的閉環。
目前,Step3API已在階躍星辰開放平臺(platform.stepfun.com)上線,開發者還可以在“階躍 AI”官網(stepfun.com)和“階躍 AI”App(應用商店搜索下載)進行體驗。為慶祝開源,所有請求均按最低價格計費,每百萬token的輸入價格僅為1.5元,輸出價格為4元。
GitHub開源地址:https://github.com/stepfun-ai/Step3
Hugging Face開源地址:https://huggingface.co/stepfun-ai/step3
魔搭ModelScope開源地址:https://www.modelscope.cn/models/stepfun-ai/step3 和 https://www.modelscope.cn/models/stepfun-ai/step3-fp8