阿里云通義千問QwQ-32B：小參數大能量，媲美DeepSeek R1推理性能-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

首頁 > 新聞資訊 > 手機數碼 >正文

阿里云通義千問QwQ-32B：小參數大能量，媲美DeepSeek R1推理性能

發布時間：2025-03-06 07:59:14 作者：網友整理

近日，強化學習在提升模型推理能力方面的潛力得到了新的驗證。據悉，一種名為DeepSeek-R1的模型，通過結合冷啟動數據和多階段訓練策略，成功展現了卓越的性能，特別是在深度思考和復雜推理任務上。

在此基礎上，阿里云通義千問團隊宣布推出其最新的推理模型QwQ-32B，該模型擁有驚人的320億參數。令人矚目的是，盡管參數規模遠小于DeepSeek-R1的6710億參數（激活370億），QwQ-32B的性能卻能夠與之比肩。

這一突破彰顯了強化學習在預訓練大模型上的強大應用效果。不僅如此，QwQ-32B還集成了與智能體相關的能力，能夠在使用工具的同時進行批判性思考，并根據環境反饋動態調整推理路徑。這一創新使得QwQ-32B在復雜場景下的表現更為出色。

目前，QwQ-32B已在Hugging Face和ModelScope平臺開源，并遵循Apache 2.0協議。用戶可以通過這些平臺或Qwen Chat直接體驗這一先進模型。

在性能測試方面，阿里云對QwQ-32B進行了全面的評估，包括數學推理、編程能力和通用能力。結果顯示，QwQ-32B在數學評測集AIME24和代碼評測集LiveCodeBench上的表現與DeepSeek-R1相當，遠超同尺寸的R1蒸餾模型及o1-mini。在LiveBench、IFeval和BFCL等多個權威評測中，QwQ-32B的得分均超越了DeepSeek-R1。

阿里云表示，QwQ-32B的成功是大規模強化學習在增強推理能力方面邁出的重要一步。這一過程中，團隊不僅見證了強化學習的巨大潛力，還發現了預訓練語言模型中尚未挖掘的無限可能。

展望未來，阿里云計劃將更強大的基礎模型與強化學習相結合，并依托規模化計算資源，推動下一代Qwen模型的發展。團隊正積極探索智能體與強化學習的集成，以實現長時推理，旨在通過推理時間的擴展，解鎖更高的智能水平。

分享到：

標簽：阿里云通義千問 QwQ