人工智能領(lǐng)域近期迎來了新的里程碑事件。阿里通義推出的最新推理模型Qwen3-30B-A3B-Thinking-2507,在數(shù)學(xué)推理與代碼能力上實現(xiàn)了顯著飛躍。
據(jù)悉,Qwen3-30B-A3B-Thinking-2507在數(shù)學(xué)推理評測AIME25中斬獲了85.0分的高分,這一成績足以令人矚目。同時,在代碼能力測試LiveCodeBench v6中,該模型也以66.0分的優(yōu)異成績,成功超越了Gemini2.5-Flash(thinking)以及先前的旗艦款Qwen3-235B。這一系列亮眼的表現(xiàn),無疑證明了Qwen3-30B-A3B-Thinking-2507在相關(guān)領(lǐng)域內(nèi)的卓越實力。
不僅如此,這款名為通義Qwen3的新推理模型在多個維度上都展現(xiàn)出了非凡的能力。在知識水平評測如GPQA、MMLU-Pro中,Qwen3取得了明顯進步。同時,在寫作能力測試WritingBench、Agent執(zhí)行能力測試BFCL-v3,以及多輪對話和多語言指令處理測試MultiIF中,Qwen3同樣表現(xiàn)出了顯著優(yōu)勢。通過對比測試數(shù)據(jù),不難發(fā)現(xiàn),Qwen3的綜合性能已經(jīng)遠遠超出了同類產(chǎn)品的平均水平。
此次模型升級還特別注重提升了思考長度,這一改進使得模型在處理復(fù)雜任務(wù)時更加游刃有余。開發(fā)者可以充分利用這一特性,通過調(diào)整模型的思考時間,進一步挖掘其在邏輯推理和多步驟問題解決方面的巨大潛力。
為了更好地推廣這一先進模型,阿里通義已經(jīng)將其在魔搭社區(qū)和HuggingFace平臺上進行了開源。與此同時,阿里通義還推出了Qwen Chat智能對話平臺,旨在為用戶提供更加流暢、高效的交互體驗。這一系列舉措不僅標(biāo)志著通義千問在專用推理模型領(lǐng)域的重大突破,也為全球開發(fā)者社區(qū)提供了一個更加強大、實用的AI工具。