近期,Qwen系列模型家族迎來(lái)了一位新成員——Qwen3-30B-A3B-Thinking-2507,這一重大更新標(biāo)志著該系列在智能表現(xiàn)上的又一次飛躍。新版本不僅在體積上保持輕巧,更在推理能力、通用應(yīng)用及文本處理能力上實(shí)現(xiàn)了顯著提升。
與早前于4月29日開(kāi)放的Qwen3-30-A3B相比,新版本Qwen3-30B-A3B-Thinking-2507在多個(gè)關(guān)鍵性能測(cè)試中展現(xiàn)出了明顯優(yōu)勢(shì)。在數(shù)學(xué)領(lǐng)域,新模型在AIME25評(píng)測(cè)中的得分高達(dá)85.0,這一成績(jī)已經(jīng)超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking),彰顯了其卓越的數(shù)學(xué)解析能力。在編程能力測(cè)試中,LiveCodeBench v6的得分同樣達(dá)到了66.0,進(jìn)一步證明了新模型在代碼理解和生成方面的實(shí)力。
不僅如此,Qwen3-30B-A3B-Thinking-2507在知識(shí)水平測(cè)試中也取得了顯著進(jìn)步,無(wú)論是GPQA還是MMLU-Pro評(píng)測(cè),都較之前版本有了明顯提升。這顯示了模型在廣泛知識(shí)領(lǐng)域的學(xué)習(xí)和應(yīng)用能力。
在通用能力方面,新模型同樣表現(xiàn)出色。無(wú)論是寫(xiě)作評(píng)測(cè)WritingBench,還是Agent能力測(cè)試BFCL-v3,以及多輪對(duì)話(huà)和多語(yǔ)言指令遵循測(cè)試MultiIF,Qwen3-30B-A3B-Thinking-2507均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking),展現(xiàn)了其在自然語(yǔ)言理解和生成方面的強(qiáng)大實(shí)力。
新模型的另一大亮點(diǎn)是其上下文理解能力的顯著增強(qiáng)。原生支持256K tokens,且可擴(kuò)展至1M tokens,這一改進(jìn)使得模型能夠處理更長(zhǎng)的文本輸入,從而更好地理解和生成復(fù)雜內(nèi)容。新模型的思考長(zhǎng)度也有所增加,開(kāi)發(fā)者在面對(duì)高度復(fù)雜的推理任務(wù)時(shí),可以通過(guò)設(shè)置更長(zhǎng)的思考預(yù)算來(lái)充分發(fā)揮其潛力。
為了讓更多開(kāi)發(fā)者和研究人員受益于這一新版本,Qwen3-30B-A3B-Thinking-2507已經(jīng)在魔搭社區(qū)和HuggingFace平臺(tái)開(kāi)放源代碼。其輕量級(jí)的特性使得模型能夠輕松適配消費(fèi)級(jí)硬件,實(shí)現(xiàn)本地部署。同時(shí),Qwen Chat也同步上線(xiàn)了新模型,供開(kāi)發(fā)者們親身體驗(yàn)其強(qiáng)大的推理和生成能力。