在大年初一這個喜慶的日子里,阿里巴巴向全球展示了其在人工智能領域的最新突破。阿里云通義千問團隊于北京時間1月29日凌晨正式推出了Qwen2.5-Max旗艦版模型,這一舉動在業界引起了廣泛關注。
據阿里云通義千問團隊介紹,Qwen2.5-Max是他們對混合專家(MoE)模型的最新探索成果,其預訓練數據規模超過20萬億tokens,展現了極為出色的綜合性能。在多項主流模型評測基準上,Qwen2.5-Max取得了高分,全面超越了當前全球領先的開源MoE模型以及最大的開源稠密模型。
與Qwen2.5-Max進行對比的模型中,包括了近期備受矚目的DeepSeek旗下的V3模型。受到這一新模型發布的影響,1月28日,阿里巴巴美股股價大幅拉升,一度漲幅超過7%,最終收盤時上漲6.71%,報96.03美元/股。而在1月29日,阿里巴巴美股股價繼續上漲,收盤時漲幅為0.71%,收于96.715美元。
阿里云通義千問團隊強調,Qwen2.5-Max采用了超大規模的MoE架構,并基于龐大的預訓練數據以及精心設計的后訓練方案進行訓練。在知識、編程、綜合能力評估以及人類偏好對齊等主流權威基準測試上,Qwen2.5-Max展現出了全球領先的模型性能。
在指令模型這一可直接對話體驗的模型版本中,Qwen2.5-Max在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準測試中,與Claude-3.5-Sonnet比肩,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。這一表現無疑證明了Qwen2.5-Max的強大實力。
在反映模型裸性能的基座模型對比中,由于無法訪問GPT-4o和Claude-3.5-Sonnet等閉源模型的基座模型,通義團隊將Qwen2.5-Max與目前領先的開源MoE模型DeepSeek V3、最大的開源稠密模型Llama-3.1-405B,以及同樣位列開源稠密模型前列的Qwen2.5-72B進行了對比。結果顯示,在所有11項基準測試中,Qwen2.5-Max全部超越了對比模型,再次證明了其卓越的性能。
除了發布Qwen2.5-Max以外,阿里巴巴還于1月28日開源了全新的視覺理解模型Qwen2.5-VL,推出了3B、7B、72B三個尺寸版本。其中,旗艦版Qwen2.5-VL-72B在13項權威評測中奪得視覺理解冠軍,全面超越了GPT-4o與Claude3.5,進一步展示了阿里巴巴在人工智能領域的深厚底蘊。
Qwen2.5-Max的發布引發了資本市場關于重估中國AI資產的討論。阿里巴巴的股價在近年來雖然經歷了波動,但此次新模型的發布無疑為其股價注入了新的活力。業內人士分析認為,阿里云不僅發布了與全球頂尖模型比肩甚至更優的模型,而且具備完整的云生態,這或能形成類似去年北美云計算服務商的投資邏輯。
在DeepSeek備受關注的同時,國內其他互聯網大廠的大模型能力也不容忽視。包括阿里通義千問、字節豆包、騰訊混元在內的大廠大模型,在性能上同樣表現出色。這些大廠往往出于商業化等方面的考量,不會完全開源其模型,但這并不影響它們在人工智能領域的競爭力。
值得注意的是,DeepSeek在文本生成能力和理解能力方面表現出色,尤其擅長中文語境下的長文本和復雜語境。然而,DeepSeek目前尚無多模態生成能力,而大廠模型如豆包等則屬于多模態大模型,在大語言模型基礎上融合了圖片、音頻、視頻等多種模態,對算力底座要求更高。
盡管如此,DeepSeek仍因其創新架構與優化算法降低了訓練成本,并聚焦于大語言模型領域而備受矚目。然而,DeepSeek也面臨著“蒸餾”爭議。所謂“蒸餾”,即用預先訓練好的復雜模型輸出的結果作為監督信號來訓練簡單模型。雖然這一方法存在爭議,但在大模型訓練中卻是一種常用的手段。無論是中國還是美國,初創公司和學術機構使用ChatGPT等商業大語言模型輸出數據來訓練自己的模型,已成為一種普遍現象。
總的來說,阿里巴巴此次發布的Qwen2.5-Max模型無疑為人工智能領域帶來了新的突破和活力。隨著技術的不斷進步和應用場景的不斷拓展,人工智能將在未來發揮更加重要的作用。