在2024年末的科技舞臺上,智源研究院再度引領了一場關于人工智能大模型的深度評測盛宴。此次評測不僅覆蓋了國內外100多個開源與商業閉源的語言、視覺語言、文生圖、文生視頻及語音語言大模型,還通過一系列綜合及專項評測,全面揭示了當前大模型技術的最新進展與實際應用潛力。
相較于今年早些時候的評測,智源研究院此次在評測任務上進行了顯著的擴展與深化。新增的數據處理、高級編程及工具調用能力評估,首次將金融量化交易場景納入考量,并創新性地引入了基于模型辯論的對比評測方式,旨在更深入地剖析模型的邏輯推理、觀點理解及語言表達等核心能力。
評測結果顯示,2024年下半年,大模型的發展重心明顯轉向了綜合能力的提升與實際應用。多模態模型異軍突起,涌現出眾多新廠商與新模型,而語言模型的發展則相對放緩。在開源生態中,除了持續堅定的開源倡導者,還出現了新的開源貢獻力量。
在語言模型方面,盡管針對一般中文場景的開放式問答或生成任務已趨于穩定,但在復雜場景任務中,國內頭部語言模型與國際一流水平仍存在明顯差距。主觀評測中,字節跳動Doubao-pro-32k-preview與百度ERNIE 4.0 Turbo分列前兩位,而客觀評測則由OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest領跑。
視覺語言多模態模型方面,盡管開源模型的架構趨于一致,但性能表現卻大相徑庭。較好的開源模型在圖文理解任務上正逐步縮小與頭部閉源模型的差距,但在長尾視覺知識與文字識別以及復雜圖文數據分析方面仍有待提升。評測中,OpenAI GPT-4o-2024-11-20與字節跳動Doubao-Pro-Vision-32k-241028表現突出。
文生圖多模態模型方面,頭部模型已具備中文文字生成能力,但復雜場景人物變形仍是普遍問題。騰訊Hunyuan Image在評測中拔得頭籌,字節跳動Doubao image v2.1與Ideogram 2.0緊隨其后。
文生視頻多模態模型則呈現出畫質提升、動態性增強、鏡頭語言豐富的特點,但動作變形、物理規律理解不足等問題依舊存在。快手可靈1.5(高品質)、字節跳動即夢 P2.0 pro等模型在評測中表現優異。
語音語言模型得益于文本大模型的進步,能力提升顯著,但開源模型中性能好、通用能力強的仍較少。阿里巴巴Qwen2-Audio在專項評測中位居榜首,香港中文大學與微軟合作的WavLLM、清華大學與字節跳動合作的Salmon同樣表現不俗。
智源研究院還聯合海淀區教師進修學校新編了K12全學段、多學科試卷,以考察大模型與人類學生的能力差異。結果顯示,盡管模型在多模態能力的帶動下綜合得分有所提升,但仍與海淀學生平均水平存在差距,且普遍存在“文強理弱”的現象。
智源研究院此次評測還探索了基于實際應用場景的全新方法,通過評測模型的量化代碼實現能力,探索其在金融量化交易領域的潛在應用。評測發現,頭部模型已接近初級量化交易員的水平,深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06等模型在評測中表現突出。
作為評測體系的重要組成部分,智源研究院的Flageval平臺經過數次迭代,已覆蓋全球800多個開閉源模型,包含20多種任務、90多個評測數據集及超200萬條評測題目。在評測方法與工具上,智源研究院聯合多所高校和機構,探索了基于AI的輔助評測模型FlagJudge及靈活全面的多模態評測框架FlagevalMM,為評測提供了有力支持。