谷歌今日震撼發布其最新一代的人工智能推理模型——Gemini 2.5,該模型憑借獨特的“思考-驗證-回答”多模態推理框架,被譽為“當前最頂尖的智能模型”。
在多項基準測試中,Gemini 2.5的旗艦版本Gemini 2.5 Pro Experimental表現卓越,尤其在代碼生成和數學推理方面,超越了OpenAI和Anthropic等強勁對手。這一成就標志著AI在處理復雜任務方面邁出了重大一步。
Gemini 2.5 Pro支持多種輸入模式,包括文本、圖像、音頻、視頻以及代碼,其上下文窗口高達100萬token(相當于約75萬單詞),足以解析《指環王》這樣的長篇巨著。未來,這一能力還將進一步升級,上下文窗口將擴大至200萬token。這使得Gemini 2.5 Pro在處理跨模態復雜問題時,展現出前所未有的優勢。
在代碼生成方面,Gemini 2.5 Pro在Aider Polyglot代碼編輯測試中取得了68.6%的高分,領先于OpenAI和Anthropic等模型。在SWE-bench Verified測試中,它也獲得了63.8%的分數,僅次于Claude 3.7 Sonnet(70.3%)。
而在數學與科學推理領域,Gemini 2.5 Pro同樣表現出色。在“人類最后考試”(一項多模態綜合測試)中,它以18.8%的準確率領先于大多數競品,且無需依賴任何外部工具。
Gemini 2.5 Pro在通用能力方面也表現出強大的競爭力。在LMArena排行榜上,它以40分的優勢超越了GPT-4.5,成功登頂視覺競技場(Vision Arena)及網頁開發競技場(WebDev Arena)。
即日起,Gemini 2.5 Pro將通過Google AI Studio和Gemini應用向訂閱“Gemini Advanced”(月費20美元)的用戶開放。未來,它還將登陸Vertex AI平臺。雖然谷歌尚未公布API的定價信息,但表示將在幾周內公布企業級應用方案。
Gemini 2.5的發布不僅彰顯了谷歌在AI領域的深厚實力,更為全球AI技術的發展注入了新的活力。未來,隨著Gemini 2.5的廣泛應用和深入探索,我們有理由相信,AI將在更多領域展現出其強大的潛力和價值。