近期,科技界迎來了一則重磅消息,谷歌正式揭曉了其Gemini思考模型家族的最新力作——Gemini 2.5 Pro實驗版。這款模型一經面世,便以卓越表現震驚業界,在多項基準測試中力壓群雄,包括OpenAI的o3-mini、Claude 3.7 Sonnet、Grok-3及DeepSeek-R1,以1443分的高分榮登大模型競技場榜首,領先第二名多達39分。
值得注意的是,盡管Gemini 2.5 Pro在多項測試中展現出強大實力,但谷歌并未提供它與OpenAI更早版本模型,如o1、o1-Pro及o3的直接對比數據。在智能體編程評估基準SWE-bench verified上,它的表現略遜于Claude 3.7 Sonnet。
然而,Gemini 2.5 Pro的輝煌成就遠不止于此。它不僅在大模型競技場這一衡量人類偏好的平臺上獨占鰲頭,還在編程、數學及科學基準測試中占據領先地位,尤其是在被譽為“人類最后考試”的超高難度測試中,相較于OpenAI o3-mini,其得分提升了近5%,提升幅度高達34%。更令人興奮的是,該模型現已支持100萬tokens的上下文窗口,并計劃不久的將來擴展至200萬tokens。
目前,開發者們已能在谷歌AI Studio平臺上體驗到Gemini 2.5 Pro的魅力,而普通用戶則需擁有Gemini Advanced訂閱賬號方能一探究竟。據悉,谷歌將在未來幾周內公布該模型的定價策略,屆時用戶將有機會利用這一高性能模型進行大規模商用。
為了直觀展示Gemini 2.5 Pro的強大功能,谷歌DeepMind在其YouTube頻道上發布了一系列演示視頻,生動呈現了其編程能力與其他領域的深度融合。例如,該模型能夠根據用戶指令,在p5.js中探索曼德博集合,生成邊緣清晰、色彩過渡平滑的可視化效果。它還能根據提示詞創建互動式圖表,將人均GDP與健康數據巧妙結合,揭示兩者之間的微妙關系。
在編程領域,Gemini 2.5 Pro同樣展現出了非凡實力。無論是創建美觀的Web應用,還是在智能體編程、代碼轉換與編輯任務中,它都表現出色。盡管在SWE-bench verified基準測試中,其得分低于Claude 3.7 Sonnet,但采用定制智能體配置仍取得了63.8%的亮眼成績。
作為Gemini模型家族的一員,Gemini 2.5 Pro繼承了原生多模態處理能力和超長上下文窗口的優勢。目前,它能夠處理高達100萬tokens的上下文信息,并即將升級至200萬tokens,這意味著它將能夠解析更為復雜的數據集,處理來自文本、音頻、圖像、視頻乃至完整代碼庫等多元信息源的挑戰。
Gemini 2.5 Pro的發布與DeepSeek-V3新版本的問世幾乎同時發生,兩者都不約而同地提升了在編程、審美、數學等方面的能力,并將其作為核心亮點進行展示。這一趨勢表明,AI編程能力的提升已成為大模型廠商競相追逐的新前線,不僅將為用戶帶來更為直觀的使用體驗變化,更有望在生產場景中實現顯著的效益提升。