谷歌DeepMind近日宣布,其最新研發的AI推理模型Gemini 2.5 Deep Think已正式面世。據稱,這是該公司在AI領域的一次重大突破,模型能夠在解答問題時,探索并評估多種解題策略,從而得出最佳答案。
自本周五起,訂閱了Ultra服務的用戶將有機會在Gemini應用中率先體驗到這一創新技術,而該服務的月費為250美元。
早在2025年的谷歌I/O大會上,Gemini 2.5 Deep Think就已初露鋒芒,作為谷歌首個公開發布的多智能體模型,它能夠同時生成多個AI智能體,協同解決同一問題。盡管這種方法對計算資源的需求遠超傳統單一智能體,但其求解效果往往更為優越。
Gemini 2.5 Deep Think的一個變體在今年國際數學奧林匹克競賽中大放異彩,成功奪得金牌。為進一步推動科學研究,谷歌還決定向部分精選數學家和學者開放這一競賽用模型,盡管其完成一次推理需要數小時,遠超普通消費級AI模型。
據谷歌介紹,相較于I/O大會上的初版,如今的Gemini 2.5 Deep Think性能已有顯著提升。公司還透露,已研發出一種全新的強化學習技術,以優化模型的推理路徑利用效率。
DeepMind在一篇官方博文中表示,Deep Think能夠協助用戶解決那些需要創造力、戰略規劃及逐步改進的問題,展現了其在復雜問題解決方面的強大能力。
在“人類終極大考”這一挑戰性測試中,Gemini 2.5 Deep Think同樣表現出色,其得分高達34.8%,遠超xAI的Grok 4和OpenAI的o3模型。在高難度編程競賽LiveCodeBench 6的測試中,谷歌模型同樣以87.6%的得分領先其他競爭對手。
令人矚目的是,Gemini 2.5 Deep Think不僅能夠自動調用代碼執行和谷歌搜索等工具,其生成的回應篇幅也遠超傳統AI模型,為用戶提供了更為詳盡的信息。
在谷歌內部測試中,該模型在網頁開發任務上的表現同樣令人印象深刻,無論是細節豐富度還是視覺美感,都優于其他AI模型。谷歌認為,這一創新技術有望為科研人員提供有力支持,甚至可能加速科學發現的進程。
當前,多智能體系統已成為AI領域的前沿研究方向。不僅谷歌DeepMind在此領域取得了顯著成果,埃隆·馬斯克旗下的xAI也推出了多智能體系統Grok 4 Heavy,并在多項基準測試中表現出色。同時,OpenAI和Anthropic等公司也在積極探索多智能體系統的應用。
然而,值得注意的是,多智能體系統的運營成本遠高于傳統AI模型。因此,科技公司很可能將這類高成本系統作為頂級付費訂閱服務的專屬功能,以覆蓋其高昂的運營成本。據悉,谷歌計劃在接下來的幾周內,通過Gemini API邀請一小批測試者體驗Gemini 2.5 Deep Think,以進一步了解開發者和企業用戶的需求。