谷歌在人工智能領域再次邁出重要一步,發(fā)布了其最新一代模型Gemini 2.0的首款變體——Gemini 2.0 Flash。據(jù)谷歌官方博客透露,Gemini 2.0 Flash在關鍵基準測試中的表現(xiàn)是1.5 Pro版本的兩倍之快,這一進步無疑為人工智能技術的發(fā)展注入了新的活力。
Gemini 2.0 Flash不僅在處理速度上有了顯著提升,更引入了多模態(tài)輸出的功能。這意味著用戶現(xiàn)在可以獲得混合了文本、原生生成的圖像以及可操控的文本轉(zhuǎn)語音(TTS)多語言音頻的綜合性輸出。該模型還能直接調(diào)用谷歌搜索、執(zhí)行代碼以及第三方用戶自定義函數(shù)等工具,為用戶提供了前所未有的便捷性。
為了進一步推動動態(tài)和交互式應用程序的開發(fā),谷歌還推出了Multimodal Live API。該API支持實時音頻和視頻流輸入,并能同時使用多個組合工具,為用戶帶來更加豐富的交互體驗。
在AI Agent方面,谷歌同樣帶來了令人矚目的更新。其中,通用AI Agent Project Astra的最新版本尤為引人注目。這個全視、全聽和全記憶的AI助手現(xiàn)在能夠記住長達10分鐘的視頻內(nèi)容,并能根據(jù)用戶的對話和個人偏好提供更加個性化的服務。Project Astra還支持多種語言和混合語言交談,能夠更好地理解口音和不常見的單詞。通過新的流媒體功能和本機音頻理解,Agent能以接近人類對話的延遲理解語言,使對話更加自然流暢。
另一個值得一提的AI Agent是Project Mariner,它能夠完成多步驟的復雜任務。通過理解和推理瀏覽器屏幕上的信息,包括像素、文本、圖像和表單等,Project Mariner能夠自動執(zhí)行一系列任務。雖然目前仍需人類介入,但這一技術已經(jīng)表明了在瀏覽器中導航的可行性。在WebVoyager基準測試中,Project Mariner作為單一Agent設置實現(xiàn)了83.5%的最佳工作結果。
谷歌還在探索AI編程Agent Jules的更新。Jules是一種直接集成到GitHub工作流程中的實驗性AI驅(qū)動的編程Agent,能夠解決問題、制定計劃并執(zhí)行,所有過程都在開發(fā)人員的指導和監(jiān)督下進行。這一領域的長期目標是構建在所有領域都有幫助的AI Agent。
谷歌還構建了游戲Agent,幫助用戶在視頻游戲的虛擬世界中導航。這些Agent能夠僅根據(jù)屏幕上的動作來推理游戲,并在實時對話中提供下一步操作的建議。目前,谷歌正在與游戲開發(fā)商合作,探索這些Agent在各種游戲中解釋規(guī)則和挑戰(zhàn)的能力。
在硬件方面,谷歌也宣布了其最強AI芯片Trillium TPU的普遍可用性。這款第六代TPU相比上一代芯片在訓練性能、推理吞吐量、能效等方面都有了顯著提升。Trillium TPU是谷歌云AI超級計算機的關鍵組成部分,其架構采用了性能優(yōu)化的硬件、開放的軟件以及領先的機器學習框架和靈活的消費級模型的集成系統(tǒng)。這一硬件的升級無疑為Gemini 2.0等模型的訓練和推理提供了強大的支持。