谷歌DeepMind團隊近日宣布了一項重大突破,推出了一款名為Genie 3的“世界模型”。這款模型能夠使AI系統與高度逼真的現實世界模擬進行互動,標志著向通用人工智能(AGI)邁出了關鍵一步。
據谷歌介紹,Genie 3的潛力巨大,尤其在訓練機器人和自動駕駛車輛方面。通過模擬倉庫等復雜環境,AI系統可以在其中進行互動學習,從而在實際應用中表現得更為出色。
DeepMind的專家認為,世界模型是實現AGI的必經之路。AGI意味著AI系統能夠執行廣泛的任務,與人類能力相當,甚至可能取代一些工作崗位。而Genie 3這樣的模型,將在開發自主AI代理或系統中發揮核心作用。
與前代模型(如Genie 1/2)和視頻生成模型(如Veo 2/3)相比,Genie 3在多個方面實現了飛躍。它是首個允許實時交互的世界模型,相比Genie 2,其模擬的一致性和真實感都有了顯著提升。
Genie 3的核心能力包括模擬世界的物理特性,如水流、光影變化以及復雜環境互動。它還能模擬自然世界,將幻想場景轉化為可探索的現實。該模型還能創造奇幻的動畫場景和富有表現力的角色,讓用戶能夠探索不同地域和歷史場景。
在實時性能方面,Genie 3也展現了非凡的能力。它實現了高度的可控性和實時交互性,能夠每秒進行多次計算,以響應用戶的輸入。這意味著用戶可以在模擬世界中自由探索,而不用擔心模擬的不連貫或延遲。
長時程環境一致性是另一個亮點。為了確保模擬世界的真實感,Genie 3必須在長時間內保持物理上的一致性。這一點對于自動回歸生成環境來說尤為困難,因為不準確之處往往會隨時間累積。然而,Genie 3在幾分鐘內都能保持基本一致,為用戶提供了更加動態和豐富的體驗。
除了基本的導航輸入外,Genie 3還支持一種更具表現力的基于文本的交互形式——可提示的世界事件。用戶可以通過文本提示改變模擬世界的天氣條件或引入新的物體和角色,從而大大增強了用戶體驗。這種能力還為AI系統提供了從經驗中學習的機會,以更好地處理意外情況。
盡管Genie 3取得了顯著進展,但谷歌表示它尚未準備好全面公開上市,并未透露具體的發布日期。同時,谷歌也承認該模型存在一些局限性。這一聲明發布于人工智能市場競爭日益激烈的背景下。
谷歌強調,世界模型不僅限于AI訓練,還能幫助人類體驗各種模擬場景。例如,Genie 3能夠根據文本提示立即創建滑雪或漫步場景,模擬環境也可以根據用戶需求快速更改。谷歌向記者展示了Genie 3創建的滑雪和倉庫場景,這些模擬的質量與谷歌最新的視頻創作模型Veo 3相當,但持續時間更長。
盡管AGI可能對白領工作構成威脅,但谷歌認為世界模型是開發機器人和自動駕駛車輛的關鍵技術。通過模擬真實環境和物理規律,AI系統可以在訓練中不斷學習和優化,從而在實際應用中表現出更高的效率和準確性。