近日,人工智能領(lǐng)域的競爭再度升溫,Google DeepMind在OpenAI即將發(fā)布新成果的前夕,搶先推出了其最新研發(fā)的大型基礎(chǔ)世界模型——Genie 2。這款模型不僅能夠生成各種可控動(dòng)作和可玩的3D環(huán)境,還可用于訓(xùn)練和評(píng)估具身智能代理。
Genie 2的強(qiáng)大之處在于,只需一張?zhí)崾緢D像,它便能根據(jù)用戶輸入的文本提示,生成一個(gè)對(duì)應(yīng)的交互式虛擬世界。無論是人類還是AI代理,都能在這個(gè)由AI生成的3D游戲世界中探索和互動(dòng),使用鍵盤和鼠標(biāo)進(jìn)行操作。
作為一個(gè)自回歸潛在擴(kuò)散模型,Genie 2在大型視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。視頻中的潛在幀經(jīng)過自動(dòng)編碼器處理后,被傳遞到大型Transformer動(dòng)力學(xué)模型中。該模型使用類似于大語言模型的因果掩碼進(jìn)行訓(xùn)練。在推理時(shí),Genie 2能以自回歸方式逐幀采樣,獲取單個(gè)動(dòng)作和過去的潛在幀,Google DeepMind使用無分類器指導(dǎo)(CFG)來提高動(dòng)作的可控性。
Genie 2在多個(gè)方面展示了其卓越的效果與優(yōu)勢,包括行動(dòng)控制、生成反設(shè)事實(shí)、長視界記憶、長視頻生成、多樣環(huán)境、3D結(jié)構(gòu)、物體交互、復(fù)雜角色動(dòng)畫、NPC、物理、煙霧、光影以及快速原型設(shè)計(jì)等。其博客文章中發(fā)布了大量由未蒸餾的基礎(chǔ)模型生成的視頻示例,展示了這些功能。雖然蒸餾版本支持實(shí)時(shí)交互,但視覺質(zhì)量會(huì)有所降低。
Genie 2具有超強(qiáng)的空間記憶能力,能夠模擬真實(shí)世界環(huán)境。與之前的世界模型相比,Genie 2在通用性上取得了顯著進(jìn)步,能夠生成種類繁多的豐富3D世界。用戶可以通過文生圖模型Imagen 3生成的單個(gè)圖像,按照提示詞生成一個(gè)可交互的3D世界,并與之互動(dòng)。
Genie 2還能快速創(chuàng)建各種交互體驗(yàn)的原型,將概念藝術(shù)和繪圖轉(zhuǎn)化為完全交互式環(huán)境。這對(duì)于藝術(shù)家和設(shè)計(jì)師來說,是一個(gè)快速制作研究環(huán)境概念原型的利器。同時(shí),Genie 2還可為AI代理創(chuàng)建豐富多樣的環(huán)境,生成在訓(xùn)練期間未見過的評(píng)估任務(wù),為具身智能提供了絕佳的訓(xùn)練場。
盡管這項(xiàng)研究仍處于早期階段,但Google DeepMind相信Genie 2是解決安全訓(xùn)練具體AI代理的結(jié)構(gòu)性問題的途徑,同時(shí)實(shí)現(xiàn)邁向通用人工智能(AGI)所需的廣度和通用性。他們計(jì)劃在通用性和一致性方面繼續(xù)改進(jìn)Genie的世界生成能力,以構(gòu)建更通用的AI系統(tǒng)和代理,使其能夠理解和安全地執(zhí)行各種任務(wù)。