近期,AI領(lǐng)域的兩大突破性進(jìn)展讓業(yè)界眼前一亮,先是World Labs發(fā)布了其創(chuàng)新性的3D場(chǎng)景渲染AI,緊接著谷歌DeepMind也推出了第二代“世界模型”Genie 2,兩者均展示了AI在理解和生成現(xiàn)實(shí)世界方面的巨大潛力。
World Labs的創(chuàng)始人李飛飛,作為AI界的重量級(jí)人物,其新項(xiàng)目引發(fā)了廣泛關(guān)注。這家實(shí)驗(yàn)室聲稱(chēng),他們的AI能夠直接渲染出完整的3D場(chǎng)景,超越了傳統(tǒng)生成模型僅限于像素預(yù)測(cè)的范疇。這些場(chǎng)景不僅具備交互性和自由度,用戶(hù)甚至可以通過(guò)鍵盤(pán)和鼠標(biāo)在網(wǎng)頁(yè)上進(jìn)行操作體驗(yàn)。盡管目前仍處于測(cè)試階段,官網(wǎng)上的案例已經(jīng)足夠讓人驚嘆,展示了AI在構(gòu)建空間模型方面的強(qiáng)大能力。
然而,就在World Labs發(fā)布后不久,谷歌DeepMind也不甘示弱,推出了其第二代“世界模型”Genie 2。與World Labs的項(xiàng)目相比,Genie 2似乎更加流暢,自由度更高。它不僅能夠生成類(lèi)似游戲的基礎(chǔ)世界模型,還支持用戶(hù)通過(guò)WASD鍵、空格和鼠標(biāo)來(lái)操控畫(huà)面中的角色。更令人稱(chēng)奇的是,AI能夠即時(shí)計(jì)算出根據(jù)操作產(chǎn)生的畫(huà)面,持續(xù)時(shí)間可長(zhǎng)達(dá)一分鐘,且生成的畫(huà)面和建模在用戶(hù)操控鍵盤(pán)回溯時(shí)仍能保持一致。
Genie 2中的角色和交互也頗具看點(diǎn)。角色不僅可以步行,還能跑、跳、爬梯子,甚至開(kāi)車(chē)和開(kāi)槍射擊。AI生成的NPC之間也能發(fā)生交互,盡管效果尚待完善。Genie 2還成功模擬了自然相關(guān)的運(yùn)動(dòng)場(chǎng)景,如水面波動(dòng)、煙霧飄散,以及重力和光線(xiàn)反射效果,展現(xiàn)出AI在理解現(xiàn)實(shí)世界物理規(guī)律方面的顯著進(jìn)步。
盡管視覺(jué)效果令人印象深刻,但DeepMind也坦誠(chéng)地指出,Genie 2目前仍處于早期版本,測(cè)試過(guò)程中仍會(huì)出現(xiàn)一些翻車(chē)案例。例如,在讓畫(huà)面中的小哥滑雪的任務(wù)中,AI卻將其變成了跑酷;在另一個(gè)花園場(chǎng)景中,玩家尚未操作,就突然飄過(guò)了一個(gè)幽靈。這些瑕疵表明,盡管取得了顯著進(jìn)步,但AI在理解現(xiàn)實(shí)世界方面仍有待完善。
值得注意的是,與以往的Sora類(lèi)視頻模型相比,Genie 2和World Labs的項(xiàng)目在訓(xùn)練方向和技術(shù)路線(xiàn)上有所不同。Sora雖然號(hào)稱(chēng)世界模型,但穿模和幻覺(jué)問(wèn)題難以解決,因?yàn)樗鼈冎饕蕾?lài)視頻素材進(jìn)行學(xué)習(xí),并不真正理解視頻中的物體如何交互。而Genie 2和World Labs則通過(guò)學(xué)習(xí)環(huán)境和物體之間的交互關(guān)系,取得了更接近真實(shí)世界的模擬效果。尤其是DeepMind的Genie 2,通過(guò)游戲素材進(jìn)行學(xué)習(xí),不僅學(xué)到了角色和畫(huà)面的動(dòng)態(tài)變化,還觀察到了鍵盤(pán)操作對(duì)畫(huà)面和動(dòng)作的影響,從而更全面地理解了物體與環(huán)境的交互。