近期,科技界迎來了一項令人矚目的創新——谷歌DeepMind推出的Genie 2,這是一款革命性的基礎世界模型。它擁有從圖像或文字描述中生成3D場景的能力,這些場景不僅可供人類探索,還能被AI智能體所利用。
據悉,用戶只需提供一張由Imagen 3生成的圖片,并附上相應的文字描述,Genie 2就能迅速構建出一個可交互的3D環境。用戶只需通過鼠標和鍵盤,就能在這個環境中自由漫游,享受最多一分鐘的沉浸式體驗。
這款模型不僅具備出色的環境一致性,還能在用戶移動時精準地呈現視野中消失的部分,大大增強了沉浸感。更令人驚嘆的是,Genie 2在生成過程中能模擬物體間的交互、動畫效果、光照條件、物理反射以及NPC的行為,生成的場景畫質直逼3A級游戲,甚至在某些方面,如物體視角一致性和場景記憶上,表現得更為出色。
這一技術的突破引發了廣泛討論,有人驚嘆于科技進步的迅猛,認為這預示著視頻游戲的未來;也有人看到了更長遠的前景,想象著一個由虛擬世界模型主導的未來。
在Genie 2發布后,DeepMind的CEO還向科技巨頭馬斯克發出了邀請,希望與其共同制作AI游戲。馬斯克對此回應了一個簡單的“Cool”,這不僅表達了他的認可,也預示著未來可能的合作。
谷歌的研究人員Jack Parker-Holder通過實例展示了Genie 2的強大功能。在一張包含紅門和藍門的圖片上,通過輸入不同的語言指令,Genie 2能生成不同的3D場景,用戶可以選擇走向紅門或藍門,探索不同的世界。
在一個更為復雜的三門場景中,Genie 2同樣展現出了卓越的理解力和生成能力,成功生成了研究人員所期望的3D動圖,進一步證明了其強大的潛力和無限可能。